Проучване на Nature установи, че китайски държавни медии са широко включени в наборите от данни за обучение на ИИ и може да влияят върху начина, по който моделите отговарят на чувствителни политически въпроси
Ново изследване показва, че съдържанието от китайски държавни медии е дълбоко вградено в наборите от данни, използвани за обучение на водещи системи за изкуствен интелект (ИИ). Това може да влияе върху начина, по който някои модели отговарят на политически чувствителни въпроси.
Проучването, публикувано в научното списание Nature на 13 май, установи, че в наборите от данни за обучение на големи езикови модели се съдържат значителни количества материали от китайски държавни издания, сред които Синхуа и „Жънмин жибао“.
Според изследването, когато получават запитвания на китайски език по теми, свързани с политическата система на Китай или чувствителни вътрешни въпроси, няколко водещи ИИ системи – включително ChatGPT, Claude и Gemini – по-често генерират отговори, съответстващи на официалната позиция на китайския режим. Отговорите на същите въпроси на английски език, според проучването, нерядко се различават по тон или разстановка на акцентите.
Изследователите подчертаха, че не са открили доказателства за хакване или пряка манипулация на ИИ системи. Вместо това те твърдят, че ефектът вероятно се дължи на структурата на самите данни, използвани за обучение.
Китайските държавни медии публикуват огромни количества свободно достъпно, широко разпространено и унифицирано форматирано съдържание. То се събира по-лесно от уеб роботите, използвани в процесите за обучение на ИИ. За разлика от тях, независимите новинарски организации по-често работят зад платена стена, прилагат ограничения за авторски права или блокират автоматизираното събиране на данни – което ограничава присъствието им в обучителните набори.
Тази асиметрия, според проучването, може неволно да осигури по-голямо присъствие на държавно ориентираните наративи в системите за машинно обучение, разчитащи на данни от отворения интернет.
Как обучителните данни могат да оформят поведението на модела
Изследователи, анализирали голям набор от данни с отворен код на китайски език, известен като CulturaX, установиха, че той съдържа около 189 милиона документа. В рамките на този набор съдържанието от китайски държавни медии е представено в мащаб, далеч надхвърлящ обема на китайскоезичната Уикипедия.
Анализът установи също, че в политически натоварени контексти – включително препратки към Китайската комунистическа партия или китайското ръководство – съдържанието на държавните медии представлява значителен дял от релевантния материал в набора от данни.
Когато изследователите тестваха множество ИИ модели със сравними запитвания на китайски и английски език, те отчетоха забележими разлики. В някои случаи отговорите на китайски по-често включваха официална терминология или отразяваха наративи, широко използвани в политическия дискурс на Пекин. Английските отговори, за разлика от тях, като цяло бяха по-неутрални или по-разнообразни по формулировка.
За разлика от традиционните медийни канали – като телевизия или вестници – ИИ системите генерират синтезирани отговори, които могат да изглеждат неутрални, дори когато отразяват модели, вградени в обучителните данни.
Проучването разширява анализа си до десетки страни и предполага наличието на по-широка закономерност: в среди с по-ниска свобода на печата резултатите от ИИ системи, обучени на местноезикови данни, по-често отразяват държавно ориентирани формулировки.
Сун Чен участва в изготвянето на този материал.
















