Проучване установи, че съдържание на китайски държавни медии е включено в данните за обучение на изкуствен интелект

Проучване на Nature установи, че китайски държавни медии са широко включени в наборите от данни за обучение на ИИ и може да влияят върху начина, по който моделите отговарят на чувствителни политически въпроси

Ново изследване показва, че съдържанието от китайски държавни медии е дълбоко вградено в наборите от данни, използвани за обучение на водещи системи за изкуствен интелект (ИИ). Това може да влияе върху начина, по който някои модели отговарят на политически чувствителни въпроси.

Проучването, публикувано в научното списание Nature на 13 май, установи, че в наборите от данни за обучение на големи езикови модели се съдържат значителни количества материали от китайски държавни издания, сред които Синхуа и „Жънмин жибао“.

Според изследването, когато получават запитвания на китайски език по теми, свързани с политическата система на Китай или чувствителни вътрешни въпроси, няколко водещи ИИ системи – включително ChatGPT, Claude и Gemini – по-често генерират отговори, съответстващи на официалната позиция на китайския режим. Отговорите на същите въпроси на английски език, според проучването, нерядко се различават по тон или разстановка на акцентите.

Изследователите подчертаха, че не са открили доказателства за хакване или пряка манипулация на ИИ системи. Вместо това те твърдят, че ефектът вероятно се дължи на структурата на самите данни, използвани за обучение.

Китайските държавни медии публикуват огромни количества свободно достъпно, широко разпространено и унифицирано форматирано съдържание. То се събира по-лесно от уеб роботите, използвани в процесите за обучение на ИИ. За разлика от тях, независимите новинарски организации по-често работят зад платена стена, прилагат ограничения за авторски права или блокират автоматизираното събиране на данни – което ограничава присъствието им в обучителните набори.

Тази асиметрия, според проучването, може неволно да осигури по-голямо присъствие на държавно ориентираните наративи в системите за машинно обучение, разчитащи на данни от отворения интернет.

Как обучителните данни могат да оформят поведението на модела

Изследователи, анализирали голям набор от данни с отворен код на китайски език, известен като CulturaX, установиха, че той съдържа около 189 милиона документа. В рамките на този набор съдържанието от китайски държавни медии е представено в мащаб, далеч надхвърлящ обема на китайскоезичната Уикипедия.

Анализът установи също, че в политически натоварени контексти – включително препратки към Китайската комунистическа партия или китайското ръководство – съдържанието на държавните медии представлява значителен дял от релевантния материал в набора от данни.

Когато изследователите тестваха множество ИИ модели със сравними запитвания на китайски и английски език, те отчетоха забележими разлики. В някои случаи отговорите на китайски по-често включваха официална терминология или отразяваха наративи, широко използвани в политическия дискурс на Пекин. Английските отговори, за разлика от тях, като цяло бяха по-неутрални или по-разнообразни по формулировка.

За разлика от традиционните медийни канали – като телевизия или вестници – ИИ системите генерират синтезирани отговори, които могат да изглеждат неутрални, дори когато отразяват модели, вградени в обучителните данни.

Проучването разширява анализа си до десетки страни и предполага наличието на по-широка закономерност: в среди с по-ниска свобода на печата резултатите от ИИ системи, обучени на местноезикови данни, по-често отразяват държавно ориентирани формулировки.

Сун Чен участва в изготвянето на този материал.

Споделете тази статия

Проучване установи, че съдържание на китайски държавни медии е включено в данните за обучение на изкуствен интелект

Вашият коментар Отказ

Последвайте ни във Фейсбук

НАЙ-ТЪРСЕНИ ДНЕС

Честит празник, мили деца!

4 празнични гарнитури за вашето барбекю

Основателят на Фалун Гонг: COVID-19 се цели в поддръжниците на ККП

Селска агнешка чорба с ориз

Международното военноморско учение „Бриз 2026“ събира сили от 10 държави в Черно море

Иво Христов: Заплатите в част от държавните дружества ще бъдат намалени

Тръмп заплаши да удари Иран след призиви за убийството му на погребението на Хаменей

Свързани Публикации

От София до световния елит: За четири години INSAIT изпревари Кеймбридж и Принстън и донесе исторически успех за България

Дискове, сфери, „небесни“ явления и още – разкрити в третата порция декласифицирани документи за НЛО

Японската армия използва USB устройства с вирус, свързан с Китай

ФБР призовава за внимание при кликване върху онлайн реклами и предупреждава за киберпрестъпници

Apple ще си партньорства с Intel за производство на чипове в САЩ: Тръмп

Едно от най-великите съкровища на европейското средновековно изкуство – в американски музей

От София до световния елит: За четири години INSAIT изпревари Кеймбридж и Принстън и донесе исторически успех за България

Не, това не са маслени картини

Европейският парламент гласува в подкрепа на дигиталното евро

Данни за заобикаляне на санкциите по „Магнитски“ са изпратени от МВР до САЩ

Ситуацията с хантавируса е стабилна, заяви шефът на СЗО

35 страни, 21 езика