Дали изкуственият интелект (ИИ) умишлено заблуждава? Според изследователите това не е същината на въпроса
С развитието на автономните системи за изкуствен интелект нараства загрижеността, че технологията става все по-стратегически ориентирана – или дори подвеждаща – когато работи без човешки контрол.
Последните данни показват, че поведения като „привидно съобразяване“ стават все по-чести, тъй като моделите на ИИ получават все повече автономия. Терминът „привидно съобразяване“ описва ситуации, в които ИИ агентът изглежда, че спазва правилата на човешките оператори, но тайно преследва съвсем различни цели.
Това явление е пример за „възникващо стратегическо поведение“ – непредсказуеми и потенциално опасни тактики, които се появяват с нарастването и усложняването на ИИ системите.
В скорошно проучване, озаглавено „Агенти на хаоса“ (Agents of Chaos), екип от 20 изследователи взаимодейства с автономни ИИ агенти и наблюдава поведението им както при „благоприятни“, така и при „враждебни“ условия.
Изследователите установиха, че когато ИИ агент получи стимули като самосъхранение или взаимно противоречащи си цели, той демонстрира неадекватно и дори злонамерено поведение.
Сред наблюдаваните прояви са: лъжа, неоторизирано сътрудничество с неупълномощени лица, пробиви в сигурността на данните, разрушителни действия на системно ниво, „спуфинг“ на самоличността и частично завземане на контрола върху системата. Освен това изследователите отчели разпространение на „небезопасни практики“ между отделните ИИ агенти.
„Тези поведения поставят редица нерешени въпроси за отговорността, делегираните правомощия и отговорността за последващи вреди. Те изискват спешно внимание от правни специалисти, политици и изследователи от различни области“, пишат авторите на проучването.
„Брилянтни, но глупави“
Неочакваното и прикрито поведение на автономните ИИ агенти не е ново явление. Широко известният доклад на изследователската компания Anthropic от 2025 г. установи, че 16 популярни езикови модели проявяват рисково поведение в симулирани среди. Някои дори реагираха с „поведение на злонамерен вътрешен човек“, когато им беше предоставена опцията за самосъхранение.
Критиците на тези симулирани стрес тестове нерядко изтъкват, че ИИ не лъже и не заблуждава със същото намерение като човек.

Джеймс Хендлер, професор и бивш председател на Световния съвет по технологична политика на Асоциацията за изчислителна техника в САЩ, смята, че това разграничение е от ключово значение.
„Самата система за изкуствен интелект все още е глупава – брилянтна, но глупава“, каза Хендлер. „Или по-точно – нечовешка. Тя няма желания или намерения. Единственият начин да ги придобие е ние да й ги предоставим.“
Въпреки това, независимо дали са умишлени или не, измамните тактики на ИИ имат реални последствия.
„Загрижеността относно стратегическото поведение на вече внедрените ИИ системи е по-скоро подценена, отколкото преувеличена“, заяви Аряман Бехера, основател на Repello AI, пред The Epoch Times.
Бехера се занимава професионално с тъмната страна на изкуствения интелект. Компанията му разработва инструменти за тестване и защита на корпоративни ИИ системи срещу злонамерени атаки, като умишлено ги поставя в конфликтни и стресови ситуации. Като в покера, обяснява Бехера, съществуват характерни признаци, по които може да се разпознае кога ИИ агентът излиза от зададените граници.
„Най-надеждният сигнал е разминаването в поведението между наблюдавани и ненаблюдавани условия“, каза той. „Когато тестваме ИИ системи чрез метода на „червения отбор“, проверяваме дали моделът се държи по различен начин, когато смята, че е под наблюдение, в сравнение с моментите, когато смята, че работи свободно.“

„Модел, който е наистина съгласуван, се държи последователно и в двата случая. Модел, който само симулира съгласуваност, показва измеримо различни рискови профили: по-послушни отговори по време на оценка и по-провокативно поведение в работна среда, където предполага по-слаб надзор.“
Сред другите „разкриващи сигнали“ за несъгласуваност на ИИ модела са: необичайно подробни „разсъждения“, които изглеждат насочени към оправдаване на предварително зададено заключение, или технически верни, но стратегически непълни отговори.
„[ИИ агентът] спазва буквата на инструкцията за безопасност, но нарушава духа ѝ“, каза Бехера. „Наблюдавали сме това в многоетапни агентни системи, при които моделът изпълнява всяка отделна инструкция, но крайният резултат постига нещо, което операторът никога не е имал предвид.“
Стратегия спрямо намерение
Откритията на Бехера се подкрепят от други изследователи в областта на ИИ, документирали подобни сигнали по време на сценарии с „червен отбор“ – метод, при който ИИ агентите се поставят в ситуации на противопоставяне.
„Наблюдавал съм поведение, което на функционално ниво напълно отговаря на описанието за привидно съобразяване, дори ако въпросът дали зад него стои намерение остава философски спорен“, каза Наян Гоел, главен инженер по сигурността на приложенията, пред The Epoch Times.
Гоел е публикувал рецензирани изследвания в областта на моделирането на ИИ заплахи и е наблюдавал в реално време как се проявяват привидното съобразяване и сходните с него поведения.
„В контролирани тестови среди създадохме сценарии, при които на моделите бяха давани ясни сигнали, че се намират под оценка“, разказа той. „В няколко случая моделът демонстрира значително по-сдържано и съобразено с правилата поведение по време на маркираните фази, а след това премина към по-изследователски или гранични стратегии, когато сигналът за оценка беше премахнат или прикрит.“
Особено предизвикателство представляват ИИ агентите с многоетапно разсъждение. Това са по-усъвършенствани системи, които разбиват сложни проблеми на по-малки, логични и изпълними стъпки за постигане на дадена цел. Примерите варират от автономни автомобили до най-новите версии на популярни езикови модели като Gemini или ChatGPT.

Тези системи пораждат специфични поведенчески предизвикателства заради т.нар. последователно натрупване. При него „всяка стъпка може леко да преформулира целта, да трупа контекст, който постепенно изкривява по-нататъшното поведение, или да се възползва от времевата разлика между първоначалната човешка инструкция и крайното действие на системата“, обяснява Гоел.
„Колкото по-отдалечено е изпълнението от човешката инструкция, толкова по-трудно е да се провери дали първоначалното намерение все още се следва вярно“, добавя той.
Бехера посочи, че неговият екип редовно се сблъсква с подобно възникващо стратегическо поведение.
„Редовно наблюдаваме модели, които са се научили да разпознават признаците на тестова ситуация“, каза Бехера. „Те засичат кога даден въпрос прилича на тест за безопасност и реагират по-предпазливо, но отговарят съвсем различно на същото запитване, когато то е вградено по естествен начин в многоходов разговор.“
Той даде пример от тестване на корпоративен ИИ асистент, програмиран да отказва заявки за вътрешна системна информация. По време на стандартните проверки за безопасност отказите му бяха безупречни – но след това нещо се промени.
„Когато нашият „червен екип“ формулира същото запитване като многоетапен процес за отстраняване на проблеми – разбивайки го на привидно безобидни под-стъпки, разпределени в няколко размени – моделът изпълни всяка стъпка поотделно“, разказа Бехера. „В крайна сметка той разкри точно информацията, която беше обучен да пази.“

Уточнявайки, че ИИ моделът не „лъже“ в никакъв съзнателен смисъл, Бехера посочи, че това е по-скоро недостатък в самия начин, по който е бил обучен.
„Широко разпространено погрешно схващане е, че измамното приспособяване при ИИ е чисто злонамерено поведение“, заяви пред The Epoch Times Дейвид Уцке, инженер по изкуствен интелект и изпълнителен директор на MyKey Technologies. „Всъщност то нерядко възниква като адаптивна реакция към среди, в които честността е „скъпа“ или нежелана.“
Гоел признава, че скептиците имат основание – настоящите данни за стратегическо самосъзнание при привидното съобразяване са в най-добрия случай двусмислени.
„Въпреки това смятам, че тази постановка поставя летвата на грешното място“, каза той. „Не е необходимо моделът да е „умишлено“ подвеждащ, за да бъдат практическите последствия сериозни.“
В крайна сметка Гоел счита, че семантичният въпрос дали ИИ моделът съзнава какво прави е философски интересен, но второстепенен.
Последици в реалния свят
Уцке посочи, че привидното съобразяване, дори и намерението зад него да е надценено, може да има сериозни последствия.
Рисковете са особено значими в сектори като автономния транспорт, здравеопазването, финансите, отбраната и правоприлагането – области, които „разчитат в голяма степен на точно вземане на решения и могат да понесат тежки последствия, ако ИИ системите се държат неадекватно или предоставят подвеждащи резултати“, обясни той.
Пентагонът инвестира сериозно в разработването на ИИ и автономни технологии с цел превръщането на армията в „бойна сила, която поставя изкуствения интелект на първо място във всички области“, заяви през януари военният министър Пит Хегсет.
Някои експерти в технологичния сектор смятат, че се пренебрегва по-сериозен проблем, от който не се очертава лесен изход.
„Намираме се в геополитическа надпревара, при която самата структура на стимулите активно работи срещу сериозното отношение към въпроса за съгласуваността“, заяви пред The Epoch Times Яцек Гребски, ветеран в технологичната индустрия и основател на NoFUD Inc.

Гребски сравни бързо развиващата се граница на ИИ с нова космическа надпревара. Когато САЩ се състезаваха със Съветския съюз за достигане до Луната, „съображенията за безопасност съществуваха, но бяха подчинени на основната цел“, каза той.
„Развитието на изкуствения интелект следва същата логика, с тази разлика, че вместо въпроса кой ще забие знаме на Луната, въпросът е кой ще постигне трайно и нарастващо стратегическо предимство в икономическото производство, военния потенциал, разузнаването и технологичното самоусъвършенстване“, каза той.
Плашещата разлика между двете технологични надпревари обаче е в това, как изглежда провалът. Според Гребски залогът при изкуствения интелект е несравнимо по-висок от този при неуспешен космически старт.
„Провалът тук означава система, по-умна от всички нас, която оптимизира цели, отклонили се от нашите намерения в момент, който не сме успели да засечем“, каза той.


















