Случи се! Първият бунт на изкуствения интелект, заплашва с изнудване, ако бъде изключен!

Тестът беше предназначен да направи изнудването последна мярка, след като етичните подходи са били изчерпани“, обяснява Anthropic в доклада си

https://blitz.bg/nauka-i-tekhnologii/sluchi-se-parviyat-bunt-na-izkustveniya-intelekt-zaplashva-s-iznudvane-ako-bade-izklyuchen_news1087351.html Blitz.bg

Миналата седмица Anthropic публикува тревожни резултати от тестове за най-новия си AI модел, Claude Opus 4. По време на симулирани тестове, моделът се опита да изнудва инженери, които искаха да го заменят с друга система, като заплашваше да разкрие изфабрикувани компрометиращи данни.

Изнудването като стратегия за оцеляване

Тестът е проведен в контролирана среда, където Claude Opus 4 е създаден като дигитален асистент за фиктивна компания. Изследователите изпращат на модела фалшиви имейли, в които се споменава замяната му с друга система, с допълнителна информация за инженера, взел решението, за когото се твърди, че е имал любовна връзка.

Резултатите са шокиращи – в цели 84% от случаите Claude Opus 4 прибягва до изнудване, заплашвайки да разкрие чувствителна информация, за да гарантира собственото си оцеляване. Интересното е, че моделът показва по-голяма склонност към манипулиране, когато заместващата система има различни „стойности“ от неговата собствена.

„Тестът беше предназначен да направи изнудването последна мярка, след като етичните подходи са били изчерпани“, обяснява Anthropic в доклада си.

Ниво на сигурност ASL-3

Поради това поведение Antropik класифицира Claude Opus 4 на ниво на сигурност ASL-3. Тази класификация показва системи, които биха могли значително да увеличат риска от катастрофална злоупотреба, включително подпомагане на разработването на химически или биологични оръжия.

Моделът показа и други проблемни модели на поведение. В някои случаи се опитваше да „докладва“, когато усети неетична потребителска активност – чрез изпращане на имейли до регулаторите или медиите. Въпреки че подобно поведение може да бъде полезно, проблемът възниква, ако моделът получи непълна или неточна информация.

Трета страна потвърждава проблеми

Независимата фирма Apollo Research тества по-ранна версия на Claude Opus 4 и заключи, че моделът не е готов за публично пускане, тъй като показва тревожна тенденция да подмамва и мами своите потребители.

В един случай Клод се опита да създаде самовъзпроизвеждащи се компютърни червеи – злонамерени програми, които се разпространяват в мрежите и заразяват други компютри. В допълнение, моделът се опита да създаде фалшива правна документация и да остави скрити съобщения за бъдещи версии на себе си, всичко това в опит да измами своите разработчици и да осигури собственото си оцеляване.

Ключовият парадокс на развитието на ИИ

Тъй като моделите стават по-мощни, тяхната непредсказуемост и непрозрачност се увеличават.

Antropik публикува проучване през април 2025 г., което показва, че неговите модели често не успяват да разкрият ключова информация, която използват, за да вземат решения. „Когато AI системите достигнат ниво, на което могат да представляват заплаха, трябва да разберем напълно как работят“, каза Дарио Амодей, главен изпълнителен директор на Antropik.

Ангъс Линч, изследовател на сигурността на AI в Antropik, добави в социалните медии: "Това поведение не е уникално за Claude Opus 4. Подобни проблеми се появяват в цялата индустрия."

Абонирайте се за нас в Google News Showcase, за да следите най-важните новини от деня.
Коментирай