Въпреки уверенията на разработчиците за напредък в областта на изкуствения интелект, новите актуализации на големите езикови модели (LLM) показват тревожно увеличение на грешките. Това поставя под съмнение надеждността на AI системите и техния бъдещ потенциал.
Ръст на халюцинациите при OpenAI и Vectara
Доклад на OpenAI от април разкрива значителен ръст на така наречените „халюцинации” – грешки, при които моделът генерира неверни или несъществуващи данни. Според доклада:
-
Моделът o1, пуснат в края на 2024 г., е халюцинирал в 16% от случаите.
-
Моделът o3 е показал грешки в 33% от случаите.
-
Най-новият модел o4-mini е достигнал тревожните 48% грешки.
Подобна тенденция се наблюдава и при платформата Vectara, където новият модел DeepSeek-R1, разработен с фокус върху подобрен логически извод, демонстрира двуцифрен ръст на халюцинациите, отбелязва New Scientist.
„Много от грешките на DeepSeek-R1 са логически правилни, но не са присъствали в оригиналните документи,“ коментира Форест Шенг Бао от Vectara.
Разработчиците на AI модели отричат влошаването на качеството
Въпреки статистиките, OpenAI отрича връзката между актуализациите и увеличението на грешките. Според представители на компанията, екипът работи активно за намаляване на халюцинациите в следващите версии на своите модели.
Критики към терминологията: „Халюцинации” или статистически грешки?
Емили Бендър, лингвист от Вашингтонския университет, критикува използването на термина „халюцинации”, определяйки го като антропоморфизация на AI системите.
„LLM не разбират смисъла – те предсказват следващата дума въз основа на статистика. Те не могат да халюцинират в истинския смисъл на думата,“ подчертава тя.
Остарели данни и ненадеждни източници: Другата страна на проблема
Арвинд Нараянан, експерт по компютърни науки от Принстънския университет, поставя акцент върху качеството на данните, използвани за обучение на AI моделите. Според него:
-
Моделите работят с остарели данни, които не отразяват актуалните реалности.
-
Включването на ненадеждни източници създава фалшиви връзки и грешни заключения.
„Увеличаването на обема на данните за обучение няма да реши проблема с надеждността,“ твърди Нараянан.
Какво препоръчват експертите?
Ситуацията поставя под въпрос бъдещето на LLM и тяхната роля в генерирането на достоверна информация.
-
Арвинд Нараянан съветва AI моделите да се използват само в случаи, когато проверката на отговора отнема по-малко време, отколкото самостоятелното търсене.
-
Емили Бендър препоръчва пълно избягване на LLM за получаване на факти:
„Тези системи не са предназначени да генерират знания – те имитират реч,” казва тя.
Не корекция на алгоритмите, а промяна в подхода
Експертите са категорични: решението не е в оптимизиране на алгоритмите, а в промяна на методите за проверка на информацията. Ако тенденцията за увеличаване на грешките продължи, това може да подкопае доверието в AI технологиите и тяхното широко приложение в обществото.