Исследователи изучили способность ИИ-агентов в кодировании. Они оценили их умение не просто писать код, но и поддерживать его в долгосрочной перспективе. Многие модели не справились с этой задачей.
Исследование проводили сотрудники китайской компании Alibaba Group и Университета Сунь Ятсена.
В ходе наблюдений 18 моделей от 8 провайдеров выполняли 100 задач на реальных кодовых базах. Нейросетям нужно было не просто выполнить разовое задание, как их обычно тестируют, а поддерживать долгосрочную эволюцию кодовой базы, добавляя новые функции и не нарушая работы старых.
В итоге большинство ИИ-агентов продемонстрировали регресс: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, то есть не смогли выполнить даже 37% задач. В целом 75% сработали плохо. Модели быстро набирали очки на простых правках, но в долгосрочной перспективе вязли в последствиях собственных архитектурных решений. В течение 233 дней модели накопили технические проблемы, создавая «хрупкие» коды и жертвуя их качеством ради быстрых результатов.
Добавим, в 2025 году в нескольких странах мира в мессенджере Signal произошел сбой.