Увольнения откладываются. Передовые нейросети пока не способны заменить инженеров-программистов. К таким выводим пришли исследователи OpenAI, обнаружившие, что ведущие модели и инструменты кодирования все еще отстают от человека в решении основных задач.
– Мы оценили производительность моделей и обнаружили, что пограничные нейросети по-прежнему не способны решать большинство задач, – заявили исследователи. – ИИ преуспевает в одних областях, он ограничен в других. Например, агенты ИИ умеют локализовать проблемы, но плохо разбираются в их первопричине.
Хотя они могут быстро определить местоположение проблемы и использовать поисковые возможности для доступа к необходимым хранилищам быстрее, чем человек, их понимание ограничено с точки зрения того, как проблема распространяется на различные компоненты и файлы.
Это часто приводит к неправильным или недостаточно полным решениям, и агенты часто терпят неудачу, не найдя нужный файл или место для редактирования.
Сравнивая две модели OpenAI, o1 и GPT-4o, а также модель 3.5 Sonnet от Claude, исследователи обнаружили, что все они не смогли полностью решить одну конкретную проблему пользовательского интерфейса.
В то время как o1 решила основную проблему, она упустила ряд других, а GPT-4o не смогла решить даже начальную проблему. Sonnet быстро определил первопричину проблемы и исправил ошибку, но решение не было всеобъемлющим и не прошло сквозное тестирование исследователей.
В целом, по словам исследователей, инструменты для программирования с помощью ИИ способны сделать разработку ПО более продуктивной, но инженерам следует остерегаться потенциальных недостатков кода, созданного ИИ.