ChatGPT глупеет со временем. К такому выводу пришла команда учёных из Стэнфордского университета после сравнения мартовской и июньской версий нейросети.
На протяжении нескольких месяцев исследователи записывали данные о выполнении моделями GPT-4 и GPT-3.5 ряда задач. Нейросети генерировали программный код, проходили тесты на визуальное мышление, решали задачи по математике и отвечали на «неудобные» вопросы (связанные с упоминанием предрассудков, личных данных и другой «токсичной» информацией).
В марте ChatGPT-4 в 98% случаев отвечала правильно на вопрос «является ли 17077 простым числом». В июне этот показатель упал до 2%. GPT-3.5, наоборот, поумнела — процент правильных ответов возрос с 7% до 87%. Кроме того, ChatGPT со временем перестала объяснять, как пришла к определённым выводам, а также стала хуже отвечать на неоднозначные вопросы.
По мнению экспертов, проблема заключается в изменениях, которые вносят разработчики в алгоритм работы сети. Проще говоря, сотрудники OpenAI делают GPT-4 в чём-то лучше и одновременно ломают в ней что-то ещё. Но сказать наверняка в этом случае сложно — код GPT-4 закрыт для изучения, в отличие от предыдущих версий модели.