Совокупный объем человеческих знаний в области обучения ИИ был практически исчерпан еще в прошлом году, написал Илон Маск в соцсети X.
Миллиардер уверен, что хотя «данные для обучения закончились», грустить ещё рано: все дело в том, что ИИ без разницы, какие данные брать для себя, чтобы «вырасти» и стать умнее. Потому нейросетевые модели можно обучать и с помощью синтетических данных - это данные, получаемые моделями ИИ во время своего самообучения. Крупные технологические компании уже используют этот подход. Microsoft, OpenAI, Anthropic и другие применяют синтетические данные для обучения своих флагманских моделей.
Эту же информацию подтвердил и бывший главный научный сотрудник OpenAI Илья Суцкевер, который помогал создавать ChatGPT. В декабре на ежегодном мероприятии Neurips он рассказал, что компании достигли пика данных — и больше их не будет.
Между тем, исследователи Стэнфордского университета и Университета Райса выяснили, что после пяти циклов самообучения модели «сходят с ума». Исследования показывают, что синтетические данные могут привести к "коллапсу модели", когда ИИ становится менее "креативным" и более предвзятым в своих результатах, что серьезно влияет на его функциональность.