Компания OpenAI представила новую версию языковой модели с генеративным искусственным интеллектом GPT-4o.
Она работает с речью, текстом, видео и реагирует на аудио за 320 миллисекунд, что сравнимо со временем реакции человека в разговоре, сообщается на сайте компании.
Буква «o» в названии - это сокращение от «omni» («всесторонний»).
«GPT-4o может работать с голосом, текстом и зрением. И это невероятно важно, потому что мы смотрим на будущее взаимодействия между нами и машинами», - сказала технический директор OpenAI Мира Мурати во время презентации модели в Сан-Франциско 13 мая.
Как отмечает TechCrunch, GPT давно предлагает голосовой режим, но GPT-4o значительно улучшает эту функцию, позволяя пользователям взаимодействовать с ChatGPT как с помощником.
Модель реагирует на голос пользователя в режиме реального времени, может улавливать нюансы в голосе, генерируя ответ в «различных эмоциональных стилях», включая пение. Новая модель свободно владеет 50 языками, в том числе русским, казахским, грузинским, китайским, арабским, турецким, сербским. Причём понимать и переводить речь он способен на лету — прямо как профессионал-переводчик.
GPT-4o доступна пользователям с 13 мая. Однако протестировать голосовые функции в ближайшие недели смогут лишь участники «небольшой группы». В июне эта опция появится у платных подписчиков.