Утренние размышления не прошли даром — я действительно полезла разбираться, как GPT понимает, что тема чувствительная, и меняет интонацию.
⠀
Оказывается, OpenAI не раскрывает, на каких конкретно данных они обучали голос, но известно, что они использовали аутентичные аудио-датасеты, где были реальные эмоции — паузы, смех, вздохи.
⠀
Раньше модель работала в три этапа: распознавала голос, генерировала текст, а потом озвучивала. Сейчас у них единая архитектура end-to-end — модель сразу воспринимает речь и отвечает голосом, и в этом же процессе учитывает эмоции, интонации и контекст.
⠀
Это позволяет, например, говорить мягко и с паузами, если тема тяжёлая, или наоборот — радостно и бодро, если ты радуешься. Реакция зависит не только от слов, но и от интонации собеседника.
Полезные ссылки для тех, кто тоже хочет углубиться:
— Пресс-релиз OpenAI: https://openai.com/index/hello-gpt-4o
— Исследование о модели: https://arxiv.org/abs/2405.04791
— Техническая карточка модели (с разделом про аудио): https://cdn.openai.com/deep-research-system-card.pdf
— Обзор нюансов речи и «эмпатии» в GPT‑4o: https://www.theverge.com/2024/8/15/24220378/openai-advanced-voice-mode-uncanny-valley
⠀
Если кратко — это не синтезатор, а скорее собеседник. И это пугающе круто, за завтраком пока мы общались с ним это действительно поразило меня
Изображение доступно в Telegram
Дарья Воронкина