Исследователи из Amazon обучили самую крупную в истории модель преобразования текста в речь, которая, по их утверждению, обладает “новыми” качествами, улучшающими ее способность естественным образом произносить даже сложные предложения.
Эти модели всегда будут продолжают расти и совершенствоваться. Однако исследователи надеются увидеть тот скачок в способностях, когда языковые модели достигнут определенного размера. Как только LLM достигают определенного уровня, они становятся намного более надежными и универсальными, способными выполнять задачи, которым их не обучали.
Это не значит, что искусственный интеллект обретает чувствительность или что-то в этом роде. Просто после определенного момента их производительность в определенных разговорных задачах становится выше. Команда Amazon AGI подумала, что то же самое может произойти и с развитием моделей преобразования текста в речь, и их исследования показывают, что это действительно так.
Новая модель называется Big Adaptive Streamable TTS с расширяющимися возможностями, которую они превратили в аббревиатуру BASE TTS. Самая крупная версия модели использует 100 000 часов общедоступной речи, 90% из которых на английском, остальное на немецком, голландском и испанском языках.
При 980 миллионах параметров BASE-large, по-видимому, является самой большой моделью в этой категории. Они также обучили модели с параметрами 400 М и 150 М, основанные на 10 000 часах аудиозаписи. Идея заключается в том, что если одна из этих моделей демонстрирует эмерджентное поведение, а другая — нет, у вас есть диапазон, в котором это поведение начинает проявляться.
Как оказалось, модель среднего размера продемонстрировала скачок в возможностях, который искала команда, не обязательно в обычном качестве речи (оно оценивается лучше, но всего на пару пунктов), но в наборе возникающих способностей, которые они наблюдали и измеряли. Вот примеры сложного текста:
Сложные существительные: «Бекхэмы решили арендовать очаровательный каменный коттедж в причудливой сельской местности.»
Эмоции: «Боже мой! Мы действительно едем на Мальдивы? Это невероятно!” Дженни взвизгнула, подпрыгивая на цыпочках от нескрываемого ликования.»
Иностранные слова: «Мистер Генри, известный своими мизансценами, организовал ужин из семи блюд, каждое из которых было изюминкой.»
Паралингвистика (то есть нечитаемые слова): «Тише, Люси, тише, мы не должны будить твоего младшего братика”, — прошептал Том, когда они на цыпочках проходили мимо детской.»
Знаки препинания: «Она получила странное сообщение от своего брата: «Экстренная помощь на дому; звони как можно скорее! Мама и папа волнуются…#семейныевещи.»
Вопросы: «Но вопрос о Brexit остается открытым: после всех испытаний и невзгод, найдут ли министры ответы вовремя?»
Синтаксические сложности: «Фильм, в котором Де Мойя, недавно удостоенный премии lifetime achievement award, снялся в 2022 году, стал кассовым хитом, несмотря на неоднозначные отзывы.»
“Эти предложения предназначены для выполнения сложных задач – разбора предложений о садовой дорожке, постановки фразового ударения на многословных сложных существительных, создания эмоциональной речи или произнесения шепотом, или создания правильных фонем для иностранных слов, таких как “qi”, или знаков препинания, таких как “@” – говорят разработчики.
Такие функции обычно сбивают с толку механизмы преобразования текста в речь, которые неправильно произносят, пропускают слова, используют странную интонацию или допускают какие-либо другие ошибки. У базовой TTS все еще были проблемы, но она справлялась намного лучше, чем ее современники — модели, такие как Tortoise и VALL-E.
На сайте, который исследователи создали для этого, есть множество примеров того, как новая модель совершенно естественно произносит эти сложные тексты. Конечно, они были выбраны исследователями, так что они обязательно отборные, но все равно впечатляют. Вот парочка, если вам не хочется листать:
Поскольку три БАЗОВЫЕ модели TTS имеют общую архитектуру, кажется очевидным, что размер модели и объем ее обучающих данных, по-видимому, являются причиной способности модели справляться с некоторыми из вышеперечисленных сложностей. Имейте в виду, что это все еще экспериментальная модель и процесс, а не коммерческая модель или что-то в этом роде. Более поздние исследования должны будут определить точку перегиба для возникающих способностей и как эффективно обучать и внедрять полученную модель.
Представитель Amazon AI Лео Зао написал, что они не заявляют здесь никаких претензий на эксклюзивные свойства.
“Мы считаем преждевременным делать вывод о том, что такое появление не будет проявляться в других моделях. Предлагаемый нами набор тестов для выявления эмерджентных способностей является одним из способов количественной оценки этого появления, и возможно, что применение этого набора тестов к другим моделям могло бы привести к аналогичным наблюдениям. Отчасти поэтому мы решили опубликовать этот набор тестов публично.»Закон о масштабировании» для TTS ещё не подлежит принятию, и мы с нетерпением ожидаем дальнейших исследований по этой теме”.
Примечательно, что эта модель является “потоковой”, что означает, что ей не нужно генерировать целые предложения сразу, но она передается момент за моментом с относительно низкой скоростью передачи данных. Команда также попыталась упаковать речевые метаданные, такие как эмоциональность, просодия и так далее, в отдельный поток с низкой пропускной способностью, который мог бы сопровождать обычное аудио.
Похоже, что модели преобразования текста в речь могут стать прорывными в 2024 году. Но нельзя отрицать полезность этой технологии, в частности, для обеспечения доступности. Команда отмечает, что отказалась публиковать исходный код модели и другие данные из-за риска того, что злоумышленники воспользуются этим. Однако, в конце концов, кот вылезет из мешка.