Christian Wiediger/Unsplash
Исследовательская группа Amazon по искусственному интеллекту анонсировала разработку самой большой на данный момент модели для преобразования текста в речь. Под «самой большой» подразумевается количество параметров и объем данных, использованных для обучения.
Что известно
Представленная модель под названием BASE TTS содержит 980 млн параметров. Ее обучали на 100 000 часов аудиозаписей речи с публичных ресурсов, в основном на английском языке.
Также системе продемонстрировали примеры разговорных фраз на других языках, чтобы она могла правильно произносить распространенные выражения.
В ходе тестирования на небольших данных команда Amazon выявила «скачок» в качестве синтеза речи при достижении 150 млн параметров. При этом модель начала демонстрировать ряд новых языковых возможностей.
Специалисты отмечают, что BASE TTS появится в открытом доступе во избежание неэтичного использования. Вместо этого она послужит учебной базой для улучшения существующих решений в данной сфере.