Mariia Shalabaieva/Unsplash
Компания OpenAI представила инструмент клонирования голоса Voice Engine, который может по сути дублировать чью-либо речь на основе 15-секундного аудиообразца.
Что известно
Voice Engine основан на уже существующем API преобразования текста в речь и разрабатывается с 2022 года. OpenAI уже использует версию этого набора инструментов для работы с предустановленными голосами.
Технология может найти применение в таких сферах, как чтение вслух, перевод языков и помощь людям с нарушениями речи. В качестве примера, OpenAI рассказала о пилотном проекте в Университете Брауна, где для пациента с речевыми расстройствами был создан клон голосового движка на основе ранее записанного аудио.
Несмотря на потенциальные преимущества, существуют опасения по поводу возможного злоупотребления этой технологией для создания поддельного аудиоконтента. В связи с этим OpenAI пока не готова к полномасштабному публичному релизу Voice Engine и сосредоточена на решении проблем конфиденциальности и безопасности.
Компания заявила, что учитывает отзывы партнеров из различных отраслей, включая правительство, СМИ и гражданское общество, чтобы обеспечить безопасный запуск продукта. Все участники предварительного тестирования должны соблюдать политику использования, запрещающую выдавать себя за другого человека без согласия.
Кроме того, OpenAI реализует меры безопасности, такие как нанесение водяных знаков для отслеживания происхождения аудио, проактивный мониторинг использования системы и создание “списка запрещенных голосов” для предотвращения клонирования известных личностей.
Цена и когда ждать
Точные сроки официального выпуска и окончательные цены пока не объявлены. По данным TechCrunch, Voice Engine может стоить $15 за миллион символов, что делает его более бюджетным вариантом по сравнению с конкурентами. Также упоминается версия “HD” с более высокой ценой.