OpenAI acaba de anunciar que lançou uma nova ferramenta chamada Voice Engine. Esta é uma tecnologia de clonagem de voz que pode imitar qualquer locutor analisando uma amostra de áudio de 15 segundos. A empresa afirma que gera “fala com som natural” com “vozes emotivas e realistas”.
A tecnologia é baseada na empresa e está em desenvolvimento desde 2022. OpenAI já usa uma versão do conjunto de ferramentas para potencializar as vozes predefinidas disponíveis na atual API de conversão de texto em fala e no recurso Read Aloud. Há um monte de amostras no blog oficial da empresa e elas parecem assustadoramente próximas da realidade. Eu encorajo você a ouvi-los e imaginar as possibilidades, boas e ruins.
A OpenAI afirma que vê esta tecnologia sendo útil para assistência à leitura, tradução de idiomas e para ajudar aqueles que sofrem de problemas de fala repentinos ou degenerativos. A empresa levantou uma pesquisa que ajudou um paciente com problemas de fala criando um clone do Voice Engine extraído de áudio gravado para um projeto escolar.
Apesar dos benefícios potenciais, os malfeitores certamente abusariam dessa tecnologia para se envolverem em algumas tolices graves e profundas. Com isso em mente, o Voice Engine ainda não está pronto para o horário nobre, pois há sérias questões de privacidade que devem ser atendidas antes de uma implementação completa.
A OpenAI reconhece que esta tecnologia apresenta “sérios riscos, que são especialmente importantes em um ano eleitoral”. A empresa afirma que está incorporando feedback de “parceiros dos EUA e internacionais do governo, mídia, entretenimento, educação, sociedade civil e muito mais” para garantir o lançamento do produto com um risco mínimo. Todos os testadores concordaram com as políticas de uso da OpenAI, que proíbem a representação de outro indivíduo sem consentimento ou direito legal.
Além disso, qualquer pessoa que utilize a tecnologia terá que divulgar ao seu público que as vozes são geradas por IA. A OpenAI implementou medidas de segurança, como marca d’água para rastrear a origem de qualquer áudio e “monitoramento proativo” de como o sistema está sendo usado. Quando o produto for lançado oficialmente, haverá uma “lista de vozes proibidas” que detecta e impede alto-falantes gerados por IA que são muito semelhantes a figuras proeminentes.
Quanto a quando esse lançamento ocorrerá, o OpenAI permanece calado. TechCrunch revelou alguns dados de preços potenciais e parece que vai diminuir. O Voice Engine pode custar US$ 15 por milhão de caracteres, o que equivale a cerca de 162.500 palavras. Esta é mais ou menos a duração do livro de Stephen King O brilho. Certamente parece uma maneira econômica de fazer um audiolivro. Os materiais de marketing também fazem referência a uma versão “HD” que custa o dobro, mas a empresa não detalhou como isso funcionará.
OpenAI tem feito grandes movimentos esta semana. Acabou de anunciar outra parceria com sua melhor amiga, a Microsoft, para construir um supercomputador baseado em IA chamado “Stargate”. O projeto supostamente custará colossais US$ 100 bilhões, de acordo com The Information.
Este artigo contém links afiliados; se você clicar nesse link e fizer uma compra, poderemos ganhar uma comissão.