Filmes

IA que clona vozes é perigosa demais para ser lançada, decide Microsoft

A ferramenta com inteligência artificial da Microsoft capaz de clonar a voz de pessoas é perigoso demais para ser lançado para o público, apontam pesquisadores envolvidos com o projeto. O modelo agora será utilizado exclusivamente para pesquisas.

Conhecido como VALL-E 2, o modelo é um codificador neural de linguagem, um tipo de IA que usa técnicas de redes neurais para codificar e decodificar informações linguísticas.

“Atualmente, não temos planos de incorporar o VALL-E 2 em um produto ou expandir seu acesso ao público”, anunciou a Microsoft em seu site oficial. “Isso pode acarretar riscos potenciais no uso indevido do modelo, como falsificação de identificação de voz ou personificação de um locutor específico”, complementou.

O modelo VALL-E 2 é capaz de copiar a voz de alguém com base em uma amostra real.Fonte:  GettyImages 

Diferente do VALL-E original lançado em janeiro de 2023, o VALL-E 2 consegue sintetizar vozes que não foram apresentadas durante o treinamento, sintetizando vozes com base em um pequeno clipe de áudio, copiando entonação e vários detalhes da voz original.

Porém, a Microsoft reconhece que o modelo pode ter utilidade em outros contextos, como educação, entretenimento, jornalismo, conteúdo autoral ou acessibilidade.

A empresa, no entanto, informa que o modelo ainda não é perfeito. “Embora o VALL-E 2 possa falar com uma voz semelhante à do talento vocal, a semelhança e a naturalidade dependem da duração e da qualidade do prompt de fala, do ruído de fundo, bem como de outros fatores”, ressaltou a empresa.

VALL-E 2 não é o único modelo da categoria

Ainda que a Microsoft tenha entendido o risco de lançar uma ferramenta como a VALL-E 2 para o público, outras empresas testam IAs parecidas. Exemplo disso é a OpenAI, que em abril apresentou o Voice Engine, modelo capaz de copiar a voz de alguém com apenas 15 segundos de demonstração.

De forma similar, a OpenAI entende que a tecnologia pode ser usada para fins educativos, ou para proporcionar acessibilidade. A empresa percebe a ferramenta como uma solução para pessoas condições que prejudicam ou impedem a fala.

Atualmente, há soluções comerciais que exploram o uso de IA para clonar vozes de pessoas reais. O AI Assistant do Truecaller, por exemplo, usa o Microsoft Azure AI Speech para responder chamadas com voz.

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo