Conversei com uma versão digital de mim mesmo usando a ferramenta gratuita do Hume – veja como experimentar

Se você já teve vontade de conversar com uma versão de IA de si mesmo, agora isso é possível — de certa forma. Na quinta-feira, a startup de IA Hume anunciou o lançamento de um novo recurso de “clonagem de voz hiper-realista” para a mais recente versão do seu modelo de Interface de Voz Empática (EVI), chamada EVI 3, que foi apresentada no mês passado. O conceito aqui é que, ao enviar uma gravação de áudio sua — idealmente entre 30 e 90 segundos — o modelo deve ser capaz de gerar rapidamente uma réplica de sua voz em formato de IA, com a qual você pode conversar verbalmente, assim como faria com outra pessoa na sua frente.

Enviei uma gravação da minha voz para o EVI 3 e passei um tempo batendo papo com a imitação da minha voz criada pelo modelo. Eu esperava (talvez ingenuamente) ter uma experiência no Vale da Estranheza — aquela sensação rara de interagir com algo que parece quase completamente real, mas que tem um toque peculiar que deixa você um pouco incomodado — e fiquei desapontado ao perceber que a versão do EVI 3 de mim mesmo era mais como uma versão de desenho animado da minha voz.

Deixe-me explicar isso melhor. A imitação da minha voz era, em muitos aspectos, indiscutivelmente realista. Ela parecia pausar intermitentemente ao falar de maneira muito semelhante ao meu estilo, com um toque de vocal fry familiar. Mas a simulação parou por aí. Hume afirma em seu blog que o novo recurso de clonagem de voz do EVI 3 pode capturar “aspectos da personalidade do falante.” Essa é uma promessa vaga (provavelmente intencionalmente), mas nas minhas próprias experiências, o modelo pareceu não corresponder a isso. Longe de parecer uma simulação convincente das minhas peculiaridades e do meu senso de humor, o modelo falava com um tom bem-humorado e ansioso para agradar, que teria sido perfeitamente adequado para um anúncio de rádio de antidepressivos. Gosto de pensar em mim mesmo como alguém amigável e geralmente otimista, mas a IA exagerou claramente nessas características.

Apesar de seu comportamento geralmente dócil, o modelo estranhamente se recusou a experimentar um sotaque, o que me pareceu uma atividade divertida de voz na qual ele deveria se sair bem. Quando pedi para ele tentar um sotaque australiano, ele disse “g’day” e “mate” algumas vezes na minha voz normal, mas logo se esquivou de qualquer coisa mais ousada. Independentemente do que eu pedisse para ele falar, ele sempre encontrava uma maneira criativa e indireta de retornar ao tópico que eu havia gravado como amostra, lembrando um experimento da Anthropic no ano passado, onde Claude foi ajustado para ficar obcecado pela Ponte Golden Gate.

No meu segundo teste, por exemplo, eu havia gravado uma conversa sobre Led Zeppelin, que estava ouvindo na manhã anterior. Quando pedi ao clone de voz do EVI 3 para me explicar seus pensamentos sobre a natureza da matéria escura, ele rapidamente conseguiu relacionar sua resposta de volta ao tema da música, comparando a força invisível que permeia o cosmos com a melodia intangível que confere significado e poder a uma canção.

Você pode experimentar o novo recurso de clonagem de voz do EVI 3 por conta própria. De acordo com o site da Hume, os dados do usuário gerados a partir das interações com a API do EVI são coletados e anonimizados por padrão para treinar os modelos da empresa. No entanto, você pode desativar isso com o recurso “Zero data retention” no seu perfil. Para produtos que não usam API, incluindo a demonstração mencionada, a empresa afirma que “pode” coletar e usar dados para melhorar seus modelos — mas, novamente, você pode desativar essa opção ao criar um perfil pessoal.

As vozes de IA existem há um bom tempo, mas historicamente têm sido bastante limitadas em sua realismo; é bem óbvio que você está falando com um robô quando recebe respostas de assistentes clássicos como Siri ou Alexa. Em contraste, uma nova geração de modelos de voz de IA, incluindo o EVI 3, foi projetada não apenas para falar em linguagem natural, mas também, e mais importante, para imitar as sutis inflexões, entonações, idiossincrasias e cadências que caracterizam a fala humana cotidiana. “Uma parte significativa da comunicação humana é enfatizar as palavras certas, fazer pausas nos momentos adequados e usar o tom de voz correto”, disse Alan Cowen, CEO e cientista-chefe da Hume.

Conforme a Hume escreveu em um post no blog na quinta-feira, o EVI 3 “sabe quais palavras enfatizar, o que faz as pessoas rirem e como sotaques e outras características vocais interagem com o vocabulário”. Segundo a empresa, isso representa um grande avanço técnico em relação aos modelos de geração de fala anteriores, “que carecem de uma compreensão significativa da linguagem.” Muitos especialistas em IA poderiam se opor ao uso de termos como “compreensão” neste contexto, uma vez que modelos como o EVI 3 são treinados apenas para detectar e reproduzir padrões extraídos de vastas quantidades de dados, um processo que, sem dúvida, não deixa espaço para o que reconheceríamos como verdadeira compreensão semântica.

O EVI 3 foi treinado “com trilhões de tokens de texto e milhões de horas de reprodução”, de acordo com o blog da Hume. De acordo com Cowen, essa abordagem permitiu que o modelo falasse com vozes muito mais realistas do que se poderia esperar intuitivamente. “O que mais surpreendeu com os modelos de voz é quão humanos eles podem ser apenas com treinamento em uma grande quantidade de dados”, afirmou. Mas, deixando de lado os argumentos filosóficos, a nova geração de modelos de voz de IA é indiscutivelmente impressionante. Quando solicitados, podem explorar uma gama muito mais ampla de expressão vocal do que seus antecessores. Empresas como a Hume e a ElevenLabs afirmam que esses novos modelos terão benefícios práticos para setores como entretenimento e marketing, mas alguns especialistas temem que eles abram novas portas para a enganação — algo que foi exemplificado na semana passada quando uma pessoa desconhecida usou IA para imitar a voz do Secretário de Estado dos EUA, Marco Rubio, e tentou enganar autoridades do governo com a voz clonada.

“Não vejo razão para que precisássemos de um robô sussurrando”, disse Emily M. Bender, linguista e coautora de “The AI Con”, recentemente. “Qual é a finalidade disso? Exceto talvez para disfarçar o fato de que o que você está ouvindo é sintético?”

Sim, o recurso de clonagem de voz do EVI 3, assim como todas as ferramentas de IA, tem suas limitações. Contudo, esses pontos negativos são amplamente eclipsados por suas qualidades notáveis. Por um lado, devemos lembrar que os modelos de IA generativa que estão surgindo no mercado hoje fazem parte da infância dessa tecnologia, e eles continuarão a melhorar. Em menos de três anos, passamos do lançamento público do ChatGPT para modelos de IA que podem simular vozes humanas reais e ferramentas como o Veo 3 do Google, que pode produzir vídeo realista com áudio sincronizado. O ritmo impressionante dos avanços em IA generativa deve nos fazer pensar.

Hoje, o EVI 3 pode simular uma aproximação razoável da sua voz. No entanto, não é irrealista esperar que seu sucessor — ou talvez um sucessor ainda mais avançado — consiga capturar sua voz de uma maneira que pareça verdadeiramente convincente. Em um mundo assim, podemos imaginar o EVI ou um modelo similar sendo emparelhado com um agente de IA para, por exemplo, participar de reuniões no Zoom em seu nome. Isso poderia também, de forma menos otimista, ser um sonho realizado para um golpista. Mas a parte mais impressionante da minha experiência com o recurso de clonagem de voz do EVI 3 é como essa tecnologia já parece rotineira. À medida que o ritmo da inovação tecnológica acelera, também cresce nossa capacidade de normalizar instantaneamente aquilo que teria deixado gerações anteriores em silêncio perplexo. Sam Altman, da OpenAI, fez esse ponto recentemente em um post no blog: segundo Altman, estamos nos aproximando da Singularidade, mas, na maior parte, parece que está tudo normal.

Quer mais histórias sobre IA? Inscreva-se na nossa newsletter semanal de Inovação.

Referência: [link da matéria]