Desde o fim do século XVIII, o ser humano tenta usar a tecnologia para replicar a voz. O exemplo mais antigo de que se tem notícia é o dispositivo criado por Wolfgang von Kempelen, oficial da corte austríaca e inventor amador. A máquina falante de Kempelen, como ficou conhecida, usava um fole, tubos, pedaços de madeira e uma caixa de ressonância para replicar a emissão vocal a partir da circulação de ar — é mais ou menos o mesmo processo do corpo humano. O sistema, embora primitivo, era capaz de emitir alguns fonemas e até palavras simples, como “mama” e “papa”. Duzentos e cinquenta anos depois da invenção de Kempelen, a tecnologia de reprodução da voz humana avançou tanto que, agora, é quase impossível para um leigo diferenciar um discurso real, feito por uma pessoa de carne, osso e cordas vocais, de outro criado em computador.
O notável desenvolvimento de vozes sintéticas deu origem, por sinal, a um mercado bilionário — e perigoso. De acordo com dados do instituto de pesquisa MarketsandMarkets, o setor movimentou 8,3 bilhões de dólares em 2021 e deverá alcançar 22 bilhões de dólares até 2026. É uma área que inclui assistentes virtuais como Siri e Alexa, sistemas de atendimento virtual de bancos e até celebridades que emprestam a voz para aplicativos. O perigo reside na possibilidade de replicar vozes reais para, por exemplo, fins políticos, fraudes ou ataques a reputações.
VAL KILMER – Recuperado: sua voz, prejudicada pelo câncer, foi recriada –EuropaNewswire/Gado/Getty Images
O documentário Roadrunner, sobre o chef Anthony Bourdain, suscitou debates sobre o tema. Nele, o diretor Morgan Neville usou inteligência artificial para transformar frases que Bourdain escreveu, mas nunca falou, em narrações em off. Sem especificar o que era original e o que era fake, Neville foi acusado de enganar o público. Embora tenha dito que a família deu a autorização necessária, a polêmica persiste.
No vale-tudo da arena política, as vozes sintéticas podem causar enormes estragos. O cineasta Jordan Peele, do aclamado Corra!, criou um vídeo do ex-presidente americano Barack Obama usando a tecnologia deepfake, que mescla imagens reais com falas falsas, para alertar sobre os riscos. “Estamos entrando em uma era em que nossos inimigos podem fazer com que qualquer um pareça dizer qualquer coisa”, disse a voz fake de Obama.
Nesse contexto, plataformas como WhatsApp e Telegram, nas quais mensagens de áudio são amplamente usadas, representam um perigo adicional. No Brasil, nunca é demais lembrar, há uma eleição presidencial no horizonte e provavelmente o artifício das vozes fake será usado por políticos mal-intencionados. “Toda eleição é impactada por ações de guerrilha”, diz Marcelo Vitorino, professor de marketing político da ESPM. “É preciso ter em mente que quem usa esse tipo de ação pretende uma coisa: asfixiar o debate político real, que é o que interessa ao eleitor.” Ele lembra que, ao contrário dos vídeos, em que (ainda) é possível identificar as alterações, no caso das vozes a tarefa requer a análise minuciosa de peritos.
Alheio à polêmica, o mercado está em alta. Empresas como a Speech Morphing, com sede em San Jose, na Califórnia, oferecem serviços de criação de clones vocais. O cliente grava centenas de frases, algumas delas sem sentido em uma conversa normal, mas que ajudam a treinar a máquina. A partir dessas gravações, a inteligência artificial reconhece padrões e particularidades de cada discurso, criando uma versão sintética capaz de dizer qualquer coisa, com entonações diferentes. O nível de sofisticação, de fato, impressiona. É possível escolher sonoridades mais ou menos humanas, a depender dos objetivos. Um eletrodoméstico inteligente pode ter uma voz mais robótica, enquanto um assistente voltado para idosos ou crianças emite sons que confortam. Até a respiração pode ser replicada, se for necessária para oferecer mais realismo.
A tecnologia tem sido explorada também na área da saúde. O ator Val Kilmer, conhecido por interpretar Batman no cinema, foi diagnosticado com câncer na garganta em 2015. Após anos de tratamento, se curou da doença, mas ficou com sequelas. Além de usar uma sonda para se alimentar, sua voz desapareceu. Foi graças aos avanços na criação de vozes sintéticas que ele recuperou parte da capacidade de se expressar. A partir de gravações antigas, incluindo falas de filmes, os algoritmos produziram quarenta modelos diferentes da voz de Kilmer, até que ele escolheu aquela que mais se aproximava do real. A semelhança é extraordinária. As novas tecnologias, vale ressaltar, são capazes de realizar feitos únicos — e positivos. O que não é certo é usá-las para propagar mentiras. Cada vez mais será preciso manter os ouvidos bem atentos.
Publicado em VEJA de 23 de fevereiro de 2022, edição nº 2777