O que há de positivo na deepfake de voz? — Gama Revista
Quem é você na internet?
Guilherme Falcão / Henry Horenstein / Getty Images

Deepfake de vozes brasileiras

Em meio ao medo relacionado às deepfakes, pesquisadores brasileiros reproduzem vozes em português e defendem que há um caminho positivo para essa tecnologia

Daniel Vila Nova 29 de Novembro de 2020

“Minha terra tem palmeiras onde canta o sabiá”, diz o presidente Jair Bolsonaro. “As aves que aqui gorjeiam não gorjeiam como lá”, responde o ex-presidente Lula. O diálogo, que até onde Gama saiba jamais ocorreu, é passível de reprodução no site do Mr. Falante.

Realizado pela UFG (Universidade Federal de Goiás) em parceria com a CyberLabs, empresa que trabalha com Inteligência Artificial (IA), o projeto é um dos pioneiros na produção e sintetização de voz no Brasil.

Na página de divulgação do projeto é possível ouvir os ex-presidentes Lula e Dilma, assim como o atual presidente Jair Bolsonaro recitando poemas clássicos da literatura de língua portuguesa. A fidelidade às vozes das personalidades políticas assustam.

Horas e mais horas de materiais são copiados, levando em conta as variações de fonemas dos idiomas, de pronúncias e de diversos fatores que afetam a fala

De acordo com Frederico Oliveira, doutorando em ciência da computação pela Universidade Federal de Goiás (UFG) e um dos responsáveis pelo projeto Mr. Falante, 30 minutos de uma voz é tudo o que é necessário para os modelos de deepfakes mais avançados clonarem a fala de alguém.

Montagens e edições não são coisas novas, mas as deepfake apresentam uma grande vantagem: a automação. O processo é chamado de deep learning, tecnologia que busca imitar o funcionamento de uma rede neural humana.

O primeiro passo é a construção de banco de dados extenso com a voz que será clonada. “Quanto mais variado o banco de dados, melhor o resultado”, afirma Oliveira.

Em seguida, o modelo recebe o texto transcrito do áudio que será usado para treinamento do modelo. Esse texto é convertido em um áudio e o resultado inicial é quase sempre precário.

“Nós pegamos esse primeiro resultado e comparamos com o áudio original. Então apontamos as diferenças e pedimos para o modelo repetir o processo, corrigindo as imperfeições. O modelo erra menos a cada repetição, chegando a um nível de qualidade satisfatório após um bom tempo”, explica o cientista.

Horas e mais horas de materiais são copiados pelo modelo, que leva em conta as variações de fonemas dos idiomas, de pronúncias e de diversos outros fatores que afetam a fala de alguém.

O projeto, que começou há mais de um ano, passará a ser comercializado nos próximos meses. Luísa Moncorvo, engenheira de IA e responsável pelos projetos de voz na CyberLabs, afirma que o intuito da empresa é levar a Inteligência Artifical para o dia a dia das pessoas.

Além do Mr. Falante, a CyberLabs também trabalha com o Speech To Text — onde a voz é transcrita em texto — e com a biometria da voz. Tanto Oliveira quanto Moncorvo acreditam que estamos há poucos anos de ver todas essas tecnologias se popularizando ao redor do mundo.

Guilherme Falcão / Getty Images

Quem tá falando?

George W. Bush recitando 50 Cent. Um dueto de “Barbie Girl” entre os pensadores Slavoj Žižek e Ayn Rand. Donald Trump interpretando falas de Star Wars. É possível conferir essas e diversas outras paródias em áudio no canal do YouTube “Vocal Synthesis“.

Mesmo contando com mais de 70 mil inscritos, existe uma pessoa que não é lá muito fã do canal: o rapper Jay-Z. No começo do ano, o músico e sua agência e gravadora Roc Nation LLC notificaram o YouTube e o canal Vocal Synthesis, exigindo a remoção dos vídeos com deepfakes da voz de Jay-Z.

A remoção levantou debates na internet, que discutiam como e se a lei de direitos autorais americana poderia ser utilizada nesse caso. O YouTube chegou a remover os vídeos de sua plataforma, mas voltou atrás informando que não havia informações o suficiente para o pedido ser acatado. Os vídeos ainda estão no ar.

Há um conceito na legislação americana — o fair use –, que permite a utilização de produções protegidas por direitos autorais, desde que entrem na categoria de educação, crítica, sátira, paródia, comentário, jornalismo ou pesquisa. O criador do canal argumenta que a deepfake de Jay-Z se enquadra no conceito de fair use.

É comum que, quando uma nova tecnologia surja, a legislação não esteja 100% pronta para lidar com seus desdobramentos. A medida que mais casos vão surgindo, fica claro a necessidade de leis específicas para o problema.

No Brasil, a LGPD (Lei Geral de Proteção de Dados Pessoais) ainda carece de legislação específica que trate das deepfakes. Moncorvo afirma que a preocupação com o mau uso da tecnologia é central no desenvolvimento dos projetos e que a CyberLabs não fornece a clonagem de voz sem a permissão da pessoa que terá a voz clonada.

A escolha por figuras políticas recitando poesias também está relacionada a essa preocupação. “Nós usamos o trocadilho com a poesia para dar uma graça, mas é também uma maneira de deixar claro que aquele áudio não é real”, diz Moncorvo.

“Tivemos essa preocupação ao longo da pesquisa, nós não disponibilizamos para o público os modelos que sintetizam as vozes dos presidentes”, afirma Oliveira.

Segundo o cientista, um modelo capaz de verificar a veracidade de uma voz está nos planos do grupo responsável pelo Mr. Falante, mas a pesquisa ainda precisa avançar bastante para que isso seja possível.

“Os modelos de língua inglesa já conseguem reconhecer e controlar com perfeição a prosódia, a variação emocional na entonação da voz. Queremos chegar nesse nível”, fala Oliveira.

A Inteligência Artificial cresce no mundo inteiro, mas os pesquisadores ouvidos por Gama enxergam poucas soluções oferecidas pelo mundo para o português brasileiro. “As pessoas não sabem que existe esse tipo de tecnologia sendo desenvolvida no Brasil. Queremos produzir tecnologia nacional e não simplesmente importar da China, da Europa ou dos EUA”, diz o cientista. “De brasileiros para brasileiros”, finaliza Moncorvo.

Quem tem medo de deepfake?

Em 2019, as artistas Francesca Panetta e Halsey Burgund decidiram criar uma linha do tempo alternativa da história dos EUA. Elas não estudaram física quântica ou projetaram uma máquina do tempo e sim apostaram na tecnologia que, em alguns anos, pode mudar a realidade como conhecemos: deepfake.

O termo, cunhado em 2017, se refere a uma tecnologia que utiliza Inteligência Artificial para sintetizar e produzir vídeos e áudios falsos. Panetta e Burgund criaram “In Event of Moon Disaster”, uma obra de arte que questiona como novas tecnologias podem distorcer, redirecionar ou ofuscar a verdade.

A possibilidade de fazer com que recriações da história e mentiras pareçam fatos fez com que o medo relacionado às deepfakes aumentasse

O projeto simula o discurso que o ex-presidente dos EUA Richard Nixon daria caso a missão da Apollo 11 tivesse falhado. O vídeo de seis minutos utiliza o texto original escrito pela Casa Branca em caso de desastre e adiciona técnicas de deepfake, produzindo um vídeo assustadoramente realista do discurso de Nixon. Nessa versão, o mundo chorou o luto por Neil Armstrong e Buzz Aldrin.

A possibilidade de fazer com que recriações da história e mentiras pareçam fatos fez com que o medo relacionado ao futuro das deepfakes ganhasse mais força com o passar dos anos.

O relatório anual da Bitdefender, empresa de segurança na Internet, colocou a tecnologia como um dos principais perigos virtuais para o ano de 2020. Já o Facebook instaurou no começo do ano uma política de tolerância zero com deepfakes em sua plataforma.

É que com essa tecnologia, verdade e democracia correm risco. Afinal, se um vídeo ou áudio pode ser facilmente editado e parecer real, o que impede o público de acreditar, ou desacreditar, no que bem entender?

Em entrevista à Folha de S. Paulo, Sam Gregory, diretor da organização Witness, diz que não devemos entrar em pânico e sim nos preparar. “Temos uma janela de oportunidade, antes que as deepfakes se tornem ainda mais difundidas, para nos prepararmos melhor para elas do que fizemos nas ondas anteriores de desinformação.”

Hany Farid, especialista em análise forense de imagens digitais e professor na Universidade da Califórnia entende que são necessárias ações em conjunto, de diversos atores, para conter o efeito negativo que as deepfakes podem ter.

Para a Folha de S. Paulo, o cientista disse que acredita que plataformas digitais como o Facebook e o YouTube devem assumir uma responsabilidade maior no combate à informações falsas. Além disso, é necessário uma melhor educação virtual para os consumidores, aliado a uma regulação governamental mais forte.

As preocupações são válidas e fundamentais para uma sociedade mais segura, mas existem aqueles que buscam encontrar na tecnologia soluções positivas para problemas e questões atuais.

Deepfake do bem?

Se você ficou impressionado com o poder destrutivo das redes sociais em “O Dilema das Redes” (2020) ou é muito viciado na série “Black Mirror”, é provável que o tema deepfake te deixe levemente preocupado. Afinal, a tecnologia se popularizou ao produzir vídeos pornográficos falsos de famosas, onde o rosto de celebridades eram editados em corpos de outras atrizes.

Entretanto, existem aplicações positivas para as deepfakes. O mundo do entretenimento promete ser revolucionado com a tecnologia, capaz de rejuvenescer atores, sintetizar novas vozes e até mesmo reviver astros que já se foram. Em uma visita de museu, será possível conversar — e tirar selfies — com versões digitalizadas de pintores famosos ou até mesmo ver uma versão em movimento de Mona Lisa.

O mundo do entretenimento promete ser revolucionado com a tecnologia, capaz de rejuvenescer atores, sintetizar novas vozes e até reviver astros que já se foram

Regravações de cenas para filmes que não deram certo na primeira ou de áudios para podcasts? Coisas do passado. Propagandas? Em uma campanha contra a malária, David Beckham passou uma importante mensagem em nove línguas — mesmo que o ex-jogador inglês não fale todas elas.

Longe de Hollywood, a tecnologia também pode auxiliar em diversas questões do dia a dia. Na área da acessibilidade, será possível sintetizar vozes mais humanas para leitores de texto.

Projetos como o Seeing AI da Microsoft e o Lookout do Google, que reconhecem informações importantes no ambiente e narram com uma voz sintética as descobertas para deficientes visuais, são exemplos positivos do que pode ser feito com a tecnologia.

Interações com atendentes virtuais também alcançarão um novo patamar de realidade, seja com a Siri, com a Alexa ou com operadores de telemarketing computadorizadas. Do sotaque ao timbre, as vozes poderão ser personalizadas para que melhor atendam as expectativas dos clientes.

Além do Text To Speech — onde o texto é transformado em voz –, a tecnologia de deep learning voltada para o áudio possibilitará diversas novidades. Inimigo mortal de toda uma geração, os longos e intermináveis áudios de WhatsApp podem estar com os dias contados.

Em pouco tempo, será possível transformar a inconveniente fala em um texto. Ou vice-versa, caso você precise. Senhas e números de protocolos em ligações bancárias? Nunca mais. A biometria de voz poderá resolver tudo com algumas palavras.