Após ter apresentado ao público um sistema que transforma texto em voz chamado Deep Voice há alguns meses, chegou a hora de seu sucessor
Em 2011, o empreendedor Marc Andreessen afirmou, em um artigo no The Wall Street Journal, que o software estava devorando o mundo. Seis anos depois, se pararmos para analisar, já é possível afirmar que, agora, é a inteligência artificial que está devorando o mundo.
A Baidu também está se embrenhando pelas maravilhas que a inteligência artificial pode realizar. Após ter apresentado ao público um sistema que transforma texto em voz chamado Deep Voice há alguns meses, chegou a hora de seu sucessor – o Deep Voice 2 – dar as caras mostrando melhorias consideráveis em comparação com a primeira versão.
)
Melhorias nítidas
A primeira versão já possuía características bastante impressionantes, como o fato de emitir sons assustadoramente parecidos com uma voz humana e de fazer o trabalho todo praticamente em tempo real. Para isso, a plataforma precisava ser “treinada” escutando várias horas de gravação de vozes, sendo capaz de aprende um tipo de fala por vez.
O sistema é capaz de replicar sotaques e outros detalhes do locutor usado como base
Com o Deep Voice 2, a Baidu dá um passo à frente com uma inteligência artificial muito mais avançada e capaz de realizar proezas impressionantes. O sistema pode aprender tendo como base apenas alguns minutos de áudio de voz e, mais impressionante ainda, é capaz de replicar sotaques e outros detalhes do locutor usado como base.
)
Aquele sotaque que você gosta
O padrão de aprendizado da inteligência artificial da Baidu é muito mais prático que o da Siri, por exemplo
O Deep Voice 2 também pode aprender a imitar nada menos que centenas de vozes, tons, nuances e sotaques diferentes em um único sistema. A grande vantagem é que ele faz isso praticamente sozinho, aprendendo o que há de comum em todas as vozes que escuta, criando um modelo geral de padrão de fala e usando as particularidades de cada uma para replicar sotaques específicos.
O padrão de aprendizado da inteligência artificial da Baidu é muito mais prático que o da Siri, por exemplo, a assistente pessoal da Apple. No caso dela, os programadores precisavam fornecer milhares de horas de gravação em um idioma e sotaque específicos e depois ajustar tudo manualmente para que ela fosse capaz de replicar vozes com particularidades.
)
Faz tudo sozinho
Andrew Gibiansky, cientista de pesquisa no Laboratório de AI da Baidu no Vale do Silício que trabalha no projeto Deep Voice, afirmou: “Forneça os dados certos e ele pode aprender por conta própria que tipo de características são importantes”.
Com esse tipo de tecnologia cada vez mais desenvolvida e avançada, não vai demorar até termos assistentes pessoas personalizadas nos idiomas, sotaques e até tons de voz que quisermos, inclusive com imitações perfeitas de celebridades e outras personalidades públicas.
)