UOL Notícias Tecnologia

30/07/2010 - 15h17 / Atualizada 06/08/2010 - 11h09

NaturallySpeaking é preciso e permite até controle do PC por comando de voz em inglês

David Pogue
Do The New York Times

A Nuance, empresa que produz o Dragon NaturallySpeaking para Windows, está em uma posição bastante confortável: tem essencialmente um monopólio em suas mãos. De um a um, seus competidores no ramo de reconhecimento de voz deixaram o mercado (Philips), saíram da praça (Lernout & Hauspie) ou entregaram seu produto para a Nuance (IBM). Nem mesmo o único programa de reconhecimento de fala do Macintosh, MacSpeech Dictate, pode mais ser considerado um rival: a Nuance comprou-o neste ano.

Somente o Speech da Microsoft, um programa sub-valorizado e praticamente ignorado, ainda existe para manter a Nuance alerta.

Mas o problema é o seguinte: quando você tem o monopólio, qual incentivo você tem para inovar? Será que a Nuance terá a honradez de manter os preços baixos e a qualidade alta quando é a única no jogo?

Para responder, experimente o NaturallySpeaking 11, que estará à venda à partir de quinta-feira (29/7). Este upgrade segue a mesma filosofia das últimas atualizações anuais. Está cheio de ajustes, todos bem vindos, todos bem executados, mas nenhum arrasador. Traz também a melhora anual na precisão do reconhecimento do ditado.

A Nuance diz que a nova versão é 15% mais precisa. O que é bom, mas dificilmente notável (que diferença faz um ganho de 15% quando você já tem 99,6% de precisão?). O mais interessante é como chegaram lá.

Em dezembro, a Nuance começou a oferecer um aplicativo gratuito para o iPhone, o Dragon Dictation. Você fala; os computadores da empresa em Boston analisam sua frase; em segundos, o texto digitado aparece em sua tela.

A oferta, contudo, não foi uma medida altruísta; a Nuance tinha outros motivos. Seus computadores mantiveram cópias das centenas de milhares de mensagens ditadas (sem os nomes das pessoas, é claro), criando um impressionante arquivo central de vozes norte-americanas e padrões de fala. Os engenheiros da Nuance então exploraram esta mina de ouro, usando-a para testar novos algoritmos de reconhecimento para melhorar a precisão do Dragon. Espertos, não?

Características do Nuance
A precisão é tão boa que você não tem mais que começar a utilizar o software lendo um texto de treinamento de quatro minutos, como era antigamente. Instalei o software em meu PC, pulei o treinamento e ditei uma das minhas colunas antigas, de 1.300 palavras. O programa alcançou 100% de precisão, acertando até expressões difíceis como “LinkedIn”, “Twitterific”, “freebies” e “twentysome” (fez um erro, mas perdoei-o por não reconhecer o site da Web chamado Bebo).

Há também mudanças visuais. A maior delas é uma lista de comandos em um painel que ocupa o lado direito da tela. Ocupa muito espaço, mas provavelmente é de grande valia para pessoas que nunca entenderam que você pode fazer muito mais do que apenas ditar um texto. Você também pode controlar o próprio computador.

Você pode abrir programas (“abrir Firefox”), escolher comandos de menu, clicar em links, mover o cursor, formatar o texto (“grifar ‘The New York Times’”) e assim por diante. Na versão 11, você pode aplicar o mesmo formato para cada ocorrência de uma palavra ou frase (como negrito, itálico ou sublinhado) em um documento. Isso foi prático quando ditei algo sobre o Twitter, e o Dragon consistentemente recusou-se a colocá-lo em maiúscula. Sem problemas, com um único comando todas as ocorrências seguintes vieram com maiúscula.

NaturallySpeaking nunca interpretou bem vozes infantis, mas isso também mudou. Agora, mesmo crianças do primeiro ano podem ser cidadãos de primeira classe no ditado.

O programa não é à prova de mal entendidos; talvez nunca seja. Deus sabe como é difícil entender a fala das outras pessoas, mesmo quando você é um ser humano. (Tenho um arquivo das minhas gafes favoritas do NatSpeak –“the right or left” tornou-se “the writer left”; “Oxymoron” tornou-se “ax a moron”, frequentemente uma ideia tentadora.)

Com o tempo, o software vai melhorando seu desempenho, porque cada vez que ele comete um erro, você deve corrigi-lo com a voz. Você diz “corrija ‘ax a moron’” e aparece uma lista numerada de transcrições alternativas. Você diz “escolha 2”, o programa corrige o texto, aprende com o erro e você prossegue.

Infelizmente, para grande frustração da empresa, certa percentagem dos proprietários do NatSpeak nunca usaram o comando “corrigir” para consertar erros. Em vez disso, clicaram no erro e digitaram por cima, privando o programa da chance de aprender. Para essas pessoas, a precisão nunca aumentava.

Assim, na versão 11, a Nuance fez outra mudança inteligente; se você edita manualmente algo que o NatSpeak transcreveu, o programa compara a nova frase que você digita com o que você disse originalmente. Se você muda o texto para algo completamente diferente (de “um dia quente” para “uma tarde infernal”), o programa assume que você está apenas editando. Mas se soa similar –se muda “aberração básica” para “operação básica”, digamos – então o software conclui que você está corrigindo um erro de transcrição e aprende. Em outras palavras, a precisão agora vai melhorar mesmo que as pessoas se recusem a colaborar com o programa.

A versão 10 introduziu comandos como “Procure na Internet ‘Pizzarias de San Diego’”. É maravilhoso ver seu PC entrar em ação, ativar o motor de pesquisa da Google ou abrir a página do Maquest para o que você pediu.

Há mais disso na versão 11. Além de “busque na Internet...”, há “busque email de...” e “busque... em meu computador”, você agora pode usar comandos orais similares para buscar na Wikipédia, Twitter, Facebook e eBay.

  • GettyImages

    NaturallySpeaking apresenta problemas em programas como o Skype e tem dificuldades em reconhecer pontuação

Há outras melhorias. Se o seu computador tiver um processador multicore, o NatSpeak divide as tarefas de reconhecimento para ter resultados de transcrição melhores. A caixa amarela, onde uma transcrição semi-formada costumava aparecer antes de o texto ser adicionado ao seu documento, sumiu; agora, um cursor de dragão se move junto com o texto e muda de formato para indicar quando está ignorando o som, como quando você tosse. Se você tiver um dos 18 gravadores de áudio digitais aprovados, você pode preparar o NatSpeak para transcrever seus registros de voz após quatro minutos de treinamento. Costumavam ser 15 minutos. (Não, o programa ainda não transcreve entrevistas; nenhum software faz isso. Essa tarefa, onde várias pessoas falam coloquialmente sem pontuação, distantes de um microfone, ainda é assombrosa.)

Houve melhora no preço também; a versão Pro, que pode administrar a voz de pessoas em uma rede, agora custa US$ 600 (em torno de R$ 1.000) em vez de US$ 900 e a edição jurídica sai por US$ 800 em vez de US$ 1.200. Ainda estratosférico, mas não mais algo saído do Monty Python.

Aspectos negativos
Em suma, o que é bom no NaturallySpeaking ficou melhor. Mas parte do que é ruim continua ruim.

Por exemplo, o programa permite que você edite por voz, com controle total do que você já “digitou” em muitos softwares importantes – todos os programas do Microsoft Office, por exemplo, e agora o processador de texto gratuito Open Office Writer. Mas quando você dita em um programa como Skype, só o que você obtém são séries de letras ao acaso, completamente inúteis.

A característica que deveria inserir vírgulas e pontos automaticamente, para evitar que a pessoa seja obrigada a falar a pontuação, ainda é fraca, gasta mais tempo do que poupa.

Escrever ditando ainda requer um ajuste mental; você praticamente tem que saber qual frase você quer antes de começar a falar. E a precisão varia muito de acordo com sotaques e outros fatores.

Se você já tiver a versão 10 (e talvez até a 9), provavelmente não vale a pena os US$ 100 cobrados pela atualização para o Dragon 11. Mas se você tiver uma versão anterior ou nunca experimentou um programa de ditado, provavelmente ficará impressionado diante de como a tecnologia avançou. Sim, a Nuance tem praticamente um monopólio do reconhecimento de voz, mas é bom ver que está constantemente fazendo melhorias e cortes nos preços, como se não tivesse.

Tradução: Deborah Weinberg

Últimas Notícias

Hospedagem: UOL Host