UOL TecnologiaUOL Tecnologia
UOL BUSCA
Análises > The New York Times
07/08/2008 - 12h31
Deixe que seu computador faça a digitação

David Pogue

De todas as fantasias de alta tecnologia com as quais os filmes de ficção científica seduzem seu público escapista, certamente aquela de dar comandos falados ao computador é um dos mais atraentes. Desde "Jornada nas Estrelas", nós sonhamos em poder dizer: "Computador, exiba todas as fontes conhecidas de cristais de dilítio na Nebulosa de Kraxon!"

Até o momento, o mais perto que conseguimos é usar um microfone e ditar, usando um programa como o Dragon NaturallySpeaking para realizar a digitação. Este software é ótimo para qualquer um que não possa ou não goste de digitar. E ele permite que você fale os nomes dos comandos no menu e "clicar" links em uma página de Internet.

Mas isto não é o mesmo que dizer ao computador o que fazer em inglês coloquial.

O NaturallySpeaking 10, disponível na quinta-feira, dá alguns passos de bebê na direção certa. Ele não transforma seu computador em um mainframe de "Jornada nas Estrelas"; ele não entende o que você quer dizer ao pedir, por exemplo, "Torne este documento mais breve e mais engraçado". Mas ao seu modo tímido e conservador, ele deixa o controle por voz claramente mais próximo daquele santo graal da computação.

A principal missão do NatSpeak é digitar, em qualquer programa Windows, qualquer coisa que você diga. E na versão 10, sua fabricante, a Nuance, alega ter obtido mais 20% de melhoria na precisão.

Eu instalei o programa, botei o microfone de cabeça e cliquei "Pule treinamento inicial". (Nos primórdios do reconhecimento de voz, você tinha que ler um roteiro de amostra de 45 minutos para treinar o programa a reconhecer sua voz. Hoje, o programa é tão bom que você pode pular o treinamento).

Como foram os testes

Como um teste rápido, eu li em voz alta as primeiras 1.000 palavras de "Freakonomics" no Microsoft Word. Impressionantemente, o NatSpeak transcreveu sem esforço palavras como "Ku Klux Klan", "futzed" (manipulado) e "Punic war" (Guerra Púnica), mas errou sete palavras mais fáceis, como "addition" (adição) em vez de "edition" (edição), por exemplo, e "per trail" (por trilha) em vez de "portrayal" (retrato). Percentual de precisão sem treinamento: 99,3%. Nada mal.

Então eu tentei um segundo teste: eu li um dos roteiros de treinamento de cinco minutos (um discurso de Kennedy), que é recomendado para uma melhor precisão inicial. Eu li novamente as primeiras 1.000 palavras de "Freakonomics" e o programa errou cinco palavras. A precisão desta vez: 99,5%.

Em ambos os casos, o número de erros ortográficos foi zero. As pessoas que usam o NaturallySpeaking nunca cometem erros ortográficos, apenas de palavras.

À medida que você corrige os erros com sua voz —um procedimento simplificado e veloz— o programa aprende. Independente de pular o treinamento inicial ou não, a precisão se aproxima da perfeição com o tempo.

Uma forma usada pela Nuance para melhorar a precisão é reconhecer, pela primeira vez, que nem todos falam igual. A versão 10 reconhece oito sotaques: geral (nenhum), australiano, britânico, indiano, Grandes Lagos (Buffalo, Nova York até Chicago), Sudeste Asiático, Sul dos Estados Unidos e Espanhol. Se você não especificar, o programa identificará você automaticamente.

Isto não é um tanto politicamente incorreto? Um programa deveria tratar você de forma diferente dependendo de como você soa?

Ah, para o inferno com isso. É um programa de ditados. Um pouco de estereotipagem pode ajudar bastante.

A velocidade é outra virtude da versão 10. O programa ainda aguarda por uma pausa em sua fala antes de digitar, para que você possa usar o contexto para escolher, por exemplo, o homônimo correto (there/they're/their). Mas este período de espera foi reduzido pela metade; o texto aparece quase instantaneamente a cada pausa.

Segundo —e aqui é onde as coisas começam a ficar "Jornada nas Estrelas"— o programa entendem mais comandos em "linguagem natural".

Por exemplo, colocar em itálico algo que você já digitou, digamos, a frase "preços da gasolina", costumava exigir três comandos separados. Primeiro, "selecione preços da gasolina". Depois, "Isto em itálico". Finalmente, para devolver o ponto de inserção onde você estava: "Vá ao fim do documento".

Na versão 10, um único comando faz o truque: "'preços da gasolina' em itálico". O programa realiza a mudança e retorna ao ponto em que você parou, tudo em um piscar. O mesmo truque também funciona com "negrito", "sublinhar", "apagar", "recortar" e "copiar".

Você pode falar uma série de novos comandos de Busca, começando como "Busca no computador por...", "Busca na Internet por...", "Busca em e-mail por..." e assim por diante.

Por exemplo: "Busca por mapas de restaurantes chineses perto de Hoboken". "Busca na Wikipedia por Baía dos Porcos". Ou "Busca de imagens de Gwyneth Paltrow". Estes atalhos funcionam de forma 100% confiável e realmente economizam tempo e digitação. Próxima versão: mais deles, por favor.

Perguntas freqüentes do NatSpeak

"O NaturallySpeaking funciona em um Mac?" Sim, mas apenas quando o Mac está rodando com Windows e você está usando um adaptador para microfone de cabeça USB. Ele funciona fantasticamente no Boot Camp e rápido o suficiente no VMware Fusion, um emulador de programa.

É claro, poderia ser mais simples comprar o MacSpeech Dictate, um programa para Mac que usa a mesma tecnologia de reconhecimento do Dragon. A versão atual é rápida e precisa, mas fica atrás do NatSpeak em funções e poder; ele nem mesmo permite que você faça correções por voz, e portanto a precisão nunca melhora. Mas uma versão 1.2, com correção por voz e que permite soletrar, está atualmente em teste.

Eu posso transcrever entrevistas com ele? Não. O NatSpeak reconhece apenas a voz de uma pessoa: a sua. Ele também exige um sinal de áudio limpo, como o do microfone de cabeça bem próximo de sua boca.

Posso ditar com um microfone sem fio Bluetooth? Sim. Na verdade, a versão 10 expande enormemente o número de modelos compatíveis (18 até o momento, listados em nuance.com). Entretanto, a precisão pode sofrer.

Posso ditar em um gravador de bolso e transcrever depois? Sim. Mas a configuração é mais complexa: apenas alguns gravadores são compatíveis, e você precisa gravar 15 minutos de treinamento.

O Windows Vista não vem com reconhecimento de voz? Sim e ele é realmente bom -bem semelhante ao NatSpeak, na verdade. Mas a Nuance diz que, estranhamente, o Vista não teve virtualmente nenhum efeito sobre as vendas do NatSpeak.

Eu imagino que a obscuridade seja parte do motivo; a maioria das pessoas não está ciente de que o Vista oferece esta função. O Vista também não vem com o microfone necessário. A versão do Vista também não oferece a mesma precisão, funções ou poder do NatSpeak, e não está disponível em outras línguas (inglês, francês, italiano, alemão, espanhol, holandês e assim por diante).

O NatSpeak está disponível em várias versões. A edição Standard (US$ 100) tem a mesma precisão que as demais, mas é apenas para ditados simples.

Para obter os resultados mais avançados descritos nesta crítica —os comandos em linguagem natural, microfones Bluetooth e gravadores- é preciso a edição Preferred (US$ 200). Ela também permite que você crie macros de voz que digitam textos padronizados. Por exemplo, você pode dizer, "Cai fora!", e ele digitará: "Obrigado por pensar em mim! Infelizmente, lamento não poder aceitar sua gentil oferta desta vez".

Também há edições médicas e legais (US$ 1.600 e 1.200, ai), assim como uma edição Professional (US$ 900) para administradores corporativos que querem administrar muitas instalações do NatSpeak a partir de um servidor central. A versão Pro também reconhece comandos de voz natural para o Microsoft Outlook, como "Enviar e-mal para a mamãe" ou "Marcar reunião com Barack Obama e John McCain".

Além do Vista, o NatSpeak realmente não conta com concorrência. A Philips deixou o mercado americano. O ViaVoice da IBM não é atualizado desde 2003 e sua única distribuidora é, veja só, a Nuance.

Talvez seja o motivo para a Nuance fazer apenas pequenas mudanças confiantes de uma versão do NatSpeak para outra. Sem rivais, porque adicionar exageros que correm o risco de arranhar as virtudes do programa?

Como resultado, os atuais proprietários do NaturallySpeaking geralmente podem pular uma geração entre as atualizações. A versão 10 é um grande salto à frente em comparação à versão 8, mas os proprietários da versão 9 não devem se sentir compelidos a atualizar.

E agora, se me dão licença, eu tenho um trabalho sério a fazer: "Busca por mapas de cristais de dilítio perto de Nova York..."


ÚLTIMAS ANÁLISES
iMasters - Colunas
Cuidado para não comprar gato por lebre
Webinsider
O que é uma estratégia multiplataforma
Webinsider
Alta fidelidade
Webinsider
O gerente de projeto não faz milagre
iMasters - Colunas
Como o Twitter está ajudando o mercado de mobile marketing?
Webinsider
E o Brasil avança, segundo a revista Economist
Webinsider
Urna eletrônica blindada? O caveirão também era...
iMasters - Colunas
Pensando TI de forma estratégica