segunda-feira, 23 de maio de 2022

O que há de tão fantástico nos 'óculos tradutores' da Google? - Computerworld Portugal - Dicionário

Esqueça a tradução linguística. Estes são os Google Glass, só que socialmente aceitáveis desta vez. E podem abrir muitas portas à realidade aumentada.

Por Mike Elgan

A Google apresentou recentemente uns óculos de tradução na conferência de desenvolvimento de I/O da Google, mantendo a promessa de que um dia será possível falar com alguém que fale numa língua estrangeira e ver a tradução nos seus óculos.

Os executivos da empresa demonstraram os óculos num vídeo, que mostrou não só legendas ocultas – texto em tempo real do que a que outra pessoa está a dizer – mas também tradução de inglês, mandarim e espanhol, permitindo que as pessoas que falam duas línguas diferentes continuem uma conversa ao mesmo tempo que permitem aos utilizadores com deficiência auditiva ver o que os outros lhes estão a dizer.

Com o hardware do Google Translate, os óculos resolveriam um grande problema da utilização do Google Translate, nomeadamente: se se utilizar a tradução áudio, a tradução áudio passa na conversa em tempo real. Ao apresentar a tradução visualmente, poderia acompanhar as conversas muito mais fácil e naturalmente.

Ao contrário do Google Glass, este protótipo de óculos de tradução recorre também à realidade aumentada (augmented reality, AR). Deixe-me explicar o que quero dizer.

A realidade aumentada acontece quando um dispositivo capta dados do mundo e, com base no reconhecimento do significado desses dados, acrescenta informação disponível para o utilizador.

O Google Glass não era um dispositivo de realidade aumentada – era um visor de aviso. A única consciência contextual ou ambiental com que podia lidar era a localização. Com base na localização, podia dar indicações passo a passo ou lembretes baseados na localização. Mas não podia recolher dados visuais ou sonoros, e depois regressar à informação do utilizador sobre o que estava a ver ou a ouvir.

Os óculos de tradução da Google são, de facto, realidade aumentada, essencialmente, ao retirar dados áudio do ambiente e devolver ao utilizador uma transcrição do que está a ser dito na língua selecionada

Os membros da audiência e a imprensa técnica relataram a função de tradução como a aplicação exclusiva para estes óculos, sem qualquer exploração analítica ou crítica, tanto quanto pude perceber. O facto mais gritante que deveria ter sido mencionado em cada análise é que a tradução é apenas uma escolha arbitrária para o processamento de dados áudio na cloud. Há muito mais coisas que os óculos poderiam fazer!

Poderiam facilmente processar qualquer áudio para qualquer aplicação e devolver qualquer texto ou qualquer áudio para ser consumido pelo utente. Não é óbvio?

Na realidade, o hardware envia ruído para a cloud, e exibe qualquer texto que a cloud envie de volta. É só isso que os óculos fazem. Envia som. Recebe e exibe texto.

As aplicações para processar áudio e devolver informação contextual ou informativa são praticamente ilimitadas. Os óculos podem enviar qualquer som e depois exibir qualquer texto devolvido a partir da aplicação remota.

O som poderia até ser codificado, como um modem antigo. Um dispositivo gerador de som ou uma aplicação de smartphone poderia enviar bips e apitos do tipo R2D2, que poderiam ser processados na cloud como um código QR de áudio que, uma vez interpretado pelos servidores, poderia devolver qualquer informação para ser exibida nos óculos. Este texto poderia ser instruções para o funcionamento do equipamento. Poderia ser informação sobre um artefacto específico de um museu. Poderia ser informação sobre um produto específico numa loja.

Estes são os tipos de aplicações que estaremos à espera da AR visual nos próximos cinco anos ou mais. Entretanto, a maior parte poderia ser feita com áudio.

Uma utilização obviamente poderosa para os “óculos de tradução” da Google seria a sua utilização com o Google Assistant. Seria como utilizar um ecrã inteligente com o Google Assistant – um aparelho doméstico que fornece dados visuais, juntamente com os dados áudio normais, a partir de consultas do Google Assistant. Mas esses dados visuais estariam disponíveis nos seus óculos, mãos livres, não importa onde se encontre. (Isso seria uma aplicação de visualização de visualização de aviso, em vez de AR).

Mas imagine se os “óculos de tradução” fossem emparelhados com um smartphone. Com permissão concedida por outros, as transmissões Bluetooth de dados de contacto poderiam mostrar (nos óculos) com quem está a falar num evento de negócios.

Porque é que a imprensa técnica destruiu o Google Glass

Os críticos do Google Glass arrasaram o produto, principalmente por duas razões. Primeiro, uma câmara virada para a frente montada nos auscultadores deixava as pessoas desconfortáveis. Se estivesse a falar com um utilizador do Google Glass, a câmara estava apontada diretamente para si, fazendo-o pensar que estava a ser gravado. (A Google não disse se os seus “óculos de tradução” teriam uma câmara, mas o protótipo não tinha uma).

Em segundo lugar, o hardware excessivo e conspícuo fez com que os utilizadores se parecessem com cyborgs.

A combinação destas duas transgressões de hardware levou os críticos a afirmarem que o Google Glass simplesmente não era socialmente aceitável.

Os “óculos de tradução” da Google, por outro lado, não têm câmara nem se assemelham a implantes ciborgues – parecem-se muito com os óculos vulgares. E o texto visível para o utente não é visível para a pessoa com quem está a falar. Parece apenas que estão a fazer contacto visual.

O único ponto restante de inaceitabilidade social do hardware dos “óculos de tradução” da Google é o facto de que a Google estaria essencialmente a “gravar” as palavras de outros sem permissão, carregando-as para a cloud para tradução, e presumivelmente mantendo essas gravações como faz com outros produtos relacionados com a voz.

Ainda assim, o facto é que a realidade aumentada e até mesmo os ecrãs de heads-up são superconvincentes. Um dia, teremos uma RA visual completa em óculos de aspeto normal.

Entretanto, os óculos de RA corretos teriam as seguintes características:

– Parecem óculos normais.

– Podem aceitar lentes de prescrição.

– Não têm câmara fotográfica.

– Processam áudio com IA e devolvem dados através de texto.

– E oferecem funcionalidade de assistente, devolvendo resultados com texto.

Até à data, não existe tal produto. Mas a Google demonstrou que tem a tecnologia para o fazer.

Embora a legendagem e tradução linguística possa ser a característica mais convincente, é – ou deveria ser – apenas um Cavalo de Troia para muitas outras aplicações comerciais convincentes também.

A Google não anunciou quando – ou mesmo se – os “óculos de tradução” serão um produto comercial. Mas se a Google não os fizer, outra empresa os fará.

A capacidade de óculos comuns lhe darem acesso aos resultados visuais da interpretação da IA de quem e do que está a ouvir, mais os resultados visuais e sonoros das consultas de assistente, seria uma mudança total no jogo.

Estamos num período incómodo no desenvolvimento de tecnologia onde as aplicações AR existem principalmente como aplicações para smartphone (onde não pertencem) enquanto esperamos por óculos AR móveis, socialmente aceitáveis.

Entretanto, a solução é clara: precisamos de óculos de realidade aumentada centrados no áudio que captem o som e exibam palavras. Foi isso mesmo que a Google demonstrou.



Adblock test (Why?)

Nenhum comentário:

Postar um comentário