Usei uma ferramenta de IA para traduzir texto de imagens quando a ferramenta do Google falhou – e a situação ficou estranha

Um dos aspectos divertidos das minhas funções como colunista técnico e produtor de YouTube é testar novos dispositivos à medida que são lançados. Recentemente, venho experimentando uma impressora 3D Anycubic Kobra 3, o que me levou a escrever este artigo.

Impressoras 3D utilizam um software chamado slicer, que transforma um modelo tridimensional em camadas que a impressora deposita em plástico fundido. Uma nova tendência, infelizmente, é que a maioria das grandes empresas de impressoras 3D tem adotado um slicer de código aberto chamado Orca Slicer, rebrandando-o para seu uso, inserindo códigos específicos para habilitar a impressão com suas máquinas. A Anycubic fez isso ao lançar seu Anycubic Slicer Next, que aprimorou consideravelmente o slicer desenvolvido anteriormente pela empresa. A Anycubic é uma companhia da China. Embora a maioria das telas de seu slicer tenha sido traduzida para o inglês, a página de status ainda permanece em chinês. Estou certo de que eles a atualizarão em breve, mas no momento estou testando a nova versão.

Você sempre pode clicar no pequeno quadrado no canto superior direito para ampliar as imagens deste artigo. Embora grande parte da tela de status seja autoexplicativa pelo contexto, havia duas áreas nas quais eu realmente queria entender o texto. No ponto (1), havia dois botões, e não queria mexer neles antes de saber o que significavam. Além disso, havia um grande aviso vermelho no ponto (2). Essa é uma advertência importante que eu deveria considerar?

Normalmente, quando preciso de algo traduzido, costumo usar o Google Tradutor. Porém, tradicionalmente utilizo-o colando o texto. Nesta situação, não consegui colar o texto, então cliquei na opção Imagens e fui direcionado para uma tela de upload.

Então, enviei a captura de tela que mostrei anteriormente (a original não tinha os números verdes) e a submeti ao Google. O retorno que obtive foi a seguinte tela. Como você pode observar, o Google Tradutor substituiu a maior parte do texto em chinês por texto em inglês. Consegui identificar que os dois interruptores controlam respectivamente a luz da cabeça de impressão e a luz da câmera. Infelizmente, o texto da advertência em vermelho estava completamente ilegível, mesmo ampliando 700%.

Fiquei decepcionado, então decidi experimentar o ChatGPT Plus. Os resultados foram variados. Utilizei o botão de mais no ChatGPT Plus e enviei a captura de tela. Quase imediatamente, recebi uma página que descrevia cada string em chinês e seu equivalente em inglês.

Notei duas coisas. Primeiro, no ponto (1), o ChatGPT me informou que uma atualização de firmware era necessária. O Google Tradutor ignorou o texto azul na captura original e não apresentou aquele bloco de texto de forma alguma. Em segundo lugar, no ponto (2), o ChatGPT realmente traduziu a mensagem de aviso em vermelho. Basicamente, dizia que, se você mover a cabeça de impressão manualmente na máquina, deve ter cuidado com o que está fazendo. É uma recomendação útil, mas o bloco de texto vermelho que me preocupava há meses não era algo que eu precisasse temer. No final, o ChatGPT ofereceu sobrepor a tradução em inglês na captura original. Isso eu precisava ver.

O ChatGPT já havia cumprido o que eu queria, então o restante disso foi meramente curiosidade na minha função como investigador de IA. Respondi ao convite do ChatGPT pedindo, “Sim, por favor, sobreponha as anotações na captura de tela visualmente.” Recebi de volta isso. Como você pode ver, o ChatGPT colocou cuidadosamente sobreposições na captura de tela original. No entanto, usou letras chinesas azuis em vez de fornecer traduções em inglês. Algumas, como na parte superior-central da tela (no ponto 1), eram semelhantes aos caracteres chineses que já estavam ali. Outras, como na parte inferior direita da tela (no ponto 2), onde estava a mensagem de aviso em vermelho, apresentavam letras azuis chinesas com muito menos símbolos do que o texto original. Curiosamente, o ChatGPT também refez a imagem. O texto em inglês (no ponto 3), que originalmente dizia “Body1_PLA_0.2_52m49s.gcode”, foi modificado para “Baby_PLA3_FullNoo.gcode”. Os quatro rolos de filamento foram reduzidos para três (no ponto 4) e mudaram de cor (no ponto 5).

Sempre otimista, decidi dar outra chance ao ChatGPT. O incentivei a tentar novamente, pedindo “Por favor, tente outra vez, sobrepondo traduções em inglês nas letras chinesas.” E, bem, recebi algo diferente. Este resultado mostrou todos os quatro rolos de filamento, então isso é positivo. Ele substituiu os caracteres chineses por palavras em inglês, mas deixou de fora o aviso vermelho que eu estava curioso, assim como a notificação de atualização de firmware. Porém, quero chamar sua atenção para a visualização da câmera. Se você comparar com a original, perceberá que o ChatGPT refez a foto. A imagem à esquerda é a original. A da direita é a reinterpretação do ChatGPT.

Vamos revisar a lista de alterações feitas pelo ChatGPT: Seta verde: O nome do dispositivo Kobra 3, que estava em uma fonte semelhante a estêncil, foi substituído apenas pela palavra Kobra. Seta laranja: Não está claro o que o ChatGPT decidiu fazer com meu arranjo de plugues. Seta ciano: A cabeça de impressão, que era um cubo, se transformou em um objeto plano na nova imagem. Seta amarela: O objeto sendo impresso teve sua forma alterada significativamente, de um item com suportes em árvore para algo que se parece com um pedestal dourado. Seta roxa: “Sided PEI Sheet” virou “Serial PEI Shoot.” Setas vermelhas: Os rótulos foram movidos e alterados. Seta magenta: O que estava do outro lado da sala e a porta foram mudados.

Portanto, isso aconteceu. Por um lado, podemos dizer que o ChatGPT realmente me forneceu o que eu queria, que foi a tradução do aviso em vermelho e o significado dos botões, enquanto o Google impediu que eu visse o texto da advertência. Nesse contexto, o ChatGPT foi o vencedor e o Google, o perdedor. Mas será que foi uma coincidência o ChatGPT ter me dado primeiro uma tradução apenas em texto? Porque se o ChatGPT tivesse me dado apenas uma das duas capturas de tela que recebi, precisaríamos afirmar que o Google ganhou, não porque o Google me deu o que eu queria, mas porque o ChatGPT perdeu a linha. Há muitas coisas sobre IA generativa que são realmente legais. Entretanto, ocasionalmente, também nos deparamos com algumas situações que nos deixam perplexos. Eu consegui minha resposta, mas também tive uma boa visão de uma mente de IA bastante desordenada.

Este é um trabalho divertido. Você já tentou usar ferramentas de IA, como o ChatGPT ou o Google Tradutor, para decifrar textos em imagens? O que funcionou melhor para você? Já se deparou com resultados estranhos ou inesperados, como os descritos aqui? Qual é a sua ferramenta preferida para traduzir ou analisar elementos de interface em outros idiomas? Deixe-nos saber nos comentários abaixo.

Referência: [link da matéria]