Avaliei novamente as habilidades de codificação do Microsoft Copilot em 2025 e agora está muito mais avançado.

Claro! Aqui está o texto reescrito em português brasileiro:

—

Recentemente, houve uma grande discussão sobre como as inteligências artificiais podem auxiliar na programação. Porém, durante os primeiros anos de AI generativa, grande parte desse foco parecia exagerado. A Microsoft organizou eventos robustos para celebrar como o Copilot poderia facilitar a codificação, mas ao testá-lo em abril de 2024, ele falhou em todos os quatro testes padronizados que realizei. Foi um verdadeiro desastre. Não funcionou como esperado. Com isso, o desempenho foi o pior entre todas as IAs que testei.

Deixando as metáforas de lado, vamos falar de maneira mais direta. O Copilot substituiu seus métodos antigos por novas estratégias. Ele não estava à altura na primeira tentativa.

No entanto, parece que o tempo de prática foi benéfico para o Copilot. Quando ele retornou para a nova avaliação, demonstrou estar preparado e com boa performance. Ao se preparar, ele parecia focado e pronto para enfrentar os desafios que viriam.

Mas será que ele conseguiria superar os meus testes? Com uma certa expectativa, comecei com uma tarefa mais simples. Em 2024, o Copilot havia falhado de forma evidente, mas agora, em abril de 2025, ele conseguiu realizar as tarefas com precisão.

Na primeira etapa, que consistia em criar um plugin para WordPress, Copilot mostrou evolução significativa desde sua primeira avaliação. Na primeira tentava, ele não conseguiu fornecer o código necessário para exibir as linhas aleatórias, embora as armazenasse corretamente. Essa falha não gerou nenhum resultado visível.

Na execução mais recente, o código funcionou. Embora tenha deixado uma linha em branco adicional no final, como conseguiu cumprir a tarefa proposta, consideramos que a tarefa foi bem realizada.

A sequência de falhas do Copilot foi finalmente interrompida. Agora, vamos ver como ele se sai nas demais atividades.

Em relação ao teste de reescrita de uma função de string, que avaliava conversões de valores monetários, o desempenho foi satisfatório. Na primeira avaliação, o código gerado pelo Copilot identificava erros quando valores com letras ou mais de um ponto decimal eram enviados, mas a validação não era completa e permitia valores que poderiam causar problemas nas rotinas seguintes.

Neste novo teste, o Copilot conseguiu realizar a maioria dos testes corretamente. Ele retornou falso para números com mais de duas casas decimais e também para valores com zeros à esquerda. Embora algumas dessas entradas pudessem ser convertidas, um bom procedimento de validação deve ser rigoroso para evitar problemas em etapas posteriores.

Com isso, o Copilot demonstrou um desempenho positivo nos dois primeiros testes, uma melhoria significativa.

No terceiro teste, que envolvia a identificação de um bug, é interessante notar como o Copilot respondeu em sua primeira fase. Esta avaliação busca a capacidade da AI de antecipar problemas. Na primeira tentativa, a AI sugeriu que eu verificasse a ortografia do nome da minha função e do hook do WordPress. Como o hook é um elemento publicado, deveria ser facilmente verificado, e meu nome de função pode ser escrito da maneira que eu desejei. Se houvesse um erro de ortografia, isso estaria claro no ambiente de desenvolvimento.

Além disso, naquela ocasião, o Copilot simplesmente repetiu o problema, apenas me incentivando a solucioná-lo sozinho, o que era óbvio. O resultado incluiu até uma sugestão de buscar ajuda com o desenvolvedor do plugin ou em fóruns de comunidade.

Agora, no entanto, o Copilot entregou uma solução adequada de maneira rápida e clara. Com isso, ele alcançou um desempenho perfeito em três das três avaliações, saindo da categoria de “não utilize essa ferramenta”. Estávamos prontos para um grande avanço.

Para o quarto teste, me propus a avaliar a capacidade do Copilot em escrever um script utilizando uma ferramenta de Mac chamada Keyboard Maestro, além da linguagem de script AppleScript e o comportamento da API do Chrome. Para contextualizar, o Keyboard Maestro é uma das principais razões pelas quais eu prefiro Macs em vez de Windows em minha rotina, permitindo uma personalização significativa do sistema operacional e dos aplicativos.

Nesse teste, a AI precisava descrever corretamente como resolver o problema com uma mistura de códigos do Keyboard Maestro, AppleScript e funcionalidades da API do Chrome. Na primeira tentativa, o Copilot não cumpriu as expectativas, ignorando totalmente o Keyboard Maestro e repetindo o processo em todas as janelas, retornando resultados da janela errada.

No entanto, nesta nova avaliação, o Copilot realizou a tarefa corretamente, se comunicando com o Keyboard Maestro e o Chrome de forma adequada, utilizando a sintaxe correta de AppleScript.

Assim, seus resultados gerais melhoraram consideravelmente ao longo do ano passado. O Copilot, que antes estava lutando para se destacar, agora mostrou-se como uma ferramenta valiosa, pronta para o uso em um ambiente de programação real.

E você, já experimentou o Copilot ou outro assistente de codificação recentemente? Acredita que agora eles estão prontos para desafios mais sérios, ou ainda estão se adaptando? Compartilhe suas experiências nos comentários.

[Referência da matéria]