Pesquisadores em IA recebem prêmio Turing por técnica que possibilitou o triunfo do AlphaGo no xadrez

Imaginima/Getty Images Algumas das conquistas mais impressionantes em inteligência artificial na última década foram alcançadas por meio de uma técnica em que o computador age aleatoriamente a partir de um conjunto de opções e é recompensado ou punido por cada movimento correto ou incorreto. Essa abordagem foi notoriamente utilizada no AlphaZero, programa da Google DeepMind, que dominou os jogos de xadrez, shogi e Go em 2018. O mesmo princípio auxiliou o programa AlphaStar a alcançar um desempenho de “grão-mestre” no jogo Starcraft II.

Na quarta-feira, dois acadêmicos de IA foram reconhecidos por seu progresso no chamado aprendizado por reforço, que é uma abordagem ampla sobre como um computador opera em um ambiente desconhecido. A Association for Computing Machinery anunciou que Andrew G. Barto, professor emérito do Departamento de Ciências da Informação e da Computação da Universidade de Massachusetts, Amherst, e Richard S. Sutton, professor de ciência da computação da Universidade de Alberta, no Canadá, foram homenageados com o Prêmio Turing de 2025. O prêmio da ACM destaca que “Barto e Sutton introduziram as ideias principais, construíram as bases matemáticas e desenvolveram algoritmos importantes para o aprendizado por reforço, uma das abordagens mais essenciais para a criação de sistemas inteligentes.” Este prêmio da ACM inclui um prêmio em dinheiro de 1 milhão de dólares e é amplamente considerado o equivalente ao Prêmio Nobel na indústria de computação.

O aprendizado por reforço pode ser comparado à imagem de um rato em um labirinto: o rato deve encontrar o caminho até um prêmio final, o queijo, em um ambiente desconhecido. Para isso, o rato precisa aprender quais movimentos parecem levar a um progresso e quais resultam em becos sem saída. Pesquisadores, como neurocientistas, sugerem que entidades inteligentes, como os ratos, possuem um “modelo interno do mundo”, que as permite reter lições de suas explorações e formular planos. Sutton e Barto conjecturaram que um computador poderia também ser capacitado a construir um modelo interno do estado de seu ambiente.

Os programas de aprendizado por reforço absorvem informações sobre o ambiente, seja um labirinto ou um tabuleiro de xadrez, como entrada. No início, o programa atua de maneira um tanto aleatória, experimentando diferentes movimentos nesse ambiente. As ações acabam sendo recompensadas ou não. Esse feedback, positivo e negativo, começa a formar um cálculo por parte do programa, uma estimativa do que pode ser obtido ao realizar diferentes movimentos. Com base nessa estimativa, o programa formula uma “política” que orienta as ações futuras em busca do sucesso.

Esses programas precisam equilibrar a tarefa de explorar novas opções de ação, de um lado, e de explorar escolhas boas conhecidas, de outro, uma vez que nem um nem outro levará ao sucesso por si só. Aqueles que desejam se aprofundar mais no tema podem obter uma cópia do livro didático sobre o assunto que Sutton e Barto publicaram em 2018. O aprendizado por reforço conforme é utilizado por Sutton e Barto não deve ser confundido com o aprendizado por reforço mencionado pela OpenAI e outros fornecedores de modelos de linguagem de grande porte. A OpenAI e outros utilizam “aprendizado por reforço a partir do feedback humano” (RLHF) para moldar a saída do GPT e de outros modelos de linguagem, tornando-os inofensivos e úteis. No entanto, essa é uma técnica de IA distinta, sendo apenas o nome que foi adaptado.

Sutton, que também foi Cientista de Pesquisa Distinto na DeepMind de 2017 a 2023, tem enfatizado nos últimos anos que o aprendizado por reforço representa uma teoria do pensamento. Durante um simpósio sobre IA em 2020, Sutton lamentou que “há muito pouca teoria computacional” na IA atualmente. Ele declarou: “O aprendizado por reforço é a primeira teoria computacional da inteligência.” Ele acrescentou que “a IA precisa de uma teoria computacional da inteligência acordada” e que “o RL é o candidato principal para isso.” O aprendizado por reforço pode igualmente ter implicações sobre como a criatividade e o jogo livre podem ocorrer como uma expressão de inteligência, incluindo a inteligência artificial.

Barto e Sutton têm ressaltado a importância do brincar no aprendizado. Durante o simpósio de 2020, Sutton comentou que, no aprendizado por reforço, a curiosidade desempenha um “papel de baixo nível” para impulsionar a exploração. “Nos últimos anos, as pessoas começaram a olhar para um papel maior para o que estamos chamando de ‘brinquedo'”, disse Sutton. “Estabelecemos metas que não são necessariamente úteis, mas que podem ser úteis mais tarde. Eu estabeleço uma tarefa e digo: ei, o que sou capaz de fazer. Quais são as possibilidades?” Sutton afirmou que brincar pode ser uma das “grandes coisas” que as pessoas fazem. “Brincar é algo importante”, disse ele.

Referência: https://www.cnnbrasil.com.br/tecnologia/2023/10/30/premio-turing-reconhece-pioneiros-do-aprendizado-por-reforco-em-inteligencia-artificial

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima