AlexNet, o modelo de IA que deu início à revolução, agora disponível em código-fonte para download livre.

O professor da Universidade de Toronto, Geoffrey Hinton, está no centro de uma história sobre a ascensão da inteligência artificial. Um dos marcos mais significativos ocorreu em 2012 com o surgimento do AlexNet, uma rede neural que, pela primeira vez, demonstrou um avanço notável na habilidade de um computador em reconhecer imagens. Na quinta-feira, o Museu da História da Computação (CHM), em colaboração com o Google, disponibilizou pela primeira vez o código-fonte do AlexNet, escrito pelo estudante de graduação Alex Krizhevsky, colocando-o no GitHub para que todos possam explorar e baixar.

O CHM expressou seu orgulho em apresentar o código que foi desenvolvido em 2012 por Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton, afirmando que essa obra transformou o campo da inteligência artificial, conforme registrado no arquivo readme disponível no GitHub. A criação de Krizhevsky desencadeou uma onda de inovações nos anos subsequentes, além de atrair um grande volume de investimentos, baseando-se na comprovação de que, com dados e poder computacional suficientes, redes neurais poderiam alcançar avanços considerados anteriormente apenas teóricos. O código, que ocupa apenas 200KB, combina elementos de código CUDA da Nvidia, scripts em Python e um pouco de C++ para descrever como fazer uma rede neural convolucional analisar e categorizar arquivos de imagem.

Hansen Hsu, historiador de software do Museu, passou cinco anos em negociações com o Google, que possui os direitos sobre o código, para que ele fosse liberado, como ele descreve em seu ensaio sobre o legado da IA e a origem do AlexNet. Na época, Krizhevsky era aluno de graduação sob a orientação do cientista da IA, ganhador do Prêmio Nobel, Geoffrey Hinton. Sutskever, outro estudante de pós-graduação, que mais tarde se tornaria cofundador da OpenAI, incentivou Krizhevsky a prosseguir com o projeto. Hinton, conforme citado por Hsu, revelou que “Ilya achou que deveríamos fazer isso, Alex fez funcionar, e eu recebi o Prêmio Nobel.”

O Google adquiriu a propriedade intelectual do AlexNet ao comprar a startup DNNResearch, cofundada por Hinton, Krizhevsky e Sutskever. Antes do lançamento do AlexNet, Hinton e outros se dedicaram por anos a demonstrar que “aprendizado profundo” através de coleções de neurônios artificiais poderia aprender padrões em dados. Hsu observa que a inteligência artificial havia se tornado um campo estagnado devido à falta de resultados significativos. Embora a rede neural convolucional (CNN) tenha mostrado alguns resultados promissores em tarefas como o reconhecimento de dígitos manuscritos, não havia promovido mudanças em indústrias antes de 2012.

A dedicação de Hinton e de outros defensores da IA levou à evolução do design de redes neurais, incluindo as CNNs, além de descobrir em pequenos experimentos com chips de GPU da Nvidia que aumentar o número de camadas de neurônios artificiais poderia teoricamente resultar em melhores resultados. Sutskever percebeu que o trabalho teórico poderia ser ampliado para uma rede neural muito maior, desde que houvesse potência computacional adequada e dados de treinamento.

Sutskever comentou sobre esta visão durante uma conversa informal com Jensen Huang, cofundador e CEO da Nvidia, em 2023, afirmando que sabia que redes neurais maiores funcionariam, mesmo que isso fosse contra a sabedoria convencional da época. “As pessoas não estavam olhando para redes neurais grandes” em 2012, disse Sutskever a Huang. “Elas estavam apenas treinando redes neurais com 50 ou 100 neurônios”, em vez de milhões ou bilhões, que se tornaram padrão anos depois. Ele estava ciente de que essa abordagem estava equivocada. “Não era apenas uma intuição; era, eu argumentaria, um argumento irrefutável, que era o seguinte: se a sua rede neural é profunda e grande, então ela pode ser configurada para resolver uma tarefa difícil.”

O trio encontrou os dados de treinamento necessários no ImageNet, um projeto recém-criado pela professora da Universidade de Stanford, Fei Fei Li, na época. Li desafiou a visão convencional ao contratar trabalhadores da Amazon Mechanical Turk para rotular 14 milhões de imagens de diversos tipos de objetos, criando um conjunto de dados muito maior do que qualquer outro disponível na visão computacional na época. “Parecia um conjunto de dados incrivelmente difícil, mas estava claro que se fôssemos treinar uma grande rede neural convolucional nesse conjunto de dados, ela teria que ter sucesso se tivéssemos poder computacional suficiente,” declarou Sutskever a Huang em 2023.

O poder computacional que precisavam acabou sendo um computador desktop com duas GPUs, que Krizhevsky utilizava em seu quarto, na casa dos pais. Quando o trabalho foi apresentado na competição anual do ImageNet em setembro de 2012, o AlexNet teve um desempenho quase 11 pontos superior ao do concorrente mais próximo, alcançando uma taxa de erro de 15,3%. Eles descreveram essa pesquisa em um artigo formal. Yann LeCun, cientista-chefe de IA da Meta Platforms, que anteriormente estudou sob a orientação de Hinton e foi um dos pioneiros da engenharia de CNN nos anos 1990, considerou o AlexNet um divisor de águas na época. “Ele estava certo,” escreve Hsu. “Antes do AlexNet, quase nenhum dos principais artigos de visão computacional utilizava redes neurais. Depois dele, quase todos passaram a usar.”

O que o trio conseguiu foi fazer valer todo o trabalho teórico sobre a construção de redes neurais “profundas” com muitas camadas de neurônios, provando que essas redes poderiam aprender padrões de fato. “O AlexNet foi apenas o começo,” afirma Hsu. “Na próxima década, as redes neurais avançariam para sintetizar vozes humanas críveis, vencer campeões no jogo Go, modelar a linguagem humana e gerar obras de arte, culminando com o lançamento do ChatGPT em 2022 pela OpenAI, uma empresa cofundada por Sutskever.”

Sutskever mais tarde comprovaria novamente que aumentar o tamanho das redes neurais poderia resultar em descobertas surpreendentes. O lançamento do ChatGPT no outono de 2022, outro marco na área, foi o resultado de todos os modelos GPT 1, 2 e 3 que vieram antes dele. Esses modelos foram todos fruto da crença de Sutskever em escalar redes neurais para tamanhos sem precedentes. “Eu tinha uma forte crença de que maior é melhor e que um dos objetivos que tínhamos na OpenAI era descobrir como usar a escala corretamente,” afirmou ele a Huang em 2023. Huang creditou o trio durante seu discurso principal na Consumer Electronics Show em janeiro: “Em 2012, Alex Krizhevsky, Ilya Sutskever e Geoffrey Hinton descobriram o CUDA,” disse Huang, “usaram isso para processar o AlexNet, e o resto é história.”

A liberação do AlexNet sob a forma de código-fonte chega em um momento intrigante, pois coincide com o campo da IA e toda a economia mundial estarem fascinados por outro modelo de código aberto, o DeepSeek AI’s R1.

Referência: https://www.washingtonpost.com/technology/2023/10/27/alexnet-open-source-release/

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima