Como o Stack Overflow enriquece as respostas humanas na era da IA

O site de perguntas e respostas Stack Overflow foi criado há 17 anos com o objetivo de permitir que programadores — programadores humanos — fizessem perguntas sobre problemas de programação e obtivessem respostas de uma comunidade de pessoas que pensam de forma semelhante. Desde sua fundação, o mundo ficou fascinado com a capacidade dos programas de IA generativa, como o ChatGPT, não apenas de fornecer respostas, mas até de realizar o trabalho em si, entregando códigos personalizados. Como uma comunidade que compartilha conhecimento deve reagir ao apelo repentino da automação por IA? O CEO da Stack Overflow, Prashanth Chandrasekar, dirige a empresa há quase seis anos e tem um plano. Conduzi uma entrevista com ele neste mês para descobrir como esse plano está se desenrolando.

“Coisas mudaram; queremos acompanhar as transformações do tempo”, disse-me Chandrasekar. “Queremos nos alinhar com a direção do fluxo do rio.”

A ascensão do ChatGPT foi um ponto de inflexão. A partir de 2022, essa nova realidade teve um impacto imediato no tráfego do site público da Stack Overflow, que é responsável pela receita concentrada em publicidade. Historicamente, uma das principais formas de acesso ao Stack Overflow era por meio de buscas no Google. A pesquisa paga no Google funcionava como a “interface do usuário do Stack Overflow”, conforme a expressão de Chandrasekar. Poder fazer perguntas a um chatbot, em vez de buscar, rapidamente começou a diminuir o número de consultas no Google, levando a uma queda no tráfego. Chandrasekar chegou a uma conclusão filosófica ampla sobre não apenas IA e automação, mas também sobre a internet. “Nossa visão é que a natureza da internet mudou”, afirmou. Não se trata mais apenas de buscas pagas com consultas humanas direcionando o tráfego. “A interface do usuário mudou para ser ferramentas de IA generativa”, observou. “Portanto, precisamos ser o mais responsivos possível a essa mudança na indústria. Também precisamos diversificar como propriedade."

Chandrasekar e sua equipe perceberam que havia muito valor nas 60 milhões de respostas da Stack Overflow para abordar as limitações da IA generativa. Uma opção seria processar uma ação judicial contra a OpenAI e outros criadores de modelos de fundação de IA. Os grandes modelos de linguagem “pré-treinados” incluem conversas da Stack Overflow, que, legalmente, pertencem à Stack Overflow. "Se você está criando um chatbot ou algo assim, precisa trabalhar conosco. Vamos estabelecer um acordo comercial justo." “Nós dissemos: tudo bem, podemos fazer isso ou podemos fazer algo um pouco mais, vamos dizer, inovador, em relação ao que todo mundo estava fazendo.” Em vez de entrar com uma ação, a Stack Overflow implementou um código para bloquear o scraping do site público e, então, disseram: "se você está criando um chatbot ou algo assim, precisa trabalhar conosco. Vamos chegar a um acordo comercial justo."

Além da receita gerada pela publicidade e da versão corporativa paga do Stack Overflow, chamada Teams, Chandrasekar está desenvolvendo uma terceira fonte de receita conhecida como soluções de conhecimento — ou conhecimento como serviço. Ele tem firmado acordos para licenciar o conteúdo da Stack Overflow, primeiro com o Google e a OpenAI. Nos últimos 18 meses, esteve ocupado assinando contratos com "todas as grandes empresas de nuvem, não posso citá-las, mas você as conhece", disse. "Estamos em processo de realizar muitos mais." Esses acordos incluem integração com a ferramenta Visual Studio Code da Microsoft, GitHub CoPilot e Google Gemini Code Assist — para obter respostas diretamente dentro do ambiente de programação. “Todas essas empresas estão aproveitando uma versão licenciada oficialmente de nosso conjunto de dados para treinar seus modelos para pré-treinamento para fazer coisas como RAG e indexação em alguns casos.”

As respostas surgem no ChatGPT ou em outros LLMs, com um crédito e um link de volta para a Stack Overflow. "O objetivo é, na verdade, recuperar o tráfego que as pessoas direcionaram para o nosso site diretamente," afirmou. "Estamos nos tornando mais um site sem interface: se as pessoas estão passando todo o seu tempo em bots de IA generativa, isso também está bem." Claro, há o risco de não ter relações diretas com o usuário final, caso não estejam realmente no site da Stack Overflow. Chandrasekar mencionou que a empresa possui vários acordos para obter informações relevantes da OpenAI e outros sobre aspectos como o prompt que o usuário do chatbot está utilizando. “Há muitas sutilezas no engajamento entre o parceiro e nós”, contou-me. "Estamos analisando cada cenário", disse, por exemplo, quanto da "janela de contexto" de um LLM (a memória recente das conversas) é compartilhada com a Stack Overflow.

Chandrasekar disse que a Stack Overflow está corrigindo três grandes deficiências da tecnologia para a OpenAI e os outros gigantes. Uma delas é o que ele chama de ponto de confiança. "Você não confia no que está saindo dele", referindo-se às infames alucinações e confabulações dos LLMs. A segunda limitação é o desgaste cerebral do LLM. "Se você não gera novas informações, esses LLMs não vão progredir no nível de inteligência deles", como é evidente nas controvérsias sobre os chamados dados sintéticos que podem poluir os LLMs. “As respostas que saem da IA generativa não são conhecimento. Isso… realmente precisa ter o rico contexto da Stack Overflow." Por último, e talvez mais importante, "as respostas que saem da IA generativa na verdade não são conhecimento", disse Chandrasekar. "Pode haver uma resposta, mas eles podem estar limitados em complexidade porque este é um conjunto de circunstâncias muito complicado", e portanto, realmente precisa ter o rico contexto da Stack Overflow, disse ele.

Simultaneamente, enquanto firmava acordos com as grandes empresas para o Stack Overflow público, Chandrasekar iniciou uma segunda parte do negócio de soluções de conhecimento. A Stack Overflow está integrando seu conteúdo público no produto Teams para empresas que desejam expandir seus recursos internos de conhecimento para o propósito da IA com agente. O produto Teams foi introduzido porque as empresas disseram que queriam sua própria versão do Stack Overflow como um repositório, não para conhecimentos de programação gerais, mas para seus processos corporativos específicos. Agora, disse Chandrasekar, as mesmas empresas querem ampliar esse pool de informações porque desejam desenvolver agentes de IA que façam muito mais do que programação. "Temos empresas como a Uber que já fizeram isso conosco, onde construíram um chatbot de IA que é chamado de assistente, ou, em um sentido muito generoso, agente, porque se trata de executar uma ação. Mas esse agente está aproveitando os dados do Teams para algo como, ‘Como fazemos isso’ dentro da Uber? O bot oferece uma resposta automática dentro de um chat corporativo. “O bot tem todo o conhecimento da equipe, então está revelando as informações certas no momento certo.”

Em palavras simples, a IA com agente automatiza o que os funcionários tradicionalmente fazem com o Teams. "Percebemos isso porque nossas APIs estão em alta; nossas APIs estão sendo constantemente acessadas pelo bot." Diante dessa tendência, Chandrasekar está adicionando um novo elemento ao Teams, licenciando todos os dados do site público da Stack Overflow para os mesmos clientes do Teams. "Nós dissemos: ‘Por que não pegamos nosso produto de soluções de conhecimento, nossos dados da plataforma pública, e também apresentamos isso às empresas junto com os dados do Teams?’ Assim, um agente pode ter o conhecimento de 60 milhões de perguntas e respostas, além de todo o conhecimento específico da empresa, tornando-se ainda mais capaz de fornecer a resposta correta no momento oportuno." O produto Teams, assim como os grandes acordos de licenciamento, é integrado a vários produtos, como o sistema de tickets de TI JIRA da Atlassian. A Stack Overflow está negociando os termos de licenciamento com os usuários corporativos do Teams. Chandrasekar não quis discutir detalhes sobre preços, limitando-se a afirmar que "é um modelo de preços baseado em valor".

“No entanto, ainda são etapas iniciais”, disse ele, ao avaliar o que o mercado permitirá para tal licenciamento de conteúdo. Enquanto isso, à medida que as soluções de conhecimento estão sendo desenvolvidas, o site público da Stack Overflow está recebendo melhorias significativas. A empresa ainda está "trabalhando para voltar" ao nível de tráfego anterior ao ChatGPT, comentou Chandrasekar, sem revelar números de tráfego, acrescentando que o site "ainda não alcançou plenamente" o nível anterior ao ChatGPT. Chandrasekar está aprimorando a funcionalidade do site público para torná-lo mais em tempo real. O modo tradicional da Stack Overflow é que uma pessoa posta uma pergunta e outras oferecem suas respostas sugeridas. Duas outras formas de troca estão enterradas no site — chats e discussões. Chandrasekar descreve essas como modos de interação "em faixas", que não trazem a perfeição das respostas principais, mas podem proporcionar uma resposta a alguém de forma muito mais ágil.

A filosofia de Chandrasekar é que "queremos fornecer múltiplos formatos e tipos de projetos para tecnólogos de diferentes tipos." "Queremos realmente evoluir de uma base de conhecimento para algo muito mais próximo de um site comunitário." A empresa também está considerando a adição de conteúdo em vídeo instrucional vindo de usuários. "Há muito conteúdo valioso," observou. "Imagine se alguém estiver testando o DeepSeek e pudermos transmitir ao vivo essa experiência e outra pessoa poder aprender com essa vivência. Queremos realmente ir além de uma base de conhecimento para um site mais focado na comunidade." Se isso lhe soa como algo semelhante ao Reddit, Chandrasekar disse que frequentemente ouve isso. A diferença, ele observou, é que “somos obviamente um público muito especializado; não estamos tentando ser tudo para todas as pessoas.” Ele admira o grande site social. “Conheço muito bem, e eles foram ótimos. São muito próximos de nós, ou, talvez, um irmão mais velho.” Ele observou que os acordos de licenciamento do Reddit com a OpenAI ajudaram a pavimentar o caminho para o negócio de soluções de conhecimento.

Sempre há o perigo de que, ao expandir uma propriedade bem-sucedida, os esforços se tornem excessivamente dispersos. Como a Stack Overflow estabelece suas prioridades? "Queremos escolher aquelas que mais ressoam com nossos usuários", disse ele. "Falo frequentemente com a comunidade, basicamente me engajo com eles para entender quais áreas devemos focar. Estamos indo literalmente para testar quais iniciativas realmente fazem a diferença."

A relação interna com a IA generativa também mudou. Logo no início, quando o ChatGPT foi lançado ao público, alguns usuários do Stack Overflow estavam pegando respostas prontas do bot. O site reagiu banindo essas respostas copiadas e coladas. “Mas então, dissemos, vamos conversar com a comunidade e ver como eles queriam fazer as coisas,” afirmou. “Uma coisa que se tornou óbvia é que as pessoas ainda achavam bem difícil interagir humanamente e fazer perguntas.” Tradicionalmente, a moderação humana no site poderia levar moderadores a repreender perguntas repetitivas ou de novatos. “Se você está fazendo uma pergunta sobre um assunto técnico, se alguém já respondeu antes, alguém diria: essa é uma pergunta errada. Procure antes de perguntar.” Apareceu “uma grande oportunidade para usar IA.” O site recentemente ativou respostas "potencializadas pelo Gemini". Agora, "o Gemini está oferecendo uma sugestão que já foi feita antes" e direcionando você para a listagem relevante, “tudo em uma janela privada só sua com a IA,” para que não haja vergonha na sua dúvida de novato.

As mudanças no site público da Stack Overflow são a mais recente iniciativa, mas os acordos de licenciamento e as adições ao Teams parecem estar ajudando o negócio já.

“Estamos crescendo como empresa”, disse Chandrasekar, sem revelar detalhes financeiros. A Stack Overflow é propriedade do gigante de investimentos europeu Prosus NV, da Holanda, que a adquiriu há quatro anos por 1,8 bilhão de dólares. "Veja, não somos como nenhum outro site por aí, mas também não aceitamos doações." A Prosus é listada publicamente, portanto a empresa pode divulgar informações financeiras reais sobre a Stack Overflow quando anunciar seu relatório fiscal completo, o que costuma fazer no final de junho de cada ano.

A parte de soluções de conhecimento do negócio se tornou a que mais rapidamente cresce na Stack Overflow, seguida pelas vendas do Teams, e pelo negócio de publicidade, que é um “negócio muito estável” devido à demanda constante para anunciar para programadores onde eles passam tempo. Cada uma das três partes representa aproximadamente um terço da receita, afirmou Chandrasekar. Parte disso é como a comunidade lidará com essa nova abordagem. Houve resistência quando a empresa se aproximou do Google e da OpenAI sobre licenciamento de dados — não surpreendente, pois a comunidade considera as 60 milhões de perguntas uma propriedade coletiva, mesmo que legalmente pertençam à corporação Stack Overflow.

A resistência foi tanta que alguns usuários afirmaram ter sido banidos do site se causassem alvoroço por conta dos acordos de licenciamento. Sem entrar em detalhes sobre conflitos passados, disse Chandrasekar que, neste ponto, os usuários da Stack Overflow perceberam que a empresa não é uma organização sem fins lucrativos e que precisa gerar receita para cumprir sua missão. “Eu fiz um AMA há duas semanas,” um “Pergunte-me Qualquer Coisa” com usuários da Stack Overflow, ele lembrou. “Eu disse, olhem, não somos como qualquer outro site por aí, mas não aceitamos doações. Você tem uma empresa que sustenta o site, e uma forma de impulsionar um negócio é aproveitar o que você tem que é útil para agregar valor ao ecossistema.” O resultado, ele disse, é que “eles perceberam que isso é algo bom para a Stack, e para eles, porque ao não fazermos isso, na verdade, não estamos capturando a receita de que precisamos para investir de volta na comunidade, para construir as ferramentas de moderação que precisam. Portanto, a comunidade agora entende isso, lentamente."

Fontes: TechNewsWorld

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima