A obsessão por escala da indústria de IA está caminhando para o precipício

Um novo estudo do MIT sugere que os maiores e mais intensivos modelos de IA poderão em breve oferecer retornos decrescentes em comparação com modelos menores. Ao mapear as leis de escala contra melhorias contínuas na eficiência do modelo, os investigadores descobriram que poderia tornar-se mais difícil obter saltos no desempenho de modelos gigantes, enquanto os ganhos de eficiência poderiam tornar os modelos executados em hardware mais modesto cada vez mais capazes durante a próxima década.

“Nos próximos cinco a 10 anos, é muito provável que as coisas comecem a diminuir”, diz Neil Thompson, cientista da computação e professor do MIT envolvido no estudo.

Saltos em eficiência, como aqueles observados com Modelo de custo extraordinariamente baixo do DeepSeek em janeiro, já serviram como um teste de realidade para a indústria de IA, que está acostumada a queimar enormes quantidades de computação.

Do jeito que as coisas estão, um modelo de fronteira de uma empresa como a OpenAI é atualmente muito melhor do que um modelo treinado com uma fração da computação de um laboratório acadêmico. Embora a previsão da equipa do MIT possa não ser válida se, por exemplo, novos métodos de formação, como a aprendizagem por reforço, produzirem novos resultados surpreendentes, eles sugerem que as grandes empresas de IA terão menos vantagem no futuro.

Hans Gundlach, cientista pesquisador do MIT que liderou a análise, interessou-se pela questão devido à natureza complicada da execução de modelos de ponta. Juntamente com Thompson e Jayson Lynch, outro cientista pesquisador do MIT, ele mapeou o desempenho futuro dos modelos de fronteira em comparação com aqueles construídos com meios computacionais mais modestos. Gundlach diz que a tendência prevista é especialmente pronunciada para os modelos de raciocínio que estão agora em voga, que dependem mais de computação extra durante a inferência.

Thompson diz que os resultados mostram o valor de aprimorar um algoritmo, bem como de aumentar a computação. “Se você está gastando muito dinheiro treinando esses modelos, então deveria absolutamente gastar parte tentando desenvolver algoritmos mais eficientes, porque isso pode ser muito importante”, acrescenta.

O estudo é particularmente interessante tendo em conta o actual boom da infra-estrutura de IA (ou deveríamos dizer “bolha”?) – que mostra poucos sinais de abrandamento.

OpenAI e outras empresas de tecnologia dos EUA assinou acordos de cem bilhões de dólares para construir infraestrutura de IA nos Estados Unidos. “O mundo precisa de muito mais computação”, disse o presidente da OpenAI, Greg Brockman. proclamado esta semana ao anunciar uma parceria entre OpenAI e Broadcom para chips de IA personalizados.

Um número crescente de especialistas questiona a solidez destes acordos. Aproximadamente 60 por cento do custo de construção de um data center vai para GPUs, que tendem a se depreciar rapidamente. Parcerias entre os principais players também aparecem circular e opaco.

Source link