Google TurboQuant – O novo algoritmo de compressão para grandes modelos de linguagem foi divulgado recentemente e promete cortar o consumo de memória em servidores de IA em até seis vezes, sacudindo todo o mercado de DRAM e GPUs.
- Em resumo: menos RAM por tarefa, porém risco de demanda ainda maior no longo prazo.
Como o TurboQuant espreme o cache de IA
O método adota quantização extrema no KV cache, memória de curto prazo que armazena o histórico de prompts. Dados que ocupavam 16 bits passam a valer apenas 3 bits, mantendo a precisão, segundo testes internos de Mountain View. O avanço ecoa o princípio de compressão sem perdas já estudado em codecs, mas aplicado agora à lógica de LLMs. Detalhes publicados no blog de pesquisa do Google foram analisados por especialistas e comparados a iniciativas descritas pela Wired, reforçando o caráter disruptivo da solução.
“Um servidor que necessitava de 1 TB de RAM poderá operar com quatro a seis vezes menos memória sem sacrificar desempenho.”
Paradoxo de Jevons: eficiência que vira consumo
A reação imediata ao anúncio derrubou as ações de SK Hynix, Samsung e Micron em cerca de 6 %. Entretanto, analistas do Morgan Stanley e do JP Morgan lembram que, historicamente, ganhos de eficiência terminam elevando o uso do próprio recurso. O fenômeno, descrito em 1865 por William Stanley Jevons, sugere que data centers reforçarão suas operações ao perceberem economia nos custos de RAM, estimulando nova corrida por módulos DRAM e placas de vídeo.
Para o segmento corporativo, a ferramenta viabiliza modelos maiores ou atendimento simultâneo a mais usuários com a mesma infraestrutura, o que pressiona a cadeia de suprimentos. Já o consumidor final pode continuar enfrentando preços altos enquanto a produção global de memória prioriza aplicações de IA.
O que você acha? O TurboQuant vai aliviar ou piorar a falta de memória no mercado? Para mais análises sobre inteligência artificial, acesse nossa editoria especializada.
Crédito da imagem: Divulgação / Google