Compressão agressiva do Google reduz cache KV em até 6x
Google – A gigante de Mountain View revelou recentemente a técnica TurboQuant, capaz de encolher o KV cache dos modelos de linguagem para apenas 3 bits, prometendo aliviar a crise global de memórias que elevou os custos de PCs e data centers.
- Em resumo: menos memória, até 8 vezes mais velocidade e possível queda nos preços de RAM e VRAM.
KV cache: o vilão invisível que encarece servidores
O KV cache funciona como o “caderno de rascunho” da IA. Cada token gerado consulta esse histórico, que cresce conforme o número de usuários simultâneos. Segundo um levantamento da Tom’s Hardware, data centers gastam hoje mais com DRAM do que com GPUs de ponta.
“Em ambientes de IA, a memória já superou a computação como principal gargalo econômico”, destaca o relatório.
Como a quantização de 3 bits muda o jogo do mercado
Até pouco tempo, a indústria considerava a quantização de 8 bits o “ponto ótimo” entre desempenho e precisão. O TurboQuant avança duas gerações de uma só vez, combinando PolarQuant e QJL para suprimir erros estatísticos. Na prática, isso pode reduzir a demanda por HBM3 — usada em placas como a Nvidia H100 — e frear a corrida por novos módulos DDR5 de alta capacidade.
Historicamente, saltos de eficiência em software precederam quedas de preço em hardware, como ocorreu com a adoção de codecs de vídeo mais compactos. Se a compressão do Google se tornar padrão, analistas preveem que o mercado de DRAM volte ao equilíbrio já em 2027, abrindo espaço para upgrades mais acessíveis ao consumidor comum.
O que você acha? A nova técnica será suficiente para normalizar os preços de componentes? Para mais detalhes, acesse nossa editoria especializada.
Crédito da imagem: Divulgação / Google