Le 24 mars, Google Research a lâché une bombe discrète : TurboQuant, un algorithme de compression qui divise par 6 la mémoire nécessaire à l’inférence IA, sans perte de qualité. En quelques jours, l’action Micron a chuté de 20 %, le CEO de Cloudflare a comparé l’annonce au séisme DeepSeek, et les développeurs l’ont surnommée « le Pied Piper de l’IA ». Décryptage.
Quand un LLM génère du texte, il stocke un « pense-bête » pour chaque mot traité : le cache KV (key-value). Ce cache grossit linéairement avec le contexte et stocke tout en pleine précision. Pour un modèle 8B à 128K tokens, il peut atteindre 16 Go de VRAM, souvent plus que les poids du modèle lui-même. C’est le premier mur que frappent les développeurs qui font tourner des LLM en local, et le premier poste de coût pour les entreprises en production.
La suite est réservée à mes patrons
Cet article fait partie des contenus exclusifs que je publie sur Patreon. Rejoins la communauté pour lire la suite, soutenir mon travail et accéder à tous les articles réservés.
Loading comments...