Un signal concret revient dans presque tous les déploiements IA sérieux : la facture monte beaucoup plus vite que la valeur si personne ne pilote la consommation. Ce n’est pas un détail de marge. Dès qu’un système d’agents passe du test à l’usage régulier, le gaspillage de tokens devient un sujet d’architecture.
Nous avons réduit ce gaspillage d’environ 70% sur certains workflows non pas en demandant au modèle de “parler moins”, mais en réorganisant la manière dont le système travaille. Le gain est venu de la structure, du routage et de la discipline contextuelle. Autrement dit : encore une fois, le sujet est opérationnel avant d’être spectaculaire.
Résumé exécutif
La réduction massive des tokens ne vient pas d’une astuce isolée. Elle vient d’une combinaison de leviers : limiter le contexte envoyé, découper les tâches, router vers le bon modèle, mémoriser proprement ce qui doit l’être, éviter les appels redondants et clarifier les étapes qui nécessitent réellement un LLM. Cette approche améliore à la fois le coût, la latence et souvent la fiabilité.
1. Le plus gros gaspillage vient du contexte envoyé par réflexe
Beaucoup de systèmes envoient trop d’information à chaque appel : historique entier, documentation volumineuse, règles répétées, données non utilisées, consignes globales recopiées partout. Cela rassure au départ, mais c’est inefficace. Plus le système grossit, plus cette habitude devient coûteuse.
La première réduction importante a consisté à distinguer le contexte permanent, le contexte de tâche et le contexte d’exception. Tout n’a pas besoin d’être présent à tout moment. Quand cette séparation est bien faite, les appels deviennent plus légers et souvent plus précis.
2. Découper les tâches réduit les appels lourds
Un autre levier fort consiste à arrêter de demander au même appel de tout faire. Une tâche monolithique pousse à injecter beaucoup de contexte “au cas où”. À l’inverse, un workflow découpé permet d’utiliser de petits appels spécialisés, mieux bornés, parfois même remplaçables par des règles simples ou des traitements non génératifs.
Ce point rejoint la logique développée dans Le vrai problème des agents IA n’est pas l’intelligence : une meilleure structure bat souvent une intelligence supposée plus forte mais mal utilisée.
3. Tous les appels ne méritent pas le même modèle
Dans de nombreux systèmes, les équipes utilisent le modèle le plus coûteux comme défaut global. C’est pratique, mais rarement optimal. Nous avons obtenu des gains significatifs en routant mieux : petit modèle pour classification ou extraction simple, modèle intermédiaire pour synthèse bornée, modèle plus capable uniquement pour les décisions ou formulations complexes.
Cette logique de routage suppose de connaître la nature réelle des tâches. Elle demande un peu plus de design au départ, mais elle réduit immédiatement la dépense inutile. Elle améliore aussi la lisibilité économique du système, ce qui devient essentiel dès que plusieurs agents opèrent en parallèle.
4. La mémoire utile doit remplacer la répétition aveugle
Beaucoup de gaspillages viennent d’un mauvais compromis entre mémoire et répétition. Faute de structure, on renvoie les mêmes informations à chaque tour. Une approche plus saine consiste à stocker proprement ce qui doit persister : préférences, règles stabilisées, état de dossier, extraits pertinents, derniers résultats utiles. Ensuite, on ne rappelle que ce qui est nécessaire.
Cela suppose une vraie réflexion sur la mémoire opérationnelle et le retrieval, pas une simple accumulation de texte. Quand cette couche est bien conçue, on réduit la facture sans appauvrir la qualité. C’est une des raisons pour lesquelles les agents les plus solides ressemblent à des systèmes, pas à des prompts géants.
5. Réduire les tokens améliore aussi la gouvernance
Le coût n’est pas le seul bénéfice. Quand un système consomme moins de tokens parce qu’il est mieux structuré, il devient aussi plus contrôlable. On comprend mieux quelle étape appelle quel modèle, pourquoi, avec quel contexte et pour quel résultat. Cette lisibilité simplifie les arbitrages de sécurité, de performance et de BYOK.
Autrement dit, l’optimisation des tokens n’est pas une obsession d’ingénieur. C’est un marqueur de maturité opérationnelle. Elle prouve qu’on ne traite plus l’IA comme une boîte noire coûteuse, mais comme une infrastructure pilotable. C’est aussi ce qui évite une partie des cassures évoquées dans Pourquoi la plupart des agents IA cassent en production.
FAQ
Réduire les tokens fait-il baisser la qualité ?
Pas nécessairement. Souvent, la qualité s’améliore parce que le contexte devient plus pertinent et le workflow plus clair.
Quelle a été la mesure la plus efficace ?
La séparation stricte entre contexte permanent, contexte de tâche et contexte réellement nécessaire à l’instant T.
Faut-il toujours utiliser plusieurs modèles ?
Pas toujours, mais le routage par niveau de complexité produit souvent un meilleur rapport coût-valeur qu’un modèle unique pour tout.
Ce type d’optimisation concerne-t-il seulement les gros volumes ?
Non. Même à volume modéré, elle améliore la marge, la latence et la gouvernance. Et elle devient critique dès que les usages se multiplient.
Conclusion
Réduire le gaspillage de tokens de 70% n’a pas demandé une recette magique. Cela a demandé une discipline d’architecture : mieux cadrer, mieux router, mieux mémoriser et mieux distinguer ce qui relève vraiment du LLM. C’est encore une preuve que l’IA utile n’est pas seulement une question de modèle. C’est une question d’infrastructure opérationnelle.
Si vous voulez auditer vos coûts IA ou structurer une architecture plus sobre, nous pouvons vous aider via /discovery/. Pour prolonger la série, vous pouvez aussi lire BYOK : pourquoi les entreprises intelligentes veulent garder le contrôle et Le futur n’est pas le chatbot mais le collègue IA opérationnel.