Guide · FR

12 min read

April 22, 2026

Optimiser le coût des LLM en production : guide concret pour CTO

Comment diviser par trois la facture LLM sans dégrader la qualité — model routing, prompt caching, agentic plan caching, budget par session. Avec chiffres concrets en euros.

coût-llmoptimisationproductioncto

Si votre facture Anthropic ou OpenAI dépasse 1 000 €/mois, il y a de très bonnes chances qu'elle puisse être divisée par trois sans que la qualité bouge. Ce guide liste les leviers que nous avons actionnés chez nos clients, dans l'ordre du ratio impact/effort, avec les chiffres en euros que nous avons mesurés.

Levier 1 — Model routing (impact : 40–60%)

Tous les appels LLM ne méritent pas Claude Sonnet 4.6 à 15 €/MTok en sortie. Un routeur simple envoie les tâches triviales vers Haiku (4 €/MTok) et les tâches complexes vers Sonnet. Le routeur lui-même tourne sur Haiku, donc son coût est négligeable.

Règles qui fonctionnent en pratique :

Classification, extraction structurée, sentiment → Haiku (toujours)
Résumé court (< 500 mots) → Haiku
Résumé long, rédaction, analyse → Sonnet
Debug de code, architecture, planification multi-étape → Sonnet (ou Opus pour les cas vraiment durs)

Chiffres mesurés sur un projet Brandyze (veille concurrentielle) : 13 000 € → 5 200 € par mois, qualité identique. Le routeur seul capture 60% du gain total de cet article.

Levier 2 — Prompt caching (impact : 20–50% sur les prompts longs)

Anthropic facture les tokens lus depuis le cache à 10% du prix normal. Si vous envoyez le même system prompt de 3 000 tokens à chaque requête d'une session, vous payez plein tarif 50 fois alors que vous pourriez payer 5 fois plus 10% cinquante fois.

À cacher systématiquement :

Le system prompt (s'il est statique ou quasi-statique)
Les définitions de tools (MCP tools, function calls)
Les documents de contexte injectés (RAG, memory)

À ne pas cacher :

La partie variable du prompt (l'input utilisateur)
Les timestamps ou IDs qui changent à chaque requête — ils invalident le cache

Économies typiques : ~30% sur un agent conversationnel, ~50% sur un agent avec beaucoup de contexte pré-chargé.

Levier 3 — Agentic Plan Caching (impact : 50–70% pour les workflows répétitifs)

C'est le levier le plus puissant si votre cas d'usage est un agent qui répond à des demandes similaires en boucle (veille, support, analytics). Le principe : on cache le plan d'exécution de l'agent — la séquence d'appels de tools — pas la réponse finale.

Détails complets dans ce guide dédié. Chiffres mesurés sur notre benchmark production : 67.6% de réduction de tokens, 67.5% de réduction de latence, avec la qualité qui augmente (le plan cached est souvent meilleur que celui re-dérivé).

Levier 4 — Budget par session, pas seulement global

Un runaway agent (boucle infinie de raisonnement) peut brûler 500 € en 10 minutes. Votre garde-fou classique "max budget mensuel" se déclenche trop tard. Il faut un budget par session :

session:
  max_tokens: 50 000       # hard abort
  max_tool_calls: 30       # hard abort
  cost_ceiling_eur: 5      # soft warn + hard abort à 2x

Simple à implémenter, impact direct : plus de facture surprise. On a vu des incidents où un agent mal configuré brûlait 300 €/jour avant détection — le budget par session ramène ça à 5 € max, toujours.

Levier 5 — Truncation intelligente des contextes longs

Un agent qui tourne longtemps accumule de l'historique. À 150k tokens de contexte, vous payez plein tarif à chaque tour même si seuls les 10 derniers messages sont pertinents. Deux approches :

Sliding window : on garde les N derniers messages. Simple, fonctionne pour 80% des cas.
Consolidation : un Haiku résume les anciens messages en un bloc compact (~500 tokens) avant de les remplacer. Qualité légèrement meilleure, coût d'opération marginal.

Impact : stable à ~20% d'économie sur tout agent conversationnel long.

Levier 6 — Éliminer les chain-of-thought redondants

Beaucoup de prompts en production contiennent des "réfléchis étape par étape" qui ont été utiles en 2023 mais ne le sont plus : les modèles 2026 raisonnent en interne. Chaque "step by step" ajoute ~300 tokens en sortie par requête, et avec Sonnet à 15 €/MTok en sortie, à 1M requêtes/mois ça fait 4 500 €.

Audit : retirez le "step by step" et mesurez la qualité sur 50 exemples. Si la qualité est stable (souvent elle l'est), vous venez d'économiser 4 500 €/mois. Sinon, remettez-le.

L'ordre que je recommande

Budget par session (1 heure de travail, sauve de l'incident)
Prompt caching (1 jour de travail, 30% direct)
Model routing (1 semaine de travail, 40–60%)
APC (1 semaine + pipeline, 50–70% supplémentaires sur les workflows répétitifs)
Truncation et audit des prompts (1 jour, 20% + nettoyage)

Combinés, on passe typiquement de 10 000 €/mois à 2 500–3 500 €/mois. Nos clients ont mesuré un payback inférieur à deux semaines sur le temps d'ingénierie investi.

Si vous ne voulez pas construire tout ça

MCPizy livre 1, 2, 3 et 4 en out-of-the-box sur les appels MCP — vous gardez votre agent et vos MCP servers, le proxy fait le reste. Si votre facture LLM dépasse 1 000 €/mois, la démo dure 15 minutes et vous repartez avec une estimation chiffrée de l'économie.

Essayer MCPizy → /pricing

Running MCP in production?

Centralised auth, cost analytics, and the APC optimization layer — free tier included.

Try MCPizy

All guides Pricing →

All guides