Le coût réel d'une application IA en production : chiffres après un an

"Ça va coûter combien en API ?" — la question préférée des clients. La vraie réponse : l'API ne représente que 40-50 % du coût total. Voici la décomposition honnête d'un SaaS IA réel que j'ai suivi 12 mois.

Le client

B2B, assistant de rédaction pour rapports internes. 2 500 utilisateurs actifs mensuels, ~150 requêtes LLM par utilisateur et par mois. Moyenne 8 000 tokens input + 2 000 output par requête.

Ligne 1 : tokens LLM

Input : 2500 × 150 × 8000 = 3 milliards / mois.
Output : 2500 × 150 × 2000 = 750 millions / mois.
Prix Claude Sonnet (3 $/M input, 15 $/M output) : 9 000 $ input + 11 250 $ output = 20 250 $ / mois.

Sans prompt caching, ce serait 35 000 $. Avec, on tombe à 20 k. D'où l'importance d'activer le cache.

Ligne 2 : embeddings pour RAG

Ingestion initiale (50 000 docs) : 200 $ one-shot. Ré-embeddings mensuels : 80 $.

Ligne 3 : base vectorielle

Postgres managé avec pgvector (AWS RDS m6g.xlarge) : 350 $/mois.

Ligne 4 : infra applicative

Application servers (app + workers) : 600 $/mois.
CDN + stockage objets : 120 $/mois.
Redis cache : 90 $/mois.

Ligne 5 : monitoring et obs

LangSmith : 300 $/mois.
Sentry : 80 $/mois.
Datadog APM : 250 $/mois.

Ligne 6 : temps humain

Oublié par tous : le humain reviewer, les evals, le tuning continu.

1 dev à 20 % du temps sur amélioration prompts + monitoring : 1600 $/mois.
Revue qualité hebdomadaire (support) : 400 $/mois.

Ligne 7 : coûts cachés

Retries et erreurs : ~5 % des tokens sont gaspillés.
Tests et evals pendant le dev : 300-500 $/mois.
Experiments A/B de nouveaux prompts : 200 $/mois.

Total mensuel

Grosso modo : 24 000 $/mois, dont 20 k d'API LLM. Soit environ 9,60 $ par utilisateur actif par mois.

Le ROI

L'app est vendue 29 $/mois par utilisateur. Brut : 72 500 $/mois. Net après coûts tech : 48 500 $. Très correct, mais la marge est sensible à l'usage par utilisateur — si un "power user" fait 10x la moyenne, il devient déficitaire.

Les leviers d'optimisation

Prompt caching agressif sur le system prompt stable (-40 % coût API).
Router intelligent : Haiku pour les tâches simples, Sonnet pour les complexes (-25 %).
Batch API pour les tâches non temps-réel (Message Batches) : -50 % sur la facture batchable.
Capping par user pour éviter les abus.

En appliquant les 4, on tomberait à ~15 k/mois soit 6 $/user/mois, pour une marge significativement meilleure.

Vous lancez un SaaS IA ? Je fais l'architecture et l'optimisation coût.

Tags #ia #cout #saas #production #roi

Le coût réel d'une application IA en production : chiffres après un an

Le client

Ligne 1 : tokens LLM

Ligne 2 : embeddings pour RAG

Ligne 3 : base vectorielle

Ligne 4 : infra applicative

Ligne 5 : monitoring et obs

Ligne 6 : temps humain

Ligne 7 : coûts cachés

Total mensuel

Le ROI

Les leviers d'optimisation

Ahmed Sanoko

Un projet web, mobile ou IA en tête ?

Le client

Ligne 1 : tokens LLM

Ligne 2 : embeddings pour RAG

Ligne 3 : base vectorielle

Ligne 4 : infra applicative

Ligne 5 : monitoring et obs

Ligne 6 : temps humain

Ligne 7 : coûts cachés

Total mensuel

Le ROI

Les leviers d'optimisation

Cet article vous a plu ? Partagez-le

Ahmed Sanoko

À lire aussi

Sécuriser une application qui utilise l'IA : les bonnes pratiques 2026

Les hallucinations des LLM : comment vraiment les éviter en production

Structured outputs avec les LLM : forcer du JSON fiable en production

Un projet web, mobile ou IA en tête ?