"Ça va coûter combien en API ?" — la question préférée des clients. La vraie réponse : l'API ne représente que 40-50 % du coût total. Voici la décomposition honnête d'un SaaS IA réel que j'ai suivi 12 mois.
Le client
B2B, assistant de rédaction pour rapports internes. 2 500 utilisateurs actifs mensuels, ~150 requêtes LLM par utilisateur et par mois. Moyenne 8 000 tokens input + 2 000 output par requête.
Ligne 1 : tokens LLM
- Input : 2500 × 150 × 8000 = 3 milliards / mois.
- Output : 2500 × 150 × 2000 = 750 millions / mois.
- Prix Claude Sonnet (3 $/M input, 15 $/M output) : 9 000 $ input + 11 250 $ output = 20 250 $ / mois.
Sans prompt caching, ce serait 35 000 $. Avec, on tombe à 20 k. D'où l'importance d'activer le cache.
Ligne 2 : embeddings pour RAG
Ingestion initiale (50 000 docs) : 200 $ one-shot. Ré-embeddings mensuels : 80 $.
Ligne 3 : base vectorielle
Postgres managé avec pgvector (AWS RDS m6g.xlarge) : 350 $/mois.
Ligne 4 : infra applicative
- Application servers (app + workers) : 600 $/mois.
- CDN + stockage objets : 120 $/mois.
- Redis cache : 90 $/mois.
Ligne 5 : monitoring et obs
- LangSmith : 300 $/mois.
- Sentry : 80 $/mois.
- Datadog APM : 250 $/mois.
Ligne 6 : temps humain
Oublié par tous : le humain reviewer, les evals, le tuning continu.
- 1 dev à 20 % du temps sur amélioration prompts + monitoring : 1600 $/mois.
- Revue qualité hebdomadaire (support) : 400 $/mois.
Ligne 7 : coûts cachés
- Retries et erreurs : ~5 % des tokens sont gaspillés.
- Tests et evals pendant le dev : 300-500 $/mois.
- Experiments A/B de nouveaux prompts : 200 $/mois.
Total mensuel
Grosso modo : 24 000 $/mois, dont 20 k d'API LLM. Soit environ 9,60 $ par utilisateur actif par mois.
Le ROI
L'app est vendue 29 $/mois par utilisateur. Brut : 72 500 $/mois. Net après coûts tech : 48 500 $. Très correct, mais la marge est sensible à l'usage par utilisateur — si un "power user" fait 10x la moyenne, il devient déficitaire.
Les leviers d'optimisation
- Prompt caching agressif sur le system prompt stable (-40 % coût API).
- Router intelligent : Haiku pour les tâches simples, Sonnet pour les complexes (-25 %).
- Batch API pour les tâches non temps-réel (Message Batches) : -50 % sur la facture batchable.
- Capping par user pour éviter les abus.
En appliquant les 4, on tomberait à ~15 k/mois soit 6 $/user/mois, pour une marge significativement meilleure.
Vous lancez un SaaS IA ? Je fais l'architecture et l'optimisation coût.