"Ça va coûter combien en API ?" — la question préférée des clients. La vraie réponse : l'API ne représente que 40-50 % du coût total. Voici la décomposition honnête d'un SaaS IA réel que j'ai suivi 12 mois.

Le client

B2B, assistant de rédaction pour rapports internes. 2 500 utilisateurs actifs mensuels, ~150 requêtes LLM par utilisateur et par mois. Moyenne 8 000 tokens input + 2 000 output par requête.

Ligne 1 : tokens LLM

  • Input : 2500 × 150 × 8000 = 3 milliards / mois.
  • Output : 2500 × 150 × 2000 = 750 millions / mois.
  • Prix Claude Sonnet (3 $/M input, 15 $/M output) : 9 000 $ input + 11 250 $ output = 20 250 $ / mois.

Sans prompt caching, ce serait 35 000 $. Avec, on tombe à 20 k. D'où l'importance d'activer le cache.

Ligne 2 : embeddings pour RAG

Ingestion initiale (50 000 docs) : 200 $ one-shot. Ré-embeddings mensuels : 80 $.

Ligne 3 : base vectorielle

Postgres managé avec pgvector (AWS RDS m6g.xlarge) : 350 $/mois.

Ligne 4 : infra applicative

  • Application servers (app + workers) : 600 $/mois.
  • CDN + stockage objets : 120 $/mois.
  • Redis cache : 90 $/mois.

Ligne 5 : monitoring et obs

  • LangSmith : 300 $/mois.
  • Sentry : 80 $/mois.
  • Datadog APM : 250 $/mois.

Ligne 6 : temps humain

Oublié par tous : le humain reviewer, les evals, le tuning continu.

  • 1 dev à 20 % du temps sur amélioration prompts + monitoring : 1600 $/mois.
  • Revue qualité hebdomadaire (support) : 400 $/mois.

Ligne 7 : coûts cachés

  • Retries et erreurs : ~5 % des tokens sont gaspillés.
  • Tests et evals pendant le dev : 300-500 $/mois.
  • Experiments A/B de nouveaux prompts : 200 $/mois.

Total mensuel

Grosso modo : 24 000 $/mois, dont 20 k d'API LLM. Soit environ 9,60 $ par utilisateur actif par mois.

Le ROI

L'app est vendue 29 $/mois par utilisateur. Brut : 72 500 $/mois. Net après coûts tech : 48 500 $. Très correct, mais la marge est sensible à l'usage par utilisateur — si un "power user" fait 10x la moyenne, il devient déficitaire.

Les leviers d'optimisation

  1. Prompt caching agressif sur le system prompt stable (-40 % coût API).
  2. Router intelligent : Haiku pour les tâches simples, Sonnet pour les complexes (-25 %).
  3. Batch API pour les tâches non temps-réel (Message Batches) : -50 % sur la facture batchable.
  4. Capping par user pour éviter les abus.

En appliquant les 4, on tomberait à ~15 k/mois soit 6 $/user/mois, pour une marge significativement meilleure.

Vous lancez un SaaS IA ? Je fais l'architecture et l'optimisation coût.