Tout le monde parle d'auto-héberger Llama ou Mistral. Peu le font vraiment. Après avoir déployé les deux pour des clients qui avaient des contraintes fortes, voici ce qu'il faut savoir.

Quand c'est pertinent

  • Confidentialité : données médicales, juridiques, finance — cas où rien ne peut sortir de votre infra.
  • Souveraineté : secteur public, acteurs régulés, géopolitique.
  • Volume énorme constant : plusieurs millions de requêtes/jour sur une tâche fixe.
  • Latence ultra-basse requise : < 50ms first token, difficile avec des API externes.
  • Coût prévisible : une app SaaS avec usage intensif bénéficie d'un modèle auto-hébergé qui plafonne à coût fixe.

Quand c'est une erreur

  • Usage faible/variable : vous payez du GPU qui tourne à vide.
  • Équipe sans compétence ML ops : maintenance chronophage.
  • Besoin de qualité Claude/GPT-5 : les modèles open source restent 15-25 % derrière les frontières.

Le modèle à choisir

  • Llama 3.3 70B : qualité solide, licence Meta permissive sauf > 700M utilisateurs actifs.
  • Mistral Large 2 : excellent en français, license Apache.
  • Qwen 2.5 72B : le meilleur rapport qualité/poids open en 2026, licence Apache.
  • DeepSeek V3 : champion coût/perf, mais attention à la license et à la provenance.

Le hardware

Pour un 70B en qualité décente (quantisation 4-bit) : 2x H100 ou 1x H200. Environ 30-40 k€ à l'achat, ou 3-6 $/h sur Runpod / Lambda.

Le stack serveur

  • vLLM : le meilleur serveur en 2026. Throughput 3-5x supérieur aux autres.
  • SGLang : challenger solide, meilleur pour les use cases à contextes partagés (chatbots).
  • Ollama : pour dev et petits déploiements < 10 utilisateurs simultanés.

Exemple de déploiement vLLM

docker run --gpus all -p 8000:8000 \
  -v ~/.cache/huggingface:/root/.cache/huggingface \
  vllm/vllm-openai:latest \
  --model meta-llama/Llama-3.3-70B-Instruct \
  --tensor-parallel-size 2 \
  --quantization awq

Votre modèle est exposé via une API OpenAI-compatible. Vos clients existants (Langchain, etc.) marchent sans changement.

Coût réel

Exemple : 2x H100 loués 4 $/h = 96 $/jour = 2880 $/mois. Pour rentabiliser vs Claude Sonnet (3 $/M tokens output), il faut ~960M tokens output/mois. Gros volume seulement.

Observabilité et sécurité

  • Logging des prompts (attention RGPD).
  • Rate limiting par utilisateur.
  • Monitoring GPU (nvidia-smi, DCGM).
  • Update sécurité du modèle quand des vulns sont découvertes (oui, ça arrive).

Besoin d'un POC LLM self-hosté ? Je sais où sont les pièges.