Chaque mois, un prospect me demande s'il faut fine-tuner un modèle pour son cas d'usage. Dans 90 % des cas, la réponse est non. Voici comment savoir quand faire partie des 10 % restants.

Les quatre leviers disponibles

Avant de fine-tuner, il faut avoir épuisé les options moins coûteuses :

  1. Prompting : reformuler, structurer, ajouter des exemples.
  2. RAG : injecter les bonnes données à chaque requête.
  3. Tool use / agents : laisser le modèle appeler des fonctions.
  4. Fine-tuning : ré-entraîner le modèle sur vos données.

Les trois premiers sont réversibles, rapides, pas chers. Le fine-tuning est l'inverse : engageant, lent, coûteux à maintenir.

Quand fine-tuner est le bon choix

  • Style constant : vous voulez un ton spécifique impossible à obtenir par prompt (jargon métier très pointu, voix d'une marque).
  • Format structuré ultra-strict : sortie JSON rigoureuse, sans variation.
  • Latence critique : un modèle fine-tuné plus petit bat un GPT-4 prompté pour une tâche précise, avec une latence divisée par 5.
  • Coût récurrent énorme : si vous faites 10 millions de requêtes par mois sur une tâche spécifique, un modèle fine-tuné amortit vite.
  • Connaissance métier propriétaire : vocabulaire interne, schémas privés, où même le meilleur RAG ne suffit pas.

Quand fine-tuner est une erreur

  • Pour apprendre de nouvelles connaissances : utilisez RAG. Le fine-tuning est mauvais à ça, contrairement à ce que vend le marketing.
  • Pour corriger des erreurs ponctuelles : un meilleur prompt fait le job 80 % du temps.
  • Sans jeu de données propre : garbage in, garbage out. 500+ exemples curés minimum.
  • Sans eval rigoureuse : sans métrique, vous ne saurez jamais si votre fine-tune fait mieux ou moins bien que le modèle de base.

Les méthodes modernes (2026)

On ne fait plus du fine-tuning plein en 2026. On utilise :

  • LoRA / QLoRA : petits adaptateurs qui modifient 0,1 % des poids. 10x moins cher, 90 % du gain.
  • DPO (Direct Preference Optimization) : entraîne sur des paires "bonne réponse / mauvaise réponse" au lieu de la seule bonne.
  • Distillation : un gros modèle enseigne à un petit modèle sur votre distribution de tâches.

Le workflow que je recommande

  1. Prompt soigné → mesurer → si OK, stop.
  2. Ajout de few-shot examples → mesurer.
  3. RAG ou tool use selon le besoin → mesurer.
  4. Si après les 3 précédents vous n'atteignez pas la qualité voulue ET que le volume justifie le coût, alors fine-tuning LoRA.

Le fine-tuning devrait être le dernier levier, pas le premier. Besoin d'aide pour choisir ?