RAPHAEL THYS
EN FR
Parlons-en
← Toutes les réflexions

Technique

La préparation des documents, facteur clé de performance des systèmes RAG

Sur un projet RAG, 80 % de la qualité finale se joue avant le modèle — dans la manière dont les sources sont nettoyées, segmentées et indexées.

Raphael Thys 10 min de lecture FR
Read in English
Diagramme d'un pipeline RAG, du document source à la requête utilisateur

Les démonstrations RAG sont trompeuses : elles fonctionnent sur des corpus propres et bien étiquetés. En entreprise, les documents sont sales, contradictoires, mal structurés. Cet article décrit ce qui se passe en amont — et pourquoi c’est là que se joue la qualité.

RAG ne corrige pas vos données

Un système RAG (Retrieval-Augmented Generation) interroge une base de connaissances avant de générer une réponse. C’est puissant — mais ça hérite intégralement de la qualité de la base. Un PDF mal scanné, un tableau exporté sans en-têtes, un doublon non détecté : le modèle le reproduira fidèlement.

[Migration en cours — corps complet de l’article à reprendre depuis la source Notion d’origine.]

La checklist préparation

  1. Nettoyage — OCR de qualité, suppression des pieds de page, normalisation des encodages.
  2. Segmentation — découpage sémantique, pas mécanique.
  3. Métadonnées — date, source, statut (en vigueur / périmé).
  4. Déduplication — deux versions du même document = deux votes contradictoires.
  5. Évaluation — un jeu de questions/réponses de référence avant toute mise en production.

À lire aussi