Technique

La préparation des documents, facteur clé de performance des systèmes RAG

Sur un projet RAG, 80 % de la qualité finale se joue avant le modèle — dans la manière dont les sources sont nettoyées, segmentées et indexées.

Raphael Thys 25 juin 2025 10 min de lecture FR

Read in English

Diagramme d'un pipeline RAG, du document source à la requête utilisateur

Les démonstrations RAG sont trompeuses : elles fonctionnent sur des corpus propres et bien étiquetés. En entreprise, les documents sont sales, contradictoires, mal structurés. Cet article décrit ce qui se passe en amont — et pourquoi c’est là que se joue la qualité.

RAG ne corrige pas vos données

Un système RAG (Retrieval-Augmented Generation) interroge une base de connaissances avant de générer une réponse. C’est puissant — mais ça hérite intégralement de la qualité de la base. Un PDF mal scanné, un tableau exporté sans en-têtes, un doublon non détecté : le modèle le reproduira fidèlement.

[Migration en cours — corps complet de l’article à reprendre depuis la source Notion d’origine.]

La checklist préparation

Nettoyage — OCR de qualité, suppression des pieds de page, normalisation des encodages.
Segmentation — découpage sémantique, pas mécanique.
Métadonnées — date, source, statut (en vigueur / périmé).
Déduplication — deux versions du même document = deux votes contradictoires.
Évaluation — un jeu de questions/réponses de référence avant toute mise en production.

La préparation des documents, facteur clé de performance des systèmes RAG

RAG ne corrige pas vos données

La checklist préparation

À lire aussi

Quand ouvrir une nouvelle conversation IA, et quand continuer ?

Comment repérer une hallucination avant qu'elle ne vous repère

5 leçons contre-intuitives d'un formateur/accompagnateur IA