RAPHAEL THYS
EN FR
Parlons-en
← Toutes les réflexions

Maîtrise de l'IA

Les langues ne se valent pas face à l'IA

La tokenisation n'est pas neutre. Le français consomme plus de tokens que l'anglais pour exprimer la même idée — avec des conséquences directes sur le coût, la latence et la qualité.

Raphael Thys 8 min de lecture FR
Read in English
Comparaison du nombre de tokens entre l'anglais, le français et le mandarin pour la même phrase

Constat contre-intuitif mais déterminant : rédiger vos prompts en anglais est souvent moins cher, plus rapide et légèrement plus précis qu’en français — y compris quand la sortie finale doit être en français. Cet article explique pourquoi, et quand ça compte.

Tokens, pas mots

Les modèles ne voient pas des mots. Ils voient des tokens — des fragments de sous-mots produits par un tokeniseur entraîné majoritairement sur du texte anglais. Pour l’anglais, le ratio est efficace : environ un token pour quatre caractères. Pour le français, l’allemand ou l’espagnol, le ratio se dégrade. Pour le mandarin ou le coréen, c’est encore plus marqué.

[Migration en cours — corps complet de l’article à reprendre depuis la source Notion d’origine.]

Que faire concrètement

  • Pour vos prompts internes, travaillez en anglais quand vous le pouvez.
  • Pour les livrables clients, rédigez dans la langue cible.
  • Quand le coût prime, exécutez en anglais et faites traduire.
  • Quand la nuance prime, rédigez en langue cible et acceptez le surcoût.

À lire aussi