Évaluation des outils de ROC alimentés par l’IA pour les textes en chinois : une étude de cas portant sur le Chinese Times

Par : Francesca Brzezicki, agente de mobilisation patrimoniale et Mary Zheng, développeur d'applications
https://doi.org/10.82389/67qg-sm78
Dans un environnement en constante évolution où l’intelligence artificielle (IA) transforme la manière dont les utilisateurs interagissent avec les collections numériques et favorise l’émergence de nouveaux outils pour les soutenir, le RCDR a mené des recherches sur des manières d’utiliser les flux de travail basés sur l’IA pour améliorer les collections et l’infrastructure de Canadiana.
Notre travail avec les outils d’IA dans les collections a commencé en 2023, lorsque nous avons lancé un projet pilote visant à transcrire un ensemble de documents manuscrits de la collection Héritage. Puis, en 2025, nous avons ajouté le journal Chinese Times à la collection Canadiana. Avec ses 23 000 numéros imprimés en caractères chinois traditionnels, le Chinese Times représentait un défi de taille pour notre logiciel de reconnaissance optique de caractères (ROC) et une occasion idéale de vérifier si les nouvelles technologies permettaient d’améliorer l’accès à cette collection très populaire.
Présentation de Paddle
Même si l’outil de ROC commercial standard du RCDR, ABBYY FineReader Server 14, est capable de traiter les textes en chinois, nous avons voulu vérifier si un outil à code source ouvert basé sur l’IA pouvait égaler, voire surpasser, les capacités d’ABBYY.
C’est alors que Mary Zheng, développeur d’applications au RCDR, a découvert Paddle, un outil qui offrait de bons résultats avec les caractères chinois traditionnels et affichait d’excellentes performances selon plusieurs indicateurs, notamment :
- Le score de qualité du texte, qui mesure la précision des résultats de la reconnaissance de texte ;
- Le score de précision des formules, qui évalue l’exactitude de la reconnaissance des formules mathématiques, un aspect essentiel pour les textes scientifiques ;
- Le score d’ordre de lecture, qui évalue si la séquence de lecture prévue des blocs de texte correspond à l’ordre de lecture attendu chez les humains ;
- La TEDS (Tree-Edit-Distance-based Similarity) pour les tableaux, qui mesure la qualité des données extraites des tableaux, garantissant ainsi leur exactitude par rapport au tableau d’origine.
De plus, Paddle est à la fine pointe de l’innovation technologique et prend en charge 109 langues, ce qui en fait un outil particulièrement adapté au traitement de collections multilingues, comme les collections Canadiana.
La suite Paddle comprend plusieurs modèles adaptés à différents cas d’utilisation de la ROC. Au RCDR, nous avons besoin non seulement d’une reconnaissance de texte multiscénarios et multiformats, mais aussi d’une analyse de la mise en page qui permette de détecter et d’extraire des éléments comme des blocs de texte, des titres, des paragraphes, des images, des tableaux et d’autres composants de mise en page. C’est pourquoi nous avons choisi le modèle PP-StructureV3 pour nos tests.
Essais avec Paddle et ABBYY
Les requêtes de recherche dans les collections de Canadiana doivent porter sur divers types de textes et concernent souvent des noms, des événements et des organisations. Pour répondre à ces exigences, Mary, conjointement avec John Loitzenbauer, spécialiste technicien en numérisation, et Brittny Lapierre, gestionnaire du développement, a conçu neuf types de cas à évaluer :
- Reconnaissance des noms personnels ;
- Reconnaissance d’événements populaires (p. ex., « la catastrophe nucléaire de Tchernobyl ») ;
- Reconnaissance des noms d’organisations ;
- Requêtes combinant plusieurs événements (p. ex. « croissance économique » et « élection présidentielle ») ;
- Reconnaissance de texte dans des images publicitaires ;
- Reconnaissance de caractères rares ;
- Précision de la division en paragraphes ;
- Exactitude de l’ordre de lecture ;
- Intégralité des phrases
Des tests manuels et des tests comparatifs ont été réalisés pour évaluer Paddle et ABBYY. Pour les tests manuels, un échantillon de texte tiré du Chinese Times a été sélectionné au hasard. Cet échantillon avait déjà été traité par ABBYY, qui avait généré le résultat de ROC correspondant. Au cours de l’évaluation d’ABBYY, le personnel a examiné chaque ligne de texte du résultat de ROC et l’a recoupée avec la source originale du journal, afin de vérifier si chaque ligne était sémantiquement claire et de mesurer la proportion de caractères correctement reconnus par rapport au nombre total de caractères. L’échantillon a ensuite été traité avec Paddle et évalué selon la même méthode.
Dans le cadre de tests comparatifs, le même échantillon de texte a été traité à la fois par Paddle et par ABBYY. Le personnel a ensuite examiné les résultats, en vérifiant si chaque phrase avait été correctement identifiée tant dans le texte généré par ABBYY que dans celui produit par Paddle. Les résultats ont montré que Paddle offre des performances comparables à celles d’ABBYY, en particulier pour ce qui est de l’analyse de la mise en page et de la lisibilité globale du texte, même si chaque outil présente des atouts différents sur certains aspects précis de la ROC.
Des outils différents, des atouts différents
Dans les mises en page complexes, comme celles des vieux journaux chinois – où l’ordre de lecture du texte principal et des titres est souvent inconstant –, Paddle excelle dans la détection de la mise en page, ce qui lui permet de déterminer correctement quelle phrase appartient à quel paragraphe, et quel paragraphe appartient à quel article. Toutefois, lors du traitement du Chinese Times, ABBYY avait tendance à mélanger des paragraphes provenant d’articles différents, rendant le texte plus difficile à lire et moins cohérent, en particulier lorsque les phrases contenaient des caractères erronés ou déformés. ABBYY a également parfois rencontré des difficultés avec les polices de caractères artistiques, comme celles utilisées dans les titres de journaux ou les publicités.
En revanche, ABBYY est capable de détecter davantage de mots que Paddle et peut toujours fournir un texte correct, même lorsque l’impression est floue. ABBYY est aussi capable de détecter avec précision certains caractères rarement utilisés ou obsolètes (comme « 囘 »). À l’inverse, Paddle a tendance à écarter les mots illisibles ou difficiles à reconnaître afin d’améliorer la lisibilité des phrases. Par conséquent, les phrases reconnues contiennent très peu de mots illisibles, mais uniquement parce que bon nombre de ces mots non reconnus ont été supprimés. Cela pose un problème lors de la recherche par mots-clés dans la plateforme de recherche utilisée par les sites Web Canadiana et Héritage.
Il est important de noter qu’ABBYY n’effectue pas de traitement de ROC en une seule étape : l’ensemble du processus comprend le prétraitement des images, la ROC et la correction finale de l’orthographe et de la mise en page. Pour reproduire la qualité de ses résultats avec Paddle, chaque étape du processus nécessite une configuration, et des processus différents peuvent être requis selon les types de documents. Il appartient à chaque établissement de choisir l’approche la mieux adaptée à un ensemble donné de documents et à son niveau d’expertise en matière de traitement par ROC. Au RCDR, Mary, John et Brittny ont consacré beaucoup de temps à trouver la bonne combinaison de modèles et de techniques qui permettrait d’obtenir des résultats satisfaisants.
Pour en savoir plus sur les travaux d’évaluation de la ROC menés par le RCDR d’un point de vue technique, consultez notre référentiel d’évaluation de la ROC, qui contient davantage de données de test, des informations sur les processus de ROC ainsi que des conseils pour tirer le meilleur parti du traitement par ROC.
Prochaines étapes
Dans l’ensemble, Paddle répond pleinement aux exigences du RCDR en matière d’analyse de la mise en page et de clarté de la structure du texte, ce qui le rend particulièrement adapté au traitement de journaux d’époque et de documents en chinois. Cependant, comme nous l’avons constaté au cours de notre évaluation, les différents outils de ROC ont chacun leurs points forts et peuvent être utilisés dans différentes situations.
Après le succès de nos premières expériences avec Paddle et le Chinese Times, le RCDR prévoit actuellement la mise en place d’un système ouvert de ROC et de reconnaissance de texte manuscrit (HTR) qui permettra une reconnaissance de texte à grande échelle et de haute qualité pour les collections Canadiana et Héritage. Ce système, qui comprendra divers modèles de ROC et de HTR disponibles sous forme de plugiciels, permettra de traiter des collections entières de manière efficace et précise. Le personnel du RCDR examine aussi des recherches universitaires de pointe sur l’automatisation de l’évaluation de la ROC et de l’HTR, ce qui permettra de réduire les vérifications manuelles et de sélectionner automatiquement le meilleur outil pour chaque type de document.
Pour ne rien manquer, n'hésitez pas à revenir bientôt à L’échange du savoir du RCDR pour découvrir d’autres articles consacrés aux évaluations et aux expériences en matière de ROC.

Francesca Brzezicki https://orcid.org/0009-0005-0744-715X
Francesca a obtenu une maîtrise en histoire publique de Carleton University. Elle s’est jointe au RCDR en 2019 après avoir travaillé dans le domaine du patrimoine numérique. Vous pouvez la contacter à fbrzezicki@crkn.ca.

Mary Zheng
Mary est diplômée d'une maîtrise en informatique appliquée de l'University of Windsor et possède dix ans d'expérience en programmation dans divers secteurs d'activité. Elle est passionnée par le développement d'applications industrielles.