Aller au contenu principal

Social Media

  • BlueSky
  • Facebook
  • Linkedin
  • Instagram
  • English
  • Français

Login/Register

  • Ouverture de session
  • Inscription
Accueil
  • Les licences
    • Principes de licences du RCDR
    • Modèle de licence
    • Le système de bandes
    • Négociations des licences 2026
      • Groupe de soutien des parties prenantes
    • Négociations de licences
    • Répertoires
    • Éditeurs et fournisseurs
    • Outils et programmes
      • Services de taux de change
      • Rapports sur les droits d'accès perpétuel (périodiques)
  • Le libre accès
    • Le Partenariat pour le libre accès
    • Initiatives communautaires pour le libre accès
    • Accords de lecture et de publication
    • Remises sur les « APCs »
    • Lignes directrices pour l’évaluation des éditeurs en libre accès
    • SCOAP³
    • Liste du RCDR des revues en libre accès
  • Canadiana
    • À propos des collections de Canadiana
      • Appel aux membres pour des projets de numérisation
      • Quoi de neuf dans les collections
      • Parcourir les collections
      • Statut du système
      • Guide de citation Canadiana
      • Mises à jour de l'infrastructure de Canadiana
      • Métadonnées et rapports d'utilisation de Canadiana
      • Projet sur les déclarations de droits
      • Histoire de Canadiana
    • Services de numérisation
      • Projets de numérisation
    • Préservation et accès
      • Dépôt numérique fiable
    • Liste de diffusion électronique du patrimoine numérique
    • L’acquisition et l’utilisation de microfilms commerciaux
    • L'avenir de Canadiana
  • Identifiants pérennes
    • Le consortium ORCID-CA
      • ORCID-CA – Comment adhérer
      • Comité directeur d’ORCID-CA
    • Le consortium DataCite Canada
      • DataCite Canada – Comment adhérer
      • Comité directeur du consortium DataCite Canada
    • La stratégie nationale sur les PID
    • Comité consultatif canadien sur les identifiants pérennes
  • Collaborations
    • Coalition for Canadian Digital Heritage
    • IRN en sciences humaines au Canada
  • Nouvelles
    • Actualités
    • L’échange du savoir
    • Rapports
  • Événements
    • Conférence virtuelle du RCDR 2026
    • Sommet des membres et l'AGA du RCDR 2026
    • Événements externes
    • Webinaires
    • Code de conduite
    • Enregistrements des webinaires
  • À propos
    • Membres
      • Membres associés
      • Établissement membres
    • Conseil d’administration
    • Comités
      • Comité exécutif
      • Comité des finances et de la vérification
      • Comité stratégique du contenu
        • Sous-comité des droits aux bases de connaissances
      • Comité de préservation et d’accès
        • Sous-comité sur le contenu de Canadiana
        • Sous-comité technique sur les plateformes
      • Comité de planification de la conférence
      • Groupes de travail
      • Conseil des chercheurs du RCDR
    • Rapports annuels
    • Personnel
    • Carrières
    • Historique du RCDR
    • Prix de reconnaissance pour services exceptionnels Ron MacDonald
    • Plan stratégique
Menu

Évaluation des outils de ROC alimentés par l’IA pour les textes en chinois : une étude de cas portant sur le Chinese Times

Annonces

10 juin, 2026
Bannière du blog.

Par : Francesca Brzezicki, agente de mobilisation patrimoniale et Mary Zheng, développeur d'applications

https://doi.org/10.82389/67qg-sm78

Dans un environnement en constante évolution où l’intelligence artificielle (IA) transforme la manière dont les utilisateurs interagissent avec les collections numériques et favorise l’émergence de nouveaux outils pour les soutenir, le RCDR a mené des recherches sur des manières d’utiliser les flux de travail basés sur l’IA pour améliorer les collections et l’infrastructure de Canadiana.

Notre travail avec les outils d’IA dans les collections a commencé en 2023, lorsque nous avons lancé un projet pilote visant à transcrire un ensemble de documents manuscrits de la collection Héritage. Puis, en 2025, nous avons ajouté le journal Chinese Times à la collection Canadiana. Avec ses 23 000 numéros imprimés en caractères chinois traditionnels, le Chinese Times représentait un défi de taille pour notre logiciel de reconnaissance optique de caractères (ROC) et une occasion idéale de vérifier si les nouvelles technologies permettaient d’améliorer l’accès à cette collection très populaire.

Présentation de Paddle

Même si l’outil de ROC commercial standard du RCDR, ABBYY FineReader Server 14, est capable de traiter les textes en chinois, nous avons voulu vérifier si un outil à code source ouvert basé sur l’IA pouvait égaler, voire surpasser, les capacités d’ABBYY.

C’est alors que Mary Zheng, développeur d’applications au RCDR, a découvert Paddle, un outil qui offrait de bons résultats avec les caractères chinois traditionnels et affichait d’excellentes performances selon plusieurs indicateurs, notamment :

  • Le score de qualité du texte, qui mesure la précision des résultats de la reconnaissance de texte ;
  • Le score de précision des formules, qui évalue l’exactitude de la reconnaissance des formules mathématiques, un aspect essentiel pour les textes scientifiques ;
  • Le score d’ordre de lecture, qui évalue si la séquence de lecture prévue des blocs de texte correspond à l’ordre de lecture attendu chez les humains ;
  • La TEDS (Tree-Edit-Distance-based Similarity) pour les tableaux, qui mesure la qualité des données extraites des tableaux, garantissant ainsi leur exactitude par rapport au tableau d’origine.

De plus, Paddle est à la fine pointe de l’innovation technologique et prend en charge 109 langues, ce qui en fait un outil particulièrement adapté au traitement de collections multilingues, comme les collections Canadiana.

La suite Paddle comprend plusieurs modèles adaptés à différents cas d’utilisation de la ROC. Au RCDR, nous avons besoin non seulement d’une reconnaissance de texte multiscénarios et multiformats, mais aussi d’une analyse de la mise en page qui permette de détecter et d’extraire des éléments comme des blocs de texte, des titres, des paragraphes, des images, des tableaux et d’autres composants de mise en page. C’est pourquoi nous avons choisi le modèle PP-StructureV3 pour nos tests.

Essais avec Paddle et ABBYY

Les requêtes de recherche dans les collections de Canadiana doivent porter sur divers types de textes et concernent souvent des noms, des événements et des organisations. Pour répondre à ces exigences, Mary, conjointement avec John Loitzenbauer, spécialiste technicien en numérisation, et Brittny Lapierre, gestionnaire du développement, a conçu neuf types de cas à évaluer :

  1. Reconnaissance des noms personnels ;
  2. Reconnaissance d’événements populaires (p. ex., « la catastrophe nucléaire de Tchernobyl ») ;
  3. Reconnaissance des noms d’organisations ;
  4. Requêtes combinant plusieurs événements (p. ex. « croissance économique » et « élection présidentielle ») ;
  5. Reconnaissance de texte dans des images publicitaires ;
  6. Reconnaissance de caractères rares ;
  7. Précision de la division en paragraphes ;
  8. Exactitude de l’ordre de lecture ;
  9. Intégralité des phrases

Des tests manuels et des tests comparatifs ont été réalisés pour évaluer Paddle et ABBYY. Pour les tests manuels, un échantillon de texte tiré du Chinese Times a été sélectionné au hasard. Cet échantillon avait déjà été traité par ABBYY, qui avait généré le résultat de ROC correspondant. Au cours de l’évaluation d’ABBYY, le personnel a examiné chaque ligne de texte du résultat de ROC et l’a recoupée avec la source originale du journal, afin de vérifier si chaque ligne était sémantiquement claire et de mesurer la proportion de caractères correctement reconnus par rapport au nombre total de caractères. L’échantillon a ensuite été traité avec Paddle et évalué selon la même méthode.

Capture d'écran d'une feuille Excel présentant les résultats des tests effectués sur ABBYY et Paddle.
Exemple illustrant les résultats d’ABBYY (colonne de gauche) comparés à ceux de Paddle (colonne du milieu). La colonne de droite contient des remarques supplémentaires.

Dans le cadre de tests comparatifs, le même échantillon de texte a été traité à la fois par Paddle et par ABBYY. Le personnel a ensuite examiné les résultats, en vérifiant si chaque phrase avait été correctement identifiée tant dans le texte généré par ABBYY que dans celui produit par Paddle. Les résultats ont montré que Paddle offre des performances comparables à celles d’ABBYY, en particulier pour ce qui est de l’analyse de la mise en page et de la lisibilité globale du texte, même si chaque outil présente des atouts différents sur certains aspects précis de la ROC.

Des outils différents, des atouts différents

Dans les mises en page complexes, comme celles des vieux journaux chinois – où l’ordre de lecture du texte principal et des titres est souvent inconstant –, Paddle excelle dans la détection de la mise en page, ce qui lui permet de déterminer correctement quelle phrase appartient à quel paragraphe, et quel paragraphe appartient à quel article. Toutefois, lors du traitement du Chinese Times, ABBYY avait tendance à mélanger des paragraphes provenant d’articles différents, rendant le texte plus difficile à lire et moins cohérent, en particulier lorsque les phrases contenaient des caractères erronés ou déformés. ABBYY a également parfois rencontré des difficultés avec les polices de caractères artistiques, comme celles utilisées dans les titres de journaux ou les publicités.

Tableau présentant différents cas de test et les performances d'ABBYY et de Paddle pour chacun d'entre eux.
Les points forts d’ABBYY et de Paddle pour différents types de documents et différents critères de recherche.

En revanche, ABBYY est capable de détecter davantage de mots que Paddle et peut toujours fournir un texte correct, même lorsque l’impression est floue. ABBYY est aussi capable de détecter avec précision certains caractères rarement utilisés ou obsolètes (comme « 囘 »). À l’inverse, Paddle a tendance à écarter les mots illisibles ou difficiles à reconnaître afin d’améliorer la lisibilité des phrases. Par conséquent, les phrases reconnues contiennent très peu de mots illisibles, mais uniquement parce que bon nombre de ces mots non reconnus ont été supprimés. Cela pose un problème lors de la recherche par mots-clés dans la plateforme de recherche utilisée par les sites Web Canadiana et Héritage.

Il est important de noter qu’ABBYY n’effectue pas de traitement de ROC en une seule étape : l’ensemble du processus comprend le prétraitement des images, la ROC et la correction finale de l’orthographe et de la mise en page. Pour reproduire la qualité de ses résultats avec Paddle, chaque étape du processus nécessite une configuration, et des processus différents peuvent être requis selon les types de documents. Il appartient à chaque établissement de choisir l’approche la mieux adaptée à un ensemble donné de documents et à son niveau d’expertise en matière de traitement par ROC. Au RCDR, Mary, John et Brittny ont consacré beaucoup de temps à trouver la bonne combinaison de modèles et de techniques qui permettrait d’obtenir des résultats satisfaisants.

Pour en savoir plus sur les travaux d’évaluation de la ROC menés par le RCDR d’un point de vue technique, consultez notre référentiel d’évaluation de la ROC, qui contient davantage de données de test, des informations sur les processus de ROC ainsi que des conseils pour tirer le meilleur parti du traitement par ROC.

Graphique indiquant le nombre de cas de test pour lesquels ABBYY a surpassé Paddle, et inversement, ainsi que le nombre de fois où les deux ont obtenu un résultat équivalent.
Les points forts d’ABBYY et de Paddle pour différents types de documents et différents critères de recherche.

Prochaines étapes

Dans l’ensemble, Paddle répond pleinement aux exigences du RCDR en matière d’analyse de la mise en page et de clarté de la structure du texte, ce qui le rend particulièrement adapté au traitement de journaux d’époque et de documents en chinois. Cependant, comme nous l’avons constaté au cours de notre évaluation, les différents outils de ROC ont chacun leurs points forts et peuvent être utilisés dans différentes situations.

Après le succès de nos premières expériences avec Paddle et le Chinese Times, le RCDR prévoit actuellement la mise en place d’un système ouvert de ROC et de reconnaissance de texte manuscrit (HTR) qui permettra une reconnaissance de texte à grande échelle et de haute qualité pour les collections Canadiana et Héritage. Ce système, qui comprendra divers modèles de ROC et de HTR disponibles sous forme de plugiciels, permettra de traiter des collections entières de manière efficace et précise. Le personnel du RCDR examine aussi des recherches universitaires de pointe sur l’automatisation de l’évaluation de la ROC et de l’HTR, ce qui permettra de réduire les vérifications manuelles et de sélectionner automatiquement le meilleur outil pour chaque type de document.

Pour ne rien manquer, n'hésitez pas à revenir bientôt à L’échange du savoir du RCDR pour découvrir d’autres articles consacrés aux évaluations et aux expériences en matière de ROC. 


Francesca Brzezicki headshot

 

Francesca Brzezicki https://orcid.org/0009-0005-0744-715X

Francesca a obtenu une maîtrise en histoire publique de Carleton University. Elle s’est jointe au RCDR en 2019 après avoir travaillé dans le domaine du patrimoine numérique. Vous pouvez la contacter à fbrzezicki@crkn.ca.

 

 

Mary Zheng headshot.

 

Mary Zheng

Mary est diplômée d'une maîtrise en informatique appliquée de l'University of Windsor et possède dix ans d'expérience en programmation dans divers secteurs d'activité. Elle est passionnée par le développement d'applications industrielles.

Related Links

L’infrastructure de recherche numérique en sciences humaines et sociales au Can…
Comment les données issues des sciences humaines et sociales circulent-elles dans l’écosystème de la recherche ? Publication, licences, normes, préservation… qui est chargé de quoi ? Comment ce système fonctionne-t-il ? Et d’ailleurs, qu’est-ce qu’une...
Rétrospective de la conférence virtuelle du RCDR 2025
À l’approche de la conférence virtuelle du RCDR 2026, nous nous penchons sur certaines des discussions qui ont marqué l’événement de l’année dernière. La conférence de 2025 a réuni la communauté de recherche du Canada autour du thème...
Les licences du RCDR : retour à l’essentiel
Le RCDR négocie plus de 50 contrats de licence portant sur des contenus et des plateformes universitaires, mais qu’est-ce que cela signifie concrètement ? Est-ce que tous les membres du RCDR ont automatiquement accès à l’ensemble de ces contenus ?

Keywords

Canadiana
crkn footer logo

Réseau canadien de documentation pour la recherche

1309 av. Carling C.P. 35155 Westgate Ottawa, ON K1Z 1A2 t. 613.907.7040

Footer menu

  • Nous joindre
  • S'abonner au bulletin
canadiana-footer-logo

Nous, au RCDR, reconnaissons respectueusement que nos bureaux sont situés sur le territoire traditionnel non cédé du peuple algonquin anichinabé. Nous reconnaissons également que nos établissements membres se trouvent dans différentes régions du territoire aujourd’hui connu sous le nom de Canada et nous exprimons notre considération et notre gratitude à toutes les communautés des Premières Nations, des Métis et des Inuits.

Dans le cadre de notre travail, et plus particulièrement avec les collections Canadiana et Héritage, nous sommes déterminés à reconnaître les injustices coloniales, à soutenir la souveraineté des données des Premières Nations, des Inuits et des Métis, et à travailler en partenariat avec les communautés. Nous nous efforçons d’adopter des pratiques respectueuses qui honorent les protocoles communautaires et défendent le droit des peuples autochtones à déterminer la manière dont sont régis les documents liés à leur patrimoine.

Policy Menu

  • Politique de confidentialité
  • Politique d'accès
  • Plan du site
© 2013 - 2026 Réseau canadien de documentation pour la recherche
  • Les licences
    • Principes de licences du RCDR
    • Modèle de licence
    • Le système de bandes
    • Négociations des licences 2026
      • Groupe de soutien des parties prenantes
    • Négociations de licences
    • Répertoires
    • Éditeurs et fournisseurs
    • Outils et programmes
      • Services de taux de change
      • Rapports sur les droits d'accès perpétuel (périodiques)
  • Le libre accès
    • Le Partenariat pour le libre accès
    • Initiatives communautaires pour le libre accès
    • Accords de lecture et de publication
    • Remises sur les « APCs »
    • Lignes directrices pour l’évaluation des éditeurs en libre accès
    • SCOAP³
    • Liste du RCDR des revues en libre accès
  • Canadiana
    • À propos des collections de Canadiana
      • Appel aux membres pour des projets de numérisation
      • Quoi de neuf dans les collections
      • Parcourir les collections
      • Statut du système
      • Guide de citation Canadiana
      • Mises à jour de l'infrastructure de Canadiana
      • Métadonnées et rapports d'utilisation de Canadiana
      • Projet sur les déclarations de droits
      • Histoire de Canadiana
    • Services de numérisation
      • Projets de numérisation
    • Préservation et accès
      • Dépôt numérique fiable
    • Liste de diffusion électronique du patrimoine numérique
    • L’acquisition et l’utilisation de microfilms commerciaux
    • L'avenir de Canadiana
  • Identifiants pérennes
    • Le consortium ORCID-CA
      • ORCID-CA – Comment adhérer
      • Comité directeur d’ORCID-CA
    • Le consortium DataCite Canada
      • DataCite Canada – Comment adhérer
      • Comité directeur du consortium DataCite Canada
    • La stratégie nationale sur les PID
    • Comité consultatif canadien sur les identifiants pérennes
  • Collaborations
    • Coalition for Canadian Digital Heritage
    • IRN en sciences humaines au Canada
  • Nouvelles
    • Actualités
    • L’échange du savoir
    • Rapports
  • Événements
    • Conférence virtuelle du RCDR 2026
    • Sommet des membres et l'AGA du RCDR 2026
    • Événements externes
    • Webinaires
    • Code de conduite
    • Enregistrements des webinaires
  • À propos
    • Membres
      • Membres associés
      • Établissement membres
    • Conseil d’administration
    • Comités
      • Comité exécutif
      • Comité des finances et de la vérification
      • Comité stratégique du contenu
        • Sous-comité des droits aux bases de connaissances
      • Comité de préservation et d’accès
        • Sous-comité sur le contenu de Canadiana
        • Sous-comité technique sur les plateformes
      • Comité de planification de la conférence
      • Groupes de travail
      • Conseil des chercheurs du RCDR
    • Rapports annuels
    • Personnel
    • Carrières
    • Historique du RCDR
    • Prix de reconnaissance pour services exceptionnels Ron MacDonald
    • Plan stratégique