lundi 22 avril 2024

Des logiciels de reconnaissance de texte pour la généalogie avec l'IA

Voici un outil de reconnaissance de texte.

Cependant, pour la généalogie, le logiciel Transkribus semble être le plus approprié.

Transkribus est une plateforme d'IA qui soutient votre travail avec des documents historiques. 

Transkribus vous permet de reconnaître automatiquement le texte, la mise en page et la structure de vos documents à l'aide d'IA. Pour cela, vous pouvez entraîner vos propres modèles d'IA adaptés à vos documents spécifiques. 

Transkribus vous permet également d'enrichir votre matériel avec des métadonnées, de collaborer avec d'autres personnes et d'effectuer facilement des recherches dans votre matériel.ne plateforme basée sur l’IA qui permet de numériser et transcrire des documents historiques imprimés, dactylographiés et manuscrits2. Il offre plusieurs fonctionnalités utiles pour la généalogie :

  1. Transcription automatique : Transkribus peut extraire le texte des images de documents manuscrits et le convertir en un fichier texte numérique.
  2. Recherche de texte : Avec la fonction Smart Search de Transkribus, vous pouvez rechercher les noms de vos ancêtres dans des collections entières.
  3. Balises : Vous pouvez baliser des personnes, des lieux ou des passages importants, puis rechercher ultérieurement ces balises dans les documents.
  4. Entraînement de l’IA : Vous pouvez entraîner Transkribus à reconnaître l’écriture manuscrite spécifique dans vos documents.
Teste de la Transcription automatique.

Ces fonctionnalités peuvent être très utiles pour la recherche généalogique. 

Vous pouvez utiliser Transkribus pour transformer les documents manuscrits de votre famille en documents numériques, ce qui facilite la recherche et le partage d’informations.

Généalogie (transkribus.org)

https://www.transkribus.org/genealogy

https://redcoupe.u/events/train-the-trainers-webiner-2/

Hatps://vv.facebook.com/trankribus

Expérimentation sur écriture manuscrite.

Assez bon résultat.

Test sur un document de L'AN mil huit cent soixante et un, et le vingt neuf avril - & dix heures.


Chaque ligne est numérotée ainsi cela simplifie la lecture de la transcription.

Pour la généalogie, le logiciel **Transkribus** est le plus approprié. Voici quelques-unes de ses fonctionnalités :

1. **Transcription automatique** : Transkribus peut extraire le texte des images de documents manuscrits et le convertir en un fichier texte numérique¹.

2. **Recherche de texte** : Avec la fonction Smart Search de Transkribus, vous pouvez rechercher les noms de vos ancêtres dans des collections entières¹.

3. **Balises** : Vous pouvez baliser des personnes, des lieux ou des passages importants, puis rechercher ultérieurement ces balises dans les documents¹.

4. **Entraînement de l'IA** : Vous pouvez entraîner Transkribus à reconnaître l'écriture manuscrite spécifique dans vos documents¹.

Ces fonctionnalités peuvent être très utiles pour la recherche généalogique. Vous pouvez utiliser Transkribus pour transformer les documents manuscrits de votre famille en documents numériques, ce qui facilite la recherche et le partage d'informations¹.

(1) Généalogie - transkribus.org. https://www.transkribus.org/fr/g%C3%A9n%C3%A9alogie

(2) Transkribus. https://www.transkribus.org/fr

Ottomans Turkish.

Rechercher sur ce site | La Revue française de Généalogie (rfgenealogie.com)

https://www.rfgenealogie.com/recherche?f%5B0%5D=motcle%3A441


TEKLIA, Automatic Document Processing with AI

https://teklia.com/   

Nous créons des solutions de reconnaissance et de traitement de documents basés sur l'IA.

L'expertise de Teklia consiste à développer des solutions d'analyse et de traitement de documents utilisant, entre autres, les technologies de Deep Learning. Nos logiciels combinent l'analyse d'images, la reconnaissance de textes imprimés et manuscrits, la segmentation de textes avec un système de classification et d'indexation de documents. Notre objectif est de fournir à nos clients un outil de traitement automatisé de documents facile à utiliser et adapté à leurs besoins. Dans le même esprit, nous avons développé une suite de solutions complémentaires afin de faciliter les projets de traitement de documents.

Arkindex, la plateforme de traitement de documents.



Socface est un projet de recherche soutenu par l'Agence nationale pour la Recherche (ANR), porté par l'Institut national d'études démographiques (INED) et la société Teklia, en partenariat avec Paris School of Economics et le Service interministériel des Archives de France (SIAF). Il vise à étudier les changements de la société française sur un siècle grâce à l'exploitation d'une source décrivant précisément la population française : les recensements de la population de 1836 à 1936, conservés et numérisés par les Archives départementales et les Archives municipales.

Les recensements numérisés seront transcrits automatiquement et analysés pour constituer une base de données de plusieurs millions d'individus, permettant d'une part au public des archives de faire des recherches nominatives ponctuelles et d'autre part aux chercheurs de mener des études en histoire économique, démographique ou sociale (évolutions du marché du travail, des mobilités, des inégalités par exemple).

Après des projets d'application de l'intelligence artificielle aux archives tels que Himanis et Lectaurep aux Archives nationales ou les décrets des États de Bourgogne aux Archives de la Côte d'Or, Socface est une expérimentation d'application de ces technologies à grande échelle dans le domaine des archives, sur une source très prisée tant pour les recherches généalogiques que pour des études historiques.

Suivre le projet sur le site dédié au projet Socface :  Socface, l'intelligence artificielle appliquée aux archives (FranceArchives)  :   



Le projet Socface réunit archivistes, démographes, économistes, historiens et informaticiens travaillant ensemble pour mettre au point des technologies de traitement à grande échelle de vastes séries de documents historiques. Le projet mobilise la reconnaissance automatique d’écriture manuscrite pour analyser l’ensemble des listes nominatives du recensement de 1836 à 1936 (soit 20 recensements). Le projet produira une base de données de tous les individus ayant vécu en France entre 1836 et 1936 et l’utilisera pour analyser le changement social dans la longue durée, améliorant ainsi considérablement notre compréhension des structures économiques et sociales françaises. L’autre impact majeur de Socface sera l’accès aux listes nominatives pour le grand public : les informations disponibles dans les listes nominatives seront diffusées en Open Access, permettant à quiconque de parcourir librement des centaines de millions d’enregistrements.

L'INRIA a développé plusieurs outils de reconnaissance de texte. 

SITE de l’INRIA.

Il existe également d'autres logiciels développés par l'INRIA, tels que **CATMuS** et **eScriptorium**, qui sont utilisés pour la reconnaissance de l'écriture dans les manuscrits médiévaux⁴. 

Cependant, ces outils sont plus spécialisés et peuvent ne pas être aussi utiles pour la généalogie que Transkribus⁴.

(3) ALMAnaCH, Inria. https://almanach.inria.fr/software_and_resources-fr.html

(4) ALMAnaCH, Inria. https://bing.com/search?q=logiciels+de+reconnaissance+de+texte+de+l%27INRIA+pour+la+g%c3%a9n%c3%a9alogie

(5) Le classement 2023 des logiciels de généalogie. https://www.genealogiepratique.fr/classement-logiciels-genealogie/


ALMAnaCH, Inria

https://almanach.inria.fr/software_and_resources-fr.html


Autres solutions :

Genscriber : un logiciel complet pour transcrire et relever vos documents généalogiques

https://genea-logiques.com/2017/06/16/genscriber-un-logiciel-complet-pour-transcrire-et-relever-vos-documents-genealogiques/


CATMuS Médiéval (fr) / CATMuS Médiéval.


Modèle de reconnaissance d'écriture pour les manuscrits médiévaux en alphabet latin.
Ce modèle est le résultat de la collaboration de chercheurs des projets CREMMA, GalliCorpora, HTRomance et DEEDS. Il suit les directives du CREMMA (complétées par le CREMMA Medii Aevi) et sera consolidé sous les directives médiévales du CATMuS dans un prochain article.
Le modèle est entraîné avec la normalisation Unicode NFD : chaque diacritique (y compris les exposants) est transcrit comme son propre caractère, séparément du caractère "principal". Le modèle est entraîné avec 3,4 millions de signes.


Fin de la campagne collaborative d’éducation de l’IA à Belfort : et maintenant ? | La Revue française de Généalogie (rfgenealogie.com)


Patricia Machet : "En généalogie, l’intelligence artificielle est prometteuse" | La Revue française de Généalogie (rfgenealogie.com)


Objectif 2113, la généalogie de demain (geneafinder.com)


PIERRE EROL GIRAUDY 






Aucun commentaire:

Enregistrer un commentaire

Les modèles de vision Meta Llama 3.2 (11B et 90B) sont maintenant disponibles.

  Ollama - Les modèles de vision Meta Llama 3.2 (11B et 90B) sont maintenant disponibles. Les modèles de vision Meta Llama 3...