Banniere GRETSI'01

Informations sur l'article
-----
Titre:
Identification de formulaires par modèles de Markov cachés planaires

Auteur(s):
Ramdane Saïd, Université du Havre (laboratoire du GREAH)
Taconet Bruno, Université du Havre
Zahour Abderrazak, Université du Havre
Faure Alain, Université du Havre (laboratoire du GREAH)

Résumé de l'article
-----
Nous présentons une méthode de modélisation de la structure physique de formulaires avec champs manuscrits, au moyen de modèles de Markov cachés pseudo-bidimensionnels (PHMMs). La description obtenue est ensuite utilisée pour la classification automatique des types de formulaires. La méthode étudiée s'appuie plus précisément sur la détection des rectangles principaux qui contiennent les zones de textes ou d'images séparées par des bandes blanches horizontales et verticales. Par la nature même du document, qui comporte des champs manuscrits, la position et les dimensions des rectangles sont variables. De plus, les phénomènes de fusionnement et de fragmentation (figure 1), résultant de la segmentation, induisent une variabilité supplémentaire dans le nombre des rectangles qui caractérisent la structure physique d'une classe de formulaires. En raison de la double variabilité des rectangles, qui présente un caractère manifestement aléatoire, et du fait du caractère 2D intrinsèque à l'image, la modélisation par PHMMs nous paraît un outil tout à fait adapté aux problèmes posés par la classification automatique des formulaires. Toutes les phases de traitement de formulaires, depuis leur saisie jusqu'à la construction des modèles, sont complètement automatiques, contrairement aux travaux publiés jusqu'à présent. En particulier, l'apprentissage des super-états est effectué par le découpage automatique en bandes de l'image du document. Le nombre d'états du modèle markovien intra-bande est déterminé par apprentissage non supervisé. La méthode des "k-means" permet ensuite d'obtenir tous les paramètres de chaque modèle.
Article
-----
Une version PDF de l'article est disponible ici

-----