GRETSI'03 19e Colloque GRETSI
sur le traitement du signal et des images

Paris   8 - 11 septembre 2003

Accueil Programme Par session Par auteur Par thème Par code

Informations concernant l'article

Titre
Structuration multimodale d'une vidéo de tennis par modèles de Markov cachés
Auteur(s)
Ewa Kijak Thomson multimedia R&D
Guillaume Gravier IRISA
Lionel Oisel Thomson multimedia R&D
Patrick Gros IRISA
Références
vol. III, page 42
L'article au format PDF
 
Pour obtenir Acrobat Reader (version 5 minimum recommandée) nécessaire pour sa lecture.

Résumé

Cet article présente une méthode de structuration d'une vidéo utilisant des indices sonores et visuels. Cette méthode repose sur un modèle statistique de l'entrelacement temporel des plans de la vidéo. Le cadre général de la modélisation est celui des modèles de Markov cachés. L'approche est validée dans le cadre de vidéos de tennis télédiffusées. Les indices visuels sont utilisés pour caractériser le type des plans. Les indices audio décrivent les événements sonores apparaissant durant un plan. La structure de la vidéo est représentée par un modèle de Markov caché, intégrant les informations a priori sur le contenu de la vidéo, ainsi que sur les règles d'édition. En résultat du décodage, des éléments structuraux caractéristiques du tennis sont identifiés : premier service raté, échange, rediffusion ou temps mort. De plus, chaque plan de la vidéo est assigné à un niveau de hiérarchie décrit en terme de point, jeu et set. Cette classification et segmentation simultanées peuvent être utilisées pour la création de résumés vidéo ou pour ermettre une navigation non linéaire dans le document vidéo.

Edition : Télécom-Paris -- 2003