Frantext est une base de données textuelles incluant plus de 5000 références (soit près de 300 millions de mots) s’échelonnant du Xe au XXIe siècle (avec une majorité de textes en français moderne). Cette base est hébergée, maintenue et enrichie à l’ATILF. Elle dispose d’un moteur de requêtes qui permet de faire des recherches fines dans ce corpus. Avec l’objectif de permettre d’affiner encore plus ces requêtes, l’ATILF s’est lancé dans une vaste campagne d’annotation linguistique de la base textuelle, en commençant par l’étiquetage morphosyntaxique et la lemmatisation. Si l’étiquetage morphosyntaxique réalisé offre de bons résultats (précision estimée à 98 %), la lemmatisation s’appuyant sur une simple consultation de dictionnaire pose de nombreux problèmes à cause de l’ambiguïté.
Par ailleurs, le projet ANR PARSEME-FR coordonné par l’ATILF étudie les liens entre expressions polylexicales et analyse syntaxique et sémantique. En particulier, dans ce cadre, plusieurs méthodes supervisées ont été mises au point pour identifier les expressions polylexicales (Al Saied et al. 2017, Scholivet et Ramisch 2017). Cependant, de telles approches souffrent d’un manque de couverture, car elles sont très contraintes par les données d’entraînement. À la place, nous souhaiterions explorer des approches faiblement supervisées guidées par des dictionnaires, offrant une plus grande couverture en expressions polylexicales.
L’objectif de ce stage est de développer des méthodes faiblement supervisées d’étiquetage sémantique reposant sur des graphes sémantiques, avec pour but d’améliorer à la fois la lemmatisation et l’identification des expressions polylexicales. En supposant que l’on dispose d’une étiquette morphosyntaxique pour le mot en entrée, la lemmatisation consiste à trouver le bon ensemble de sens partageant le même lemme. Si l’on considère un ensemble d’expressions polylexicales candidates dans une phrase en entrée, identifier les expressions polylexicales de la phrase consiste à déterminer si les expressions candidates ont un sens compositionnel ou pas. Pour résumer, les deux tâches consistent à faire un étiquetage sémantique gros grain. Dans cette approche, les dictionnaires sont représentés comme des graphes sémantiques et des algorithmes random walk sont utilisés pour activer les bonnes analyses (lemme et segmentation lexicale) parmi les analyses possibles décrites dans le dictionnaire.
L’objectif du stage est d’appliquer diverses techniques d’étiquetage sémantique reposant sur des graphes, à la lemmatisation et à l’identification d’expressions polylexicales, qui peuvent être considérés comme des sous-tâches de l’annotation sémantique. Les expériences seront de préférence réalisées sur le français, mais d’autres langues sont aussi possibles. Le travail sera divisé en plusieurs tâches :
Eneko Agirre, Oier López de Lacalle, and Aitor Soroa. Random walks for knowledge-based word sense disambiguation. Comput. Linguist., 40(1):57–84, March 2014.
Hazem Al Saied, Marie Candito, and Matthieu Constant. The atilf-llf system for parseme shared task: a transition-based verbal multiword expression tagger. In Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017), pages 127–132, Valencia, Spain, April 2017. Association for Computational Linguistics.
Michael Lesk. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from an ice cream cone. In Proceedings of the 5th Annual International Conference on Systems Documentation, SIGDOC ’86, pages 24–26, New York, NY, USA, 1986. ACM.
Manon Scholivet and Carlos Ramisch. Identification of ambiguous multiword expressions using sequence models and lexical resources. In Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017), pages 167–175, Valencia, Spain, April 2017. Association for Computational Linguistics.
Profil du candidat:
Procédure de candidature: