Table of Contents

Outil d'exploration d'expressions polylexicales dans un lexique et dans un corpus annoté


Contexte du stage

Le stage se déroulera dans le cadre du projet ANR PARSEME-FR qui étudie les liens entre expressions polylexicales et l’analyse syntaxico-sémantique automatique. Les expressions polylexicales (EP), comme pomme de terre, se voiler la face, Afrique du Sud, prendre une décision, sont des groupes de mots aux propriétés imprévisibles. En particulier, leur sens ne peut souvent être directement calculé à partir du sens de leurs composants. Pour cette raison, elles posent des problèmes majeurs au traitement automatique et leur traitement nécessite une description explicite dans un lexique. Un des objectifs du projet PARSEME-FR est de construire à la fois un lexique d’EP incluant des descriptions linguistiques fines, et un corpus annoté en EP pour le français. Un des résultats les plus notables jusqu’à présent est l’annotation des données françaises (Candito et al. 2017) pour la Shared Task PARSEME sur l’identification des expressions verbales (Savary et al. 2017). Les deux ressources créées ont pour but d’être exploitées dans des applications du traitement automatique des langues telles que l’analyse syntaxique et sémantique, mais aussi d’être explorées pour des études linguistiques.

Objectifs

L’objectif principal du stage est de développer des outils pour lier et explorer le corpus annoté et le lexique, construits dans le projet PARSEME-FR. Le travail à réaliser comportera les tâches suivantes:

Références

Marie Candito, Mathieu Constant, Carlos Ramisch, Agata Savary, Yannick Parmentier, Caroline Pasquer, and Jean-Yves Antoine. Annotation d’expressions polylexicales verbales en français. In Jean-Yves Antoine Iris Eshkol, editor, 24e conférence sur le Traitement Automatique des Langues Naturelles (TALN), Actes de TALN, volume 2 : articles courts, pages 1–9, Orléans, France, 06 2017.

Maurice Gross. Lexicon-grammar and the syntactic analysis of French. In Proc. of COLING-ACL 1964, pages 275–282, Stanford, CA, 1984. Association for Computational Linguistics.

Agata Savary, Carlos Ramisch, Silvio Cordeiro, Federico Sangati, Veronika Vincze, Behrang QasemiZadeh, Marie Candito, Fabienne Cap, Voula Giouli, Ivelina Stoyanova, and Antoine Doucet. The PARSEME shared task on automatic identification of verbal multiword expressions. In Proc. of EACL 2017 Workshop on MWEs, pages 31–47, Valencia, April 2017.


Candidater

Profil du candidat:

Procédure de candidature: