Table of Contents

Developing a generic software for multiword expressions tagging

POSITION FULFILLED


Context

En traitement automatique des langues, nous cherchons à retrouver automatiquement la structure sous-jacente des énoncés (parties du discours, arbre syntaxique, structure prédicative, etc.) pour ensuite en extraire et générer des informations pertinentes de plus haut niveau (sentiments, événements, traductions, résumés, etc). Ce stage se concentre sur la première étape : la segmentation et la reconstruction de la structure syntaxique du texte.

Un des grands défis des systèmes d'analyse morpho-syntaxique actuels est l'identification et étiquetage des expressions polylexicales. Ces expressions sont très fréquentes et souvent idiomatiques, par exemple, bouc émissaire, prendre en main, bien que, en fait, par rapport à, … Elles posent de sérieux problèmes pour les applications comme l'extraction d'informations et la traduction automatique.

"Bien que les expressions polylexicales soient très fréquentes dans la langue, nous savons bien que leur identification automatique est un vrai casse-tête". La phrase précédente contient deux fois la séquence de mots bien que, mais uniquement la première occurrence est une expression. Distinguer l'expression de la cooccurrence accidentelle est un vrai défi qui requiert des modèles sophistiques de haut niveau sur le contexte de l'expression dans la phrase.

Cette proposition de stage se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d'expressions au sein d'analyseurs syntaxiques robustes à grande échelle. Ce stage pourra éventuellement se poursuivre en thèse.


Goals

L'objectif de ce stage est de développer un étiqueteur générique multilingue pour les expressions ambiguës. L'étudiant testera le système, dans un premier temps, sur des séquences grammaticales en français pour lesquelles nous avons des données d'entraînement et de test disponibles.

La solution développée sera fondée sur l'apprentissage probabiliste de modèles de séquence de type HMM, CRF ou réseau de neuronnes profond. Il devra intégrer des features simples et complexes, notamment incluant des représentations vectorielles des contextes (word embeddings). Le stagiaire devra implémenter ou adapter une boîte à outils existante. Le stagiaire comparera son module à des solutions plus simples (match directe avec dictionnaire) ou plus complexes (analyseur syntaxique en dépendances) développées auparavant dans l'équipe. Finalement, le stagiaire intégrera le module d'étiquetage d'expressions au logiciel mwetoolkit et rédigera une documentation pour que la communauté d'utilisateurs puisse réutiliser, adapter et étendre ce logiciel dans l'avenir.

Le stagiaire recruté sera amené à collaborer avec des chercheurs du LIF et d'autres membres du projet PARSEME-FR.


Further reading

——————————

Application

Profil du candidat:

Les candidatures doivent être envoyées par mail à Carlos Ramisch par mail Prenom.Nom@lif.univ-mrs.fr.