====== Développement d'outils d'enrichissement d'un lexique d’expressions polylexicales du français ====== * **Domaine:** traitement automatique des langues * **Lieu du stage:** [[http://alpage.inria.fr|Alpage]], [[http://www.univ-paris-diderot.fr|Université Paris-Diderot]] ou [[http://ligm.u-pem.fr/|LIGM]], [[http://www.u-pem.fr|Université Paris-Est Marne-la-Vallée]] * **Encadrant principal:** [[http://igm.univ-mlv.fr/~mconstan|Matthieu Constant]] * **Durée du stage:** 6 mois * **Rémunération:** gratification réglementaire * **Financement:** Université Paris-Est Marne-la-Vallée ----------------- ===== Contexte du stage ===== Une des tâches fondamentales du traitement automatique des langues est de développer des analyseurs produisant automatiquement une représentation linguistique d'un texte donné en entrée: ex. segmentation lexicale, étiquetage grammatical, analyse syntaxique, analyse sémantique, ... Les stages proposés ci-dessous concernent la segmentation lexico-sémantique et, en particulier, l'identification des expressions polylexicales, qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, //pomme de terre//, //prendre en grippe//, //alors que//, //en effet//, //en dépit de//, ... Elles posent de sérieux problèmes pour les applications du traitement automatique des langues comme la traduction automatique. Cette proposition de stage se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques à grande échelle. Ce stage pourra éventuellement se poursuivre en thèse. ===== Objectifs ===== L'identification des expressions polylexicales passe en général par la consultation de ressources lexicales riches. Il existe un certain nombre de telles ressources pour le français. Cependant, celles-ci sont souvent incomplètes en termes de couverture, de propriétés syntaxico-sémantiques, et ne sont pas toujours directement exploitables pour les outils du TAL. L’objectif du stage est de développer des outils permettant: - d'agréger plusieurs lexiques dans un cadre unifié - de les enrichir (semi-)automatiquement en termes de propriétés morphologiques, syntaxiques et sémantiques Le stagiaire recruté sera en collaboration étroite avec des linguistes du [[http://ligm.u-pem.fr|LIGM]]. Il travaillera également en collaboration avec des chercheurs de l’équipe [[http://li.univ-tours.fr/equipes/equipe-bdtln-198022.kjsp|BdTln]] du [[http://li.univ-tours.fr/|Laboratoire d’informatique]] de l’[[http://www.univ-tours.fr|Université François-Rabelais]]. ------------------------------ ===== Candidater ===== **Profil du candidat:** * Master 2 en TAL ou linguistique informatique * bonnes compétences d’un langage de script (ex. python ou perl) Les candidatures doivent être envoyées par mail à [[Mathieu.Constant@u-pem.fr]]. Le dossier de candidature contiendra un cv, une lettre de motivation, et, éventuellement, la recommandation d'un enseignant.