L'ATILF recrute un doctorant en traitement automatique des langues. ===== Intégrer les expressions polylexicales au coeur de l’analyse syntaxique et sémantique statistique ===== * **Candidatures acceptées jusqu'à ce que le poste soit pourvu** * **Domaine:** traitement automatique des langues * **Lieu:** [[http://www.atilf.fr|ATILF]], Université de Lorraine * **Encadrant**: [[http://igm.univ-mlv.fr/~mconstan/|Matthieu Constant]] * **Co-encadrant**: [[http://utilisateurs.linguist.univ-paris-diderot.fr/~mcandito/|Marie Candito]] (Univ. Paris Diderot et INRIA) * **Durée:** 3 ans, octobre 2016 à septembre 2019 * **Rémunération:** environ 1700 € par mois * **Financement:** bourse CNRS, [[http://parsemefr.lif.univ-mrs.fr/|Projet ANR PARSEME-FR]] * **Mots-clés**: expressions polylexicales, analyse syntaxique, analyse sémantique, apprentissage profond ----------------- ==== Contexte ==== Le sujet de thèse proposé ci-dessous se situe dans le domaine du traitement automatique des langues à la croisée des chemins entre informatique et linguistique. Il s’intéresse plus particulièrement au traitement des expressions polylexicales qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, *pomme de terre*, *prendre en grippe*, *alors que*, *en effet*, *en dépit de*, ... Repérer des expressions polylexicales en contexte constitue un pas essentiel pour l'analyse syntaxique et pour l'analyse sémantique, et plus généralement pour des applications de traitement automatique des langues comme la traduction automatique. Cette proposition de thèse de doctorat se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques et sémantiques à grande échelle. ----------------- ==== Profil ==== * Master en informatique ou traitement automatique des langues * Bonne connaissance du Français et de l'anglais, une autre langue serait un plus * Intérêt pour la linguistique et compétence en technologie des langues * Capacité à travailler indépendamment et en équipe --------------------- ==== Candidature ==== Les candidats devront envoyer les pièces suivantes en français ou en anglais, au format pdf à Mathieu Constant (Prenom.Nom@u-pem.fr) et Marie Candito (Prenom.Nom@linguist.univ-paris-diderot.fr) * CV * Lettre de motivation * Bulletin de notes de la Licence et du Master * Lettre de recommandation (serait un plus) ------------------------------ ==== Institutions d'accueil ==== === Affiliation principale === * **Laboratoire**: [[http://www.atilf.fr/ | ATILF]] * **Université**: [[http://www.univ-lorraine.fr/ | Université de Lorraine]] === Affiliation secondaire === * **Laboratoire**: [[https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=Alpage%20%E2%80%94%20Homepage | ALPAGE -INRIA]] * **Institutions**: [[ http://www.univ-paris-diderot.fr/sc/site.php?bc=accueil&np=accueil | Université Paris Diderot]] et [[ http://www.inria.fr/centre/paris | INRIA Paris]] ------------------------------- ==== Description scientifique ==== Cette thèse consiste à revisiter l’analyse syntaxique et sémantique statistique à l’aune des expressions polylexicales. Plus précisément, elle se placera dans le cadre de l’analyse en dépendances en temps linéaire. La prise en compte des expressions polylexicales à grande échelle constitue un défi pour l’analyse linguistique de textes, essentiellement du fait de leur non-compositionnalité, i.e. de l'irrégularité, totale ou partielle, dans la manière dont se composent leurs éléments, que ce soit au niveau lexical, morpho-syntaxique ou sémantique. En outre, il existe un continuum entre expressions entièrement figées (cordon bleu) et expressions presque libres (déficit budgétaire). Une grande majorité des expressions sont en réalité partiellement compositionnelles (rendre visite, vin blanc) nécessitant donc une représentation non-atomique. En préalable, il s’agira donc de mettre au point une nouvelle représentation lexicale, syntaxique et sémantique qui permette un traitement satisfaisant de ce type d’expressions en particulier. Étant donné cette nouvelle représentation, il s'agira ensuite de mettre au point de nouveaux algorithmes d'analyse syntaxique automatique intégrant les expressions polylexicales ainsi représentées. La priorité sera donnée à un système qui réalise conjointement à la fois la reconnaissance des expressions polylexicales et l'analyse syntaxique globale, de manière à ce que les deux tâches puissent s'informer mutuellement. En outre, les expressions polylexicales représentant en général des unités sémantiques, un prolongement naturel d'un tel système joint est de proposer la construction d'un graphe sémantique pour une phrase. Le ou les analyseurs développés tenteront de combiner deux caractéristiques souvent antagoniques: rapidité et exactitude. Pour garantir la meilleure exactitude possible, les systèmes développés pourront s’appuyer sur des techniques d’apprentissage profond (deep learning) et sur de larges ressources lexicales afin de favoriser la couverture en expressions polylexicales. L’implantation d’un système joint, prédisant les différents niveaux d’analyse simultanément, peut permettre à l’analyseur de bénéficier d’informations linguistiques plus riches au moment de l’analyse. Bien que mieux informés, les systèmes joints amplifient l’ambiguïté parfois artificiellement. Une piste possible est d'ajouter un ensemble de contraintes réduisant l’espace de recherche. Enfin, nous souhaiterions que les systèmes proposés garantissent une complexité en temps linéaire ou quasi-linéaire, afin de pouvoir envisager raisonnablement l’analyse de grandes masses de données textuelles. Cette thèse s'effectuera en collaboration avec Joakim Nivre (Univ. Uppsala, Suède), dans le cadre de l'action européenne COST PARSEME. ------------------------- ==== Bibliographie ==== * [[ http://www.mitpressjournals.org/doi/pdf/10.1162/coli.07-056-R1-07-027 | Nivre, J. (2008). Algorithms for deterministic incremental dependency parsing, Computational Linguistics 34(4): 513—553. ]] * [[ http://www.aclweb.org/anthology/P/P14/P14-1070.pdf | Candito M. and Constant M. (2014). Strategies for Multiword Expression Analysis and Dependency Parsing, Proceedings of the 52th Annual Meeting of the Association for Computational Linguistics (ACL'14), Baltimore, USA. ]] * [[ https://aclweb.org/anthology/C/C14/C14-1177.pdf | Joseph Le Roux, Matthieu Constant and Antoine Rozenknop. Syntactic Parsing and Compound Recognition via Dual Decomposition: Application to French. 25th International Conference on Computational Linguistics (COLING'14). 2014. ]]