L'Université de Tours (campus de Blois) recrute un(e) doctorant(e) en traitement automatique des langues. ===== Garder la trace, mettre de l'ordre et relier les points : modéliser l'ambiguïté, la variation et la compositionalité des expressions polylexicales ===== * **Date limite d'envoi des dossiers:** 30 mai 2016 * **Domaine:** traitement automatique des langues/linguistique informatique * **Localisation:** [[http://li.univ-tours.fr/ | Laboratoire d'informatique]], Université de Tours, antenne de Blois (France) * **Encadrant**: [[http://www.info.univ-tours.fr/~savary/|Agata Savary]] (Tours) * **Co-encadrant**: [[http://pageperso.lif.univ-mrs.fr/~carlos.ramisch|Carlos Ramisch]] (Marseille) * **Durée:** 3 ans, octobre 2016 à septembre 2019 * **Rémunération:** approx. 1660 €/mois (incluant 64 heures annuelles d'enseignement) * **Financement:** [[http://parsemefr.lif.univ-mrs.fr/|projet ANR PARSEME-FR]] * **Mots clefs**: expressions polylexicales (EP), variation, ambiguïté, linking, entités nommées, lexiques, compositionalité, identification d'EP ----------------- ==== Contexte ==== Cette thèse de doctorat s'inscrit dans le cadre du [[http://parsemefr.lif.univ-mrs.fr | projet ANR PARSEME-FR]], un spin-off français de l'action [[http://www.parseme.eu | PARSEME]]. PARSEME est un réseau scientifique européen financé par le [[http://www.cost.eu/COST_Actions/ict/IC1207 | programme COST]]. Le consortium regroupe plus de 200 partenaires de 31 pays autour des défis scientifiques en traitement automatique d'expressions polylexicales. L'objectif du projet PARSEME-FR est de s'attaquer à ces défis spécifiquement en langue française. Le travail de thèse sera encadré par Agata Savary (Université de Tours, antenne de Blois) et co-encadré par Carlos Ramisch (Aix Marseille Université). Le/la doctorant(e) travaillera à Blois, et effectuera des visites ponctuelles à Marseille. Il/elle participera aux réunions régulières du projet PARSEME-FR réunissant des spécialistes français en traitement d'expressions polylexicales. ----------------- ==== Profil ==== * Master en informatique ou traitement automatique des langues * Bon niveau de français et d'anglais, la maîtrise d'une autre langue serait un plus * Intérêts pour la linguistique, connaissances des technologies langagières * Capacité de travail en autonomie et en équipe ------------------------- ==== Calendrier ==== * Date limite d'envoi des dossiers: 30 mai 2016 (ou tant que le poste n'est pas pourvu) * Résultats de la sélection: 24 juin 2016 * Début de contrat: octobre 2016 * Fin de contrat: septembre 2019 --------------------- ==== Dossier ==== Les candidats doivent faire parvenir les documents suivants au format PDF, en français OU en anglais, à Agata Savary (prenom.nom@univ-tours.fr) ET Carlos Ramisch (prenom.nom@lif.univ-mrs.fr) * CV * lettre de motivation * relevé de notes de Master et licence (avec traduction, si rédigés en une autre langue) ------------------------------ ==== Institutions d'accueil ==== === Affiliation principale === * **Université**: [[http://www.univ-tours.fr/| Université François Rabelais Tours]] * **Laboratoire**: [[http://li.univ-tours.fr | Laboratoire d'informatique (LI)]] * **Équipe de recherche**: Bases de données et traitement des langues (BdTln), antenne de Blois === Affiliation secondaire === * **Université**: [[http://edu.univ-amu.fr/en | Aix Marseille Université (AMU)]] * **Laboratoire**: [[http://www.lif.univ-mrs.fr/ | Laboratoire d'informatique fondamentale (LIF)]] * **Équipe de recherche**: Traitement automatique du langage écrit et parlé (TALEP) ------------------------------- ==== Défis scientifiques ==== Cette thèse sera dédiée au traitement informatique des expressions polylexicales (EP) semi-figées et flexibles, telles que //blanc d'oeuf//, //mémoire vive//, //prendre une pause//, //prendre le temps//, //tourner la veste// ou //prendre le taureau par les cornes//. Cette classe englobe également les entités nommées polylexicales (ENP) telles que //Valéry Giscard d'Estain//, //Fond européen de développement régional// et //Royaume-Uni de Grande Bretagne et d'Irlande du Nord//. La particularité des ENP réside dans leur richesse sémantique et pragmatique, représentable par des liens vers des référents d'entités et de concepts du monde réel ou du monde du discours (personnes, lieux, objets, événements, etc.). Les EP et les ENP présentent des comportements linguistiques irréguliers qui doivent être pris en compte par toute application informatique réalisant des traitements d'ordre sémantique, telles que la traduction automatique ou l'extraction d'informations. En l'absence de traitements appropriés, Les EP et les ENP sont sources d'erreurs en traitement automatique des langues. À ce jour, leur identification automatique en contexte, ainsi que leur rattachement à une entrée dans une base de connaissances (entity linking), n'atteignent pas des niveaux de qualité suffisants. L'objectif de cette thèse est de proposer et évaluer des méthodes informatiques robustes pour l'identification et le linking des EP et des ENP. Les propriétés pincipales des EP et des ENP à prendre en compte dans ce contexte sont : * leur discontinuité dans des textes * leur variation morpho-syntaxique * leur ambiguïté sémantique et pragmatique Par exemple, les constituants de //prendre une pause// peuvent se fléchir ou être séparés par des éléments externes (//il n'a **pris** ces derniers mois aucune **pause**//) ou soumis à des transformations syntaxiques (//les **pauses** qu'il **prend** ces derniers temps sont longues//). Des variantes elliptiques ou des acronymes peuvent remplacer les noms complets (//Giscard d'Estain//, //FEDER//, //Grande Bretagne//. Finalement, une EP potentielle peut avoir une interprétation idiomatique ou littérale (//il a retourné sa veste pour la nettoyer de l'intérieur//). L'analyse syntaxique, tout comme l'encodage lexical fin des EP, peuvent aider à détecter les occurrences non-canoniques d'EP et à distinguer les variantes morpho-syntaxiques valides de celles qui sont impossibles. Par exemple //les **pauses** qu'il **prend** ce dernier temps sont longues// est une variante de //prendre une pause// mais pas de //prendre le temps//. De plus, l'emploi de représentations distributionnelles fondées sur des espaces vectoriels (word embeddings), peut contribuer à distinguer les interprétations littérales et idiomatiques. Les variations constituent l'un des défis majeurs de la tâche de linking d'EP et d'ENP. Des algorithmes de désambiguïsation et de fusion de variantes sont requis lorsqu'une forme canonique d'une EP ou d'une ENP figurant dans une base de connaissances est à relier à ses occurrences dans un texte. Par exemple, dans la tâche d'entity linking, les entités nommées pré-identifiées dans un texte doivent être automatiquement reliées aux Données Liées Ouvertes (Linked Open Data) représentant les mêmes référents. C'est également le cas pour les EP flexibles, dont les propriétés sont décrites dans un lexique morpho-syntaxique. La tâche inverse, mais également complexe, consiste à automatiquement projeter un lexique d'EP sur un corpus arboré, afin accélérer le processus d'annotation du corpus. Cette thèse de doctorat devra mener à une meilleure compréhension des avantages que l'identification automatique et la désambiguïsation des EP et des ENP peuvent tirer de l'analyse syntaxique, de l'encodage lexical et des modèles sémantiques distributionnels. L'impact de ces traitements sur les tâches d'entity linking et de la pré-annotation de corpus sera évalué à l'aide de ressources et outils langagiers du français, développés dans le cadre du projet ANR PARSEME-FR. ------------------------- ==== Bibliographie ==== * [[ http://lingo.stanford.edu/pubs/WP-2001-03.pdf | Multiword Expresions: A Pain in the Neck for NLP ]] * [[ http://link.springer.com/content/pdf/10.1007%2F978-3-540-45115-0_6.pdf | Reducing Information Variation in Text ]] * [[ https://aclweb.org/anthology/P/P15/P15-1108.pdf | Joint Dependency Parsing and Multiword Expression Tokenisation ]] * [[ http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.461.1494&rep=rep1&type=pdf | Evaluating Entity Linking with Wikipedia ]] * [[ http://aclweb.org/anthology/W/W12/W12-3311.pdf | A Generic Framework for Multiword Expressions Treatment: from Acquisition to Applications ]] * [[http://aclweb.org/anthology/Q/Q14/Q14-1016.pdf | Discriminative Lexical Semantic Segmentation with Gaps: Running the MWE Gamut ]] ----