Differences

This shows you the differences between two versions of the page.

--- job-2016-ligm-alpage-phd-fr [2016/04/05 15:07]
matthieu.constant created
+++ job-2016-ligm-alpage-phd-fr [2016/06/14 21:41] (current)
matthieu.constant
@@ Line 1: / Line 1: @@
-L'Université Paris-Est Marne-la-Vallée recrute un doctorant en traitement autoamtique des langues.
+L'ATILF recrute un doctorant en traitement automatique des langues.
 ===== Intégrer les expressions polylexicales au coeur de l’analyse syntaxique et sémantique statistique =====
-  * **Date limite de candidature:** 30 mai 2016
+  * **Candidatures acceptées jusqu'à ce que le poste soit pourvu**
   * **Domaine:** traitement automatique des langues
-  * **Lieu:** [[http://ligm.u-pem.fr/ | Laboratoire d'informatique Gaspard-Monge]], Université Paris-Est Marne-la-Vallée ou Université Paris Diderot (France)
+  * **Lieu:** [[http://www.atilf.fr|ATILF]], Université de Lorraine
-  * **Encadrant**: [[http://igm.univ-mlv.fr/~mconstan/|Matthieu Constant]] (Marne-la-vallée, LIGM et INRIA)
+  * **Encadrant**: [[http://igm.univ-mlv.fr/~mconstan/|Matthieu Constant]]
   * **Co-encadrant**: [[http://utilisateurs.linguist.univ-paris-diderot.fr/~mcandito/|Marie Candito]] (Univ. Paris Diderot et INRIA)
   * **Durée:** 3 ans, octobre 2016 à septembre 2019
   * **Rémunération:** environ 1700 € par mois
-  * **Financement:** [[http://parsemefr.lif.univ-mrs.fr/|Projet ANR PARSEME-FR]]
+  * **Financement:** bourse CNRS, [[http://parsemefr.lif.univ-mrs.fr/|Projet ANR PARSEME-FR]]
   * **Mots-clés**: expressions polylexicales, analyse syntaxique, analyse sémantique, apprentissage profond
@@ Line 17: / Line 17: @@
 ==== Contexte ====
-The proposed PhD thesis falls into the field of natural language processing at the crossroads of computer science and linguistics. In particular, it will focus on processing of multiword expressions, namely sequences of several words with a certain degree of idiomaticity. These expressions are very frequent and diverse. For instance, hot dog, piece of cake, cut the mustard, take a step, by and large. Identifying multiword expressions in context constitutes an essential step for syntactic parsing, semantic analysis and more generally for natural language processing applications such as machine translation.
+Le sujet de thèse proposé ci-dessous se situe dans le domaine du traitement automatique des langues à la croisée des chemins entre informatique et linguistique. Il s’intéresse plus particulièrement au traitement des expressions polylexicales qui forment des combinaisons de mots avec un certain degré d'idiomaticité. Ces expressions sont très fréquentes et extrêmement variées. Par exemple, *pomme de terre*, *prendre en grippe*, *alors que*, *en effet*, *en dépit de*, ... Repérer des expressions polylexicales en contexte constitue un pas essentiel pour l'analyse syntaxique et pour l'analyse sémantique, et plus généralement pour des applications de traitement automatique des langues comme la traduction automatique.  Cette proposition de thèse de doctorat se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques et sémantiques à grande échelle.
-This PhD proposal holds in the framework of the ANR-funded PARSEME-FR project that aims at widely integrating such expressions into syntactic and semantic parsers.
 -----------------
-==== Profile ====
+==== Profil ====
-  * Master in computer science or computational linguistics
+  * Master en informatique ou traitement automatique des langues
-  * Good knowledge of French and English, another language would be a plus
+  * Bonne connaissance du Français et de l'anglais, une autre langue serait un plus
-  * Interests in linguistics and familiarity with language technology
+  * Intérêt pour la linguistique et compétence en technologie des langues
-  * Capacity to work independently and as part of a team
+  * Capacité à travailler indépendamment et en équipe
 ---------------------
-==== Application ====
+==== Candidature ====
-Candidates should send the following documents in PDF format, in French or in English, to Mathieu Constant (FirstName.LastName@u-pem.fr) and Marie Candito (FirstName.LastName@linguist.univ-paris-diderot.fr)
+Les candidats devront envoyer les pièces suivantes en français ou en anglais, au format pdf à  Mathieu Constant (Prenom.Nom@u-pem.fr) et Marie Candito (Prenom.Nom@linguist.univ-paris-diderot.fr)
   * CV
-  * Cover letter
+  * Lettre de motivation
-  * Transcript of MSc and BSc grades (translated if not in French or English)
+  * Bulletin de notes de la Licence et du Master
-  * Reference letters would be a plus
+  * Lettre de recommandation (serait un plus)
 ------------------------------
-==== Hosting Institutions ====
+==== Institutions d'accueil ====
-=== Main affiliation ===
+=== Affiliation principale ===
-  * **Laboratory**: [[http://ligm.u-pem.fr/ | Laboratoire d'Informatique Gaspard-Monge (LIGM)]]
+  * **Laboratoire**: [[http://www.atilf.fr/ | ATILF]]
-  * **University**: [[http://www.u-pem.fr/ | Université Paris-Est Marne-la-vallée]]
+  * **Université**: [[http://www.univ-lorraine.fr/ | Université de Lorraine]]
-=== Secondary affiliation ===
+=== Affiliation secondaire ===
-  * **Laboratory**: [[https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=Alpage%20%E2%80%94%20Homepage | ALPAGE -INRIA]]
+  * **Laboratoire**: [[https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=Alpage%20%E2%80%94%20Homepage | ALPAGE -INRIA]]
-  * **Institutions**: [[ http://www.univ-paris-diderot.fr/sc/site.php?bc=accueil&np=accueil | Université Paris Diderot]] and [[ http://www.inria.fr/centre/paris | INRIA Paris]]
+  * **Institutions**: [[ http://www.univ-paris-diderot.fr/sc/site.php?bc=accueil&np=accueil | Université Paris Diderot]] et [[ http://www.inria.fr/centre/paris | INRIA Paris]]
 -------------------------------
-==== Scientific description ====
+==== Description scientifique ====
+Cette thèse consiste à revisiter l’analyse syntaxique et sémantique statistique à l’aune des expressions polylexicales. Plus précisément, elle se placera dans le cadre de l’analyse en dépendances en temps linéaire.
-This PhD thesis aims at revisiting statistical syntactic and semantic analysis in the light of multiword expressions. More precisely, it falls within the framework of linear-time dependency parsing.
+La prise en compte des expressions polylexicales à grande échelle constitue un défi pour l’analyse linguistique de textes, essentiellement du fait de leur non-compositionnalité, i.e. de l'irrégularité, totale ou partielle, dans la manière dont se composent leurs éléments, que ce soit au niveau lexical, morpho-syntaxique ou sémantique. En outre, il existe un continuum entre expressions entièrement figées (cordon bleu) et expressions presque libres (déficit budgétaire). Une grande majorité des expressions sont en réalité partiellement compositionnelles (rendre visite, vin blanc) nécessitant donc une représentation non-atomique. En préalable, il s’agira donc de mettre au point une nouvelle représentation lexicale, syntaxique et sémantique qui permette un traitement satisfaisant de ce type d’expressions en particulier. Étant donné cette nouvelle représentation, il s'agira ensuite de mettre au point de nouveaux algorithmes d'analyse syntaxique automatique intégrant les expressions polylexicales ainsi représentées. La priorité sera donnée à un système qui réalise conjointement à la fois la reconnaissance des expressions polylexicales et l'analyse syntaxique globale, de manière à ce que les deux tâches puissent s'informer mutuellement. En outre, les expressions polylexicales représentant en général des unités sémantiques, un prolongement naturel d'un tel système joint est de proposer la construction d'un graphe sémantique pour une phrase.
-Taking multiword expressions into account is a challenge for automatic text analysis, mainly due to their non-compositionality, i.e. to the partial or total irregularity in the way their elements combine at the lexical, morpho-syntactic and/or semantic levels. Furthermore, there exists a continuum between entirely fixed expressions (piece of cake) and almost free expressions (traffic light). A wide majority of these expressions are actually partially compositional (white wine, take a nap) thus requiring a non-atomic representation. The first work will consist in designing a new lexical, syntactic and semantic representation that would enable a satisfying handling of such expressions.
+Le ou les analyseurs développés tenteront de combiner deux caractéristiques souvent antagoniques: rapidité et exactitude. Pour garantir la meilleure exactitude possible, les systèmes développés pourront s’appuyer sur des techniques d’apprentissage profond (deep learning) et sur de larges ressources lexicales afin de favoriser la couverture en expressions polylexicales. L’implantation d’un système joint, prédisant les différents niveaux d’analyse simultanément, peut permettre à l’analyseur de bénéficier d’informations linguistiques plus riches au moment de l’analyse. Bien que mieux informés, les systèmes joints amplifient l’ambiguïté parfois artificiellement. Une piste possible est d'ajouter un ensemble de contraintes réduisant l’espace de recherche. Enfin, nous souhaiterions que les systèmes proposés garantissent une complexité en temps linéaire ou quasi-linéaire, afin de pouvoir envisager raisonnablement l’analyse de grandes masses de données textuelles.
-Given this new representation, the next step will consist in developing new parsing algorithms integrating MWEs.
-Priority will be given to a system that jointly performs both MWE identification and syntactic parsing, in such a way both tasks can mutually inform each other. Multiword expressions generally representing semantic units, a natural extension of this joint system is to develop a system that automatically constructs  a shallow semantic graph for an input sentence.
-The developed parsers should combine two features: speed and accuracy. To reach high accuracy, joint prediction can enable the system to benefit from richer linguistic information at analysis time. Further, the use of deep learning techniques and large-scale MWE resources can be investigated. Yet this sophistication comes at the cost of increased complexity and ambiguity. A possible solution is to add constraints reducing search space. Finally, we wish the proposed solutions to have (quasi-)linear speed complexity, in order to reasonably consider parsing big textual data.
+Cette thèse s'effectuera en collaboration avec Joakim Nivre (Univ. Uppsala, Suède), dans le cadre de l'action européenne COST PARSEME.
-This thesis will be in collaboration with Joakim Nivre (Univ. Uppsala, Sweden), in the framework of the European COST Action PARSEME.
 -------------------------
-==== Bibliography ====
+==== Bibliographie ====

Syntactic Parsing and Multiword Expressions in French

User Tools

Site Tools

Differences

Page Tools