User Tools

Site Tools

Agence Nationale de la Recherche

job-2016-ligm-alpage-phd-fr

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
job-2016-ligm-alpage-phd-fr [2016/04/05 15:07]
matthieu.constant created
job-2016-ligm-alpage-phd-fr [2016/06/14 21:41] (current)
matthieu.constant
Line 1: Line 1:
-L'Université Paris-Est Marne-la-Vallée recrute un doctorant en traitement autoamtique des langues.+L'ATILF recrute un doctorant en traitement automatique des langues.
  
 ===== Intégrer les expressions polylexicales au coeur de l’analyse syntaxique et sémantique statistique ===== ===== Intégrer les expressions polylexicales au coeur de l’analyse syntaxique et sémantique statistique =====
  
  
-  * **Date limite de candidature:** 30 mai 2016+  * **Candidatures acceptées jusqu'à ce que le poste soit pourvu**
   * **Domaine:** traitement automatique des langues   * **Domaine:** traitement automatique des langues
-  * **Lieu:** [[http://ligm.u-pem.frLaboratoire d'informatique Gaspard-Monge]], Université Paris-Est Marne-la-Vallée ou Université Paris Diderot (France) +  * **Lieu:** [[http://www.atilf.fr|ATILF]], Université de Lorraine 
-  * **Encadrant**: [[http://igm.univ-mlv.fr/~mconstan/|Matthieu Constant]] (Marne-la-vallée, LIGM et INRIA)+  * **Encadrant**: [[http://igm.univ-mlv.fr/~mconstan/|Matthieu Constant]]
   * **Co-encadrant**: [[http://utilisateurs.linguist.univ-paris-diderot.fr/~mcandito/|Marie Candito]] (Univ. Paris Diderot et INRIA)   * **Co-encadrant**: [[http://utilisateurs.linguist.univ-paris-diderot.fr/~mcandito/|Marie Candito]] (Univ. Paris Diderot et INRIA)
   * **Durée:** 3 ans, octobre 2016 à septembre 2019   * **Durée:** 3 ans, octobre 2016 à septembre 2019
   * **Rémunération:** environ 1700 € par mois   * **Rémunération:** environ 1700 € par mois
-  * **Financement:** [[http://parsemefr.lif.univ-mrs.fr/|Projet ANR PARSEME-FR]]+  * **Financement:** bourse CNRS, [[http://parsemefr.lif.univ-mrs.fr/|Projet ANR PARSEME-FR]]
   * **Mots-clés**: expressions polylexicales, analyse syntaxique, analyse sémantique, apprentissage profond   * **Mots-clés**: expressions polylexicales, analyse syntaxique, analyse sémantique, apprentissage profond
  
Line 17: Line 17:
 ==== Contexte ==== ==== Contexte ====
  
-The proposed PhD thesis falls into the field of natural language processing at the crossroads of computer science and linguisticsIn particular, it will focus on processing of multiword expressions, namely sequences of several words with a certain degree of idiomaticityThese expressions are very frequent and diverseFor instancehot dogpiece of cakecut the mustardtake a stepby and largeIdentifying multiword expressions in context constitutes an essential step for syntactic parsingsemantic analysis and more generally for natural language processing applications such as machine translation. +Le sujet de thèse proposé ci-dessous se situe dans le domaine du traitement automatique des langues à la croisée des chemins entre informatique et linguistiqueIl s’intéresse plus particulièrement au traitement des expressions polylexicales qui forment des combinaisons de mots avec un certain degré d'idiomaticitéCes expressions sont très fréquentes et extrêmement variéesPar exemple*pomme de terre**prendre en grippe**alors que**en effet**en dépit de*, ..Repérer des expressions polylexicales en contexte constitue un pas essentiel pour l'analyse syntaxique et pour l'analyse sémantiqueet plus généralement pour des applications de traitement automatique des langues comme la traduction automatique Cette proposition de thèse de doctorat se place dans le cadre du projet ANR PARSEME-FR qui vise à intégrer ce type d’expressions au sein d’analyseurs syntaxiques et sémantiques à grande échelle 
-This PhD proposal holds in the framework of the ANR-funded PARSEME-FR project that aims at widely integrating such expressions into syntactic and semantic parsers.+
  
 ----------------- -----------------
-==== Profile ====+==== Profil ====
  
-  * Master in computer science or computational linguistics +  * Master en informatique ou traitement automatique des langues 
-  * Good knowledge of French and Englishanother language would be a plus +  * Bonne connaissance du Français et de l'anglaisune autre langue serait un plus 
-  * Interests in linguistics and familiarity with language technology +  * Intérêt pour la linguistique et compétence en technologie des langues 
-  * Capacity to work independently and as part of a team+  * Capacité à travailler indépendamment et en équipe
  
  
 --------------------- ---------------------
-==== Application ====+==== Candidature ====
  
-Candidates should send the following documents in PDF format, in French or in English, to Mathieu Constant (FirstName.LastName@u-pem.fr) and Marie Candito (FirstName.LastName@linguist.univ-paris-diderot.fr)+Les candidats devront envoyer les pièces suivantes en français ou en anglais, au format pdf à  Mathieu Constant (Prenom.Nom@u-pem.fr) et Marie Candito (Prenom.Nom@linguist.univ-paris-diderot.fr)
   * CV   * CV
-  * Cover letter +  * Lettre de motivation 
-  * Transcript of MSc and BSc grades (translated if not in French or English) +  * Bulletin de notes de la Licence et du Master 
-  * Reference letters would be a plus+  * Lettre de recommandation (serait un plus)
  
 ------------------------------ ------------------------------
-==== Hosting Institutions ====+==== Institutions d'accueil ====
  
-=== Main affiliation ===+=== Affiliation principale ===
  
-  * **Laboratory**: [[http://ligm.u-pem.fr/ | Laboratoire d'Informatique Gaspard-Monge (LIGM)]] +  * **Laboratoire**: [[http://www.atilf.fr/ | ATILF]] 
-  * **University**: [[http://www.u-pem.fr/ | Université Paris-Est Marne-la-vallée]] +  * **Université**: [[http://www.univ-lorraine.fr/ | Université de Lorraine]] 
  
-=== Secondary affiliation ===+=== Affiliation secondaire ===
  
-  * **Laboratory**: [[https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=Alpage%20%E2%80%94%20Homepage | ALPAGE -INRIA]] +  * **Laboratoire**: [[https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=Alpage%20%E2%80%94%20Homepage | ALPAGE -INRIA]] 
-  * **Institutions**: [[ http://www.univ-paris-diderot.fr/sc/site.php?bc=accueil&np=accueil | Université Paris Diderot]] and [[ http://www.inria.fr/centre/paris | INRIA Paris]]+  * **Institutions**: [[ http://www.univ-paris-diderot.fr/sc/site.php?bc=accueil&np=accueil | Université Paris Diderot]] et [[ http://www.inria.fr/centre/paris | INRIA Paris]]
  
 ------------------------------- -------------------------------
-==== Scientific description ====+==== Description scientifique ==== 
 + 
 +Cette thèse consiste à revisiter l’analyse syntaxique et sémantique statistique à l’aune des expressions polylexicales. Plus précisément, elle se placera dans le cadre de l’analyse en dépendances en temps linéaire.
  
-This PhD thesis aims at revisiting statistical syntactic and semantic analysis in the light of multiword expressions. More preciselyit falls within the framework of linear-time dependency parsing.+La prise en compte des expressions polylexicales à grande échelle constitue un défi pour l’analyse linguistique de textes, essentiellement du fait de leur non-compositionnalité, i.e. de l'irrégularitétotale ou partielle, dans la manière dont se composent leurs éléments, que ce soit au niveau lexical, morpho-syntaxique ou sémantique. En outre, il existe un continuum entre expressions entièrement figées (cordon bleu) et expressions presque libres (déficit budgétaire). Une grande majorité des expressions sont en réalité partiellement compositionnelles (rendre visite, vin blanc) nécessitant donc une représentation non-atomique. En préalable, il s’agira donc de mettre au point une nouvelle représentation lexicale, syntaxique et sémantique qui permette un traitement satisfaisant de ce type d’expressions en particulier. Étant donné cette nouvelle représentation, il s'agira ensuite de mettre au point de nouveaux algorithmes d'analyse syntaxique automatique intégrant les expressions polylexicales ainsi représentées. La priorité sera donnée à un système qui réalise conjointement à la fois la reconnaissance des expressions polylexicales et l'analyse syntaxique globale, de manière à ce que les deux tâches puissent s'informer mutuellement. En outre, les expressions polylexicales représentant en général des unités sémantiques, un prolongement naturel d'un tel système joint est de proposer la construction d'un graphe sémantique pour une phrase.
  
-Taking multiword expressions into account is a challenge for automatic text analysis, mainly due to their non-compositionality, i.eto the partial or total irregularity in the way their elements combine at the lexicalmorpho-syntactic and/or semantic levels. Furthermore, there exists a continuum between entirely fixed expressions (piece of cakeand almost free expressions (traffic light)A wide majority of these expressions are actually partially compositional (white winetake a nap) thus requiring a non-atomic representation. The first work will consist in designing a new lexicalsyntactic and semantic representation that would enable a satisfying handling of such expressions. +Le ou les analyseurs développés tenteront de combiner deux caractéristiques souvent antagoniques: rapidité et exactitudePour garantir la meilleure exactitude possibleles systèmes développés pourront s’appuyer sur des techniques d’apprentissage profond (deep learninget sur de larges ressources lexicales afin de favoriser la couverture en expressions polylexicalesL’implantation d’un système jointprédisant les différents niveaux d’analyse simultanémentpeut permettre à l’analyseur de bénéficier d’informations linguistiques plus riches au moment de l’analyseBien que mieux informésles systèmes joints amplifient l’ambiguïté parfois artificiellementUne piste possible est d'ajouter un ensemble de contraintes réduisant l’espace de rechercheEnfinnous souhaiterions que les systèmes proposés garantissent une complexité en temps linéaire ou quasi-linéaire, afin de pouvoir envisager raisonnablement l’analyse de grandes masses de données textuelles.
-Given this new representationthe next step will consist in developing new parsing algorithms integrating MWEs. +
-Priority will be given to a system that jointly performs both MWE identification and syntactic parsing, in such a way both tasks can mutually inform each otherMultiword expressions generally representing semantic unitsa natural extension of this joint system is to develop a system that automatically constructs  a shallow semantic graph for an input sentence.+
  
-The developed parsers should combine two features: speed and accuracyTo reach high accuracyjoint prediction can enable the system to benefit from richer linguistic information at analysis time. Further, the use of deep learning techniques and large-scale MWE resources can be investigated. Yet this sophistication comes at the cost of increased complexity and ambiguity. A possible solution is to add constraints reducing search space. Finally, we wish the proposed solutions to have (quasi-)linear speed complexityin order to reasonably consider parsing big textual data.+Cette thèse s'effectuera en collaboration avec Joakim Nivre (UnivUppsalaSuède), dans le cadre de l'action européenne COST PARSEME.
  
-This thesis will be in collaboration with Joakim Nivre (Univ. Uppsala, Sweden), in the framework of the European COST Action PARSEME. 
  
 ------------------------- -------------------------
-==== Bibliography ====+==== Bibliographie ====
  
  
job-2016-ligm-alpage-phd-fr.1459861678.txt.gz · Last modified: 2016/04/05 15:07 by matthieu.constant