User Tools

Site Tools

Agence Nationale de la Recherche

internships-2016-lif-m2-1

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Next revision
Previous revision
internships-2016-lif-m2-1 [2015/12/29 11:47]
carlos.ramisch created
internships-2016-lif-m2-1 [2016/02/18 16:09] (current)
carlos.ramisch
Line 1: Line 1:
-====== Developing a generic tool for multiword expressions tagging ======+====== Developing a generic software for multiword expressions tagging ====== 
 + 
 +====POSITION FULFILLED====
  
   * **Field:** natural language processing   * **Field:** natural language processing
Line 13: Line 15:
 En traitement automatique des langues, nous cherchons à retrouver automatiquement la structure sous-jacente des énoncés (parties du discours, arbre syntaxique, structure prédicative, etc.) pour ensuite en extraire et générer des informations pertinentes de plus haut niveau (sentiments, événements, traductions, résumés, etc). Ce stage se concentre sur la première étape : la segmentation et la reconstruction de la structure syntaxique du texte.  En traitement automatique des langues, nous cherchons à retrouver automatiquement la structure sous-jacente des énoncés (parties du discours, arbre syntaxique, structure prédicative, etc.) pour ensuite en extraire et générer des informations pertinentes de plus haut niveau (sentiments, événements, traductions, résumés, etc). Ce stage se concentre sur la première étape : la segmentation et la reconstruction de la structure syntaxique du texte. 
  
-Un des grands défis des systèmes d'analyse morpho-syntaxique actuels est l'identification et étiquetage des *expressions polylexicales*. Ces expressions sont très fréquentes et souvent idiomatiques, par exemple, //bouc émissaire//, //prendre en main//, //bien que//, //en fait//, //par rapport à//, ... Elles posent de sérieux problèmes pour les applications comme l'extraction d'informations et la traduction automatique. +Un des grands défis des systèmes d'analyse morpho-syntaxique actuels est l'identification et étiquetage des **expressions polylexicales**. Ces expressions sont très fréquentes et souvent idiomatiques, par exemple, //bouc émissaire//, //prendre en main//, //bien que//, //en fait//, //par rapport à//, ... Elles posent de sérieux problèmes pour les applications comme l'extraction d'informations et la traduction automatique. 
  
 "//Bien que// les expressions polylexicales soient très fréquentes dans la langue, nous savons //bien que// leur identification automatique est un vrai casse-tête". La phrase précédente contient deux fois la séquence de mots //bien que//, mais uniquement la première occurrence est une expression. Distinguer l'expression de la cooccurrence accidentelle est un vrai défi qui requiert des modèles sophistiques de haut niveau sur le contexte de l'expression dans la phrase. "//Bien que// les expressions polylexicales soient très fréquentes dans la langue, nous savons //bien que// leur identification automatique est un vrai casse-tête". La phrase précédente contient deux fois la séquence de mots //bien que//, mais uniquement la première occurrence est une expression. Distinguer l'expression de la cooccurrence accidentelle est un vrai défi qui requiert des modèles sophistiques de haut niveau sur le contexte de l'expression dans la phrase.
Line 28: Line 30:
 Le stagiaire recruté sera amené à collaborer avec des chercheurs du LIF et d'autres membres du projet PARSEME-FR. Le stagiaire recruté sera amené à collaborer avec des chercheurs du LIF et d'autres membres du projet PARSEME-FR.
  
 +------------------------------
 +===== Further reading =====
 +
 +  * [[http://www.lattice.cnrs.fr/sites/itellier/articles/constant-tellier-lrec2012.pdf|Evaluating the Impact of External Lexical Resources into a CRF-based Multiword Segmenter and Part-of-Speech Tagger]]
 +  * [[https://www.aclweb.org/anthology/P/P14/P14-1070.pdf|Strategies for Contiguous Multiword Expression Analysis and Dependency Parsing]]
 +  * [[http://aclweb.org/anthology/Q/Q14/Q14-1016.pdf|Discriminative Lexical Semantic Segmentation with Gaps: Running the MWE Gamut]]
 +  * [[https://aclweb.org/anthology/P/P15/P15-1108.pdf|Joint Dependency Parsing and Multiword Expression Tokenisation]]
 +  * [[ http://www.aclweb.org/anthology/R11-1040.pdf | Multiword Expressions and Named Entities in the Wiki50 Corpus ]]
 ------------------------------ ------------------------------
 ===== Application ===== ===== Application =====
Line 36: Line 46:
  
 Les candidatures doivent être envoyées par mail à Carlos Ramisch par mail [[Prenom.Nom@lif.univ-mrs.fr]].  Les candidatures doivent être envoyées par mail à Carlos Ramisch par mail [[Prenom.Nom@lif.univ-mrs.fr]]. 
- 
internships-2016-lif-m2-1.1451386062.txt.gz · Last modified: 2015/12/29 11:47 by carlos.ramisch