This shows you the differences between two versions of the page.
— |
internships-2018-atilf-m2-2 [2017/11/20 22:54] (current) matthieu.constant created |
||
---|---|---|---|
Line 1: | Line 1: | ||
+ | ====== | ||
+ | |||
+ | * **Domaine: | ||
+ | * **Lieu du stage:** [[http:// | ||
+ | * **Encadrants: | ||
+ | * **Durée du stage:** 4 à 6 mois | ||
+ | * **Rémunération: | ||
+ | * **Financement: | ||
+ | |||
+ | ----------------- | ||
+ | |||
+ | |||
+ | ===== Contexte du stage ===== | ||
+ | |||
+ | [[http:// | ||
+ | |||
+ | Par ailleurs, le projet ANR PARSEME-FR coordonné par l’ATILF étudie les liens entre expressions polylexicales et analyse syntaxique et sémantique. En particulier, | ||
+ | |||
+ | L’objectif de ce stage est de développer des méthodes faiblement supervisées d’étiquetage sémantique reposant sur des graphes sémantiques, | ||
+ | Si l’on considère un ensemble d’expressions polylexicales candidates dans une phrase en entrée, identifier les expressions polylexicales de la phrase consiste à déterminer si les expressions candidates ont un sens compositionnel ou pas. Pour résumer, les deux tâches consistent à faire un étiquetage sémantique gros grain. Dans cette approche, les dictionnaires sont représentés comme des graphes sémantiques et des algorithmes random walk sont utilisés pour activer les bonnes analyses (lemme et segmentation lexicale) parmi les analyses possibles décrites dans le dictionnaire. | ||
+ | |||
+ | |||
+ | ===== Objectifs ===== | ||
+ | |||
+ | L’objectif du stage est d’appliquer diverses techniques d’étiquetage sémantique reposant sur des graphes, à la lemmatisation et à l’identification d’expressions polylexicales, | ||
+ | - Lecture des principales références bibliographiques sur l’étiquetage sémantique à base de graphes ; | ||
+ | - Construction d’un graphe sémantique à partir de plusieurs dictionnaires et éventuellement depuis des corpus ; | ||
+ | - Implémentation de l’algorithme de Lesk algorithm (Lesk 1986), afin de s’en servir comme point de comparaison ; | ||
+ | - Implémentation de plusieurs techniques à base de graphes comme le PageRank personnalisé (Agirre et al 2014) ; | ||
+ | - Évaluation sur des données d’évaluation existantes pour la lemmatisation et l’identification des expressions polylexicales | ||
+ | |||
+ | |||
+ | |||
+ | ===== Références ==== | ||
+ | |||
+ | Eneko Agirre, Oier López de Lacalle, and Aitor Soroa. Random walks for knowledge-based word sense disambiguation. Comput. Linguist., 40(1): | ||
+ | |||
+ | Hazem Al Saied, Marie Candito, and Matthieu Constant. The atilf-llf system for parseme shared task: a transition-based verbal multiword expression tagger. In Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017), pages 127–132, Valencia, Spain, April 2017. Association for Computational Linguistics. | ||
+ | |||
+ | Michael Lesk. Automatic sense disambiguation using machine readable dictionaries: | ||
+ | |||
+ | Manon Scholivet and Carlos Ramisch. Identification of ambiguous multiword expressions using sequence models and lexical resources. In Proceedings of the 13th Workshop on Multiword Expressions (MWE 2017), pages 167–175, Valencia, Spain, April 2017. Association for Computational Linguistics. | ||
+ | |||
+ | |||
+ | ------------------------------ | ||
+ | ===== Candidater ===== | ||
+ | |||
+ | |||
+ | **Profil du candidat: | ||
+ | * Master 2 ou école d’informatique, | ||
+ | * **Compétences**: | ||
+ | |||
+ | |||
+ | |||
+ | **Procédure de candidature: | ||
+ | |||
+ | * Les candidatures doivent être envoyées par mail à Mathieu.Constant@univ-lorraine.fr. Le dossier de candidature contiendra un cv, une lettre de motivation, et, éventuellement, | ||
+ | * **Date limite de candidature: | ||
+ | |||
+ | |||