internships-2018-atilf-m2-1-en

This is an old revision of the document!


Lexicon-to-corpus multiword expression browser

  • Domaine: natural language processing
  • Location: ATILF, Nancy, France
  • Supervisors: Mathieu Constant and Agata Savary
  • Duration: 4 to 6 months
  • Rémunération:
  • Fundig: CNRS

Motivation and context

The proposed internship will take place in the framework of the PARSEME-FR project, which aims at investigating links between multiword expression (MWE) identification and syntactic-semantic analysis. MWEs, such as hot dog, hard disk, kick the bucket, United Nations and pay attention, are groups of words which exhibit unpredicted properties. Most prominently, their meaning does not straightforwardly derive from the meanings of their components. For this reason they pose major challenges to automatic text processing and have to be explicitly described in a lexicon.

One of the objectives of the PARSEME-FR project is to build both a comprehensive MWE lexicon including fine-grained linguistic information and a MWE-annotated corpus in French. One of the most notable outcomes so far is the annotation of the French dataset (Candito et al. 2017) for the PARSEME Shared Task on verbal multiword expression identification (Savary et al. 2017).

The two resources aims not only at being used for natural language applications, such as syntactic and semantic analysis, but also at exploring them for linguistic studies.

Objectifs

L’objectif principal du stage est de développer des outils pour lier et explorer le corpus annoté et le lexique, construits dans le projet PARSEME-FR. Le travail à réaliser comportera les tâches suivantes:

  • étudier les propriétés linguistiques des expressions polylexicales du français, en explorant le lexique des expressions verbales extrait des tables du lexique-grammaires (Gross 1984)
  • développer un outil pour lier automatiquement les expressions verbales annotées et leurs entrées correspondantes dans le lexique, en s’appuyant sur des procédures de normalisation des expressions. Par exemple, les expressions annotées sur corpus Luc a cassé du sucre sur le dos de Paul, du sucre a été cassé sur son dos devront être liée à l’entrée casser du sucre sur le dos [de] du lexique.
  • développer une interface web avec l’objectif de chercher des expressions annotées via des filtres multicritères et visualiser leur description linguistique arborescente
  • éventuellement, étendre le travail à toutes les expressions polylexicales, ce qui impliquera la conversion automatique d’un dictionnaire existant de composés nominaux, adjectivaux et adverbiaux dans le format arborescent PARSEME-FR, en particulier en utilisant les informations syntaxiques fournies dans le corpus annoté.

Références

Marie Candito, Mathieu Constant, Carlos Ramisch, Agata Savary, Yannick Parmentier, Caroline Pasquer, and Jean-Yves Antoine. Annotation d’expressions polylexicales verbales en français. In Jean-Yves Antoine Iris Eshkol, editor, 24e conférence sur le Traitement Automatique des Langues Naturelles (TALN), Actes de TALN, volume 2 : articles courts, pages 1–9, Orléans, France, 06 2017.

Maurice Gross. Lexicon-grammar and the syntactic analysis of French. In Proc. of COLING-ACL 1964, pages 275–282, Stanford, CA, 1984. Association for Computational Linguistics.

Agata Savary, Carlos Ramisch, Silvio Cordeiro, Federico Sangati, Veronika Vincze, Behrang QasemiZadeh, Marie Candito, Fabienne Cap, Voula Giouli, Ivelina Stoyanova, and Antoine Doucet. The PARSEME shared task on automatic identification of verbal multiword expressions. In Proc. of EACL 2017 Workshop on MWEs, pages 31–47, Valencia, April 2017.


Candidater

Profil du candidat:

  • Master ou équivalent en traitement automatique des langues ou en informatique en priorité (mais la liste n’est pas fermée)
  • Compétences: bonne maîtrise de la programmation, notamment la programmation en python et la programmation web. Goût pour la linguistique.

Procédure de candidature:

  • Les candidatures doivent être envoyées par mail à Mathieu.Constant@univ-lorraine.fr. Le dossier de candidature contiendra un cv, une lettre de motivation, et, éventuellement, la recommandation d'un enseignant.
  • Date limite de candidature: 15 janvier 2018 (ou jusqu’à ce ce que le poste soit pourvu)
internships-2018-atilf-m2-1-en.1511355994.txt.gz · Last modified: 2017/11/22 14:06 by agata.savary

Page Tools