Journée « Traitement Automatique des Langues & I.A. »

 

Journée commune AFIA - ATALA - vendredi 6 juillet 2018

Association française pour l'ntelligence artificielle
Association pour le traitement automatique des langues

L'inscription à la journée est offerte par l'ATALA à ses membres (sous conditions - voir ci-dessous)

Programme

Horaires Description
08h30-09h30 Conférence plénière invitée: Nicola Guarino (CNR)- 25 Years of Applied Ontology and Ontological Analysis: an Interdisciplinary Endeavour - [Amphithéâtre 8]
09h30-09h45 Pause-café
9H45-10H Ouverture
  Introduction à la journée. Didier Schwab et Pierre Zweigenbaum.
  Présentation de l' AFIA. Yves Demazeau, président de l' AFIA.
  Présentation de l' ATALA. Patrick Paroubek, président de l' ATALA.

10H-11h45
Session 1
  Conférencière invitée - Chloé Braud (CNRS, Loria, Nancy) Plongements lexicaux pour l’analyse discursive automatique
  Frédéric Landragin et Bruno Oberle - Identification automatique de chaînes de coréférences : vers une analyse des erreurs pour mieux cibler l'apprentissage
  Mathieu Lafourcade and Alain Joubert - Production endogène de règles déductives dans le réseau JDM
11h45-13h30 Pause repas

13h30-15h00
Session 2
  Conférencier invité – Alexandre Allauzen (Université Paris Sud, Limsi, Orsay) Modèles de langue neuronaux à grand vocabulaire
  Emmanuelle Esperança-Rodier et Nicolas Becker - Comparaison de systèmes de traduction automatique, probabiliste et neuronal, par analyse d'erreurs.
15h00-15h30 Pause-café

15h30-16h30
Session 3
  Ahmed Mabrouk, Rim Hantach et Philippe Calvez - An Efficient Semantic Graph-Based Approach for Text Representation
  Marco Dinarelli et Loïc Grobol - Modélisation d'un contexte global d'étiquettes pour l'étiquetage de séquences dans les réseaux neuronaux récurrents

16h30-16h40
Cloture
  TAL et IA : la suite. Didier Schwab et Pierre Zweigenbaum.

Résumés & Articles

Plongements lexicaux pour l’analyse discursive automatique 
Chloé Braud (CNRS, Loria, Nancy)

L’analyse discursive correspond à l’identification de liens sémantiques entre des groupes de mots, phrases ou propositions. C’est une tâche complexe, car cette identification repose sur de nombreuses informations : sémantique lexicale, syntaxe, temporalité, connaissances du monde etc Par ailleurs, il faut prendre en compte l’interaction entre les segments textuels à lier. Nous présenterons d’abord une étude montrant que l’utilisation de plongements lexicaux – des représentations denses pré-entraînées sur de larges jeux de données – permettent d’atteindre des performances similaires aux études précédentes fondées sur l’utilisation de multiples ressources [Braud and Denis 2015]. Le défaut de ses représentations, c’est qu’elles n’ont pas été construites spécifiquement pour la tâche : des expériences ultérieures montrent qu’il est probablement crucial d’adapter ces représentations à la tâche [Braud and Denis 2016]. Nous conclurons sur les difficultés actuelles en présentant un système d’analyse discursive cross-lingue pour lequel les plongements lexicaux utilisés ne conduisent pas aux meilleures performances.

Identification automatique de chaînes de coréférences : vers une analyse des erreurs pour mieux cibler l’apprentissage Talia-Langadrin_Oberle
Frédéric Landragin et Bruno Oberle

Nous présentons une étude qualitative préliminaire concernant l’analyse linguistique des erreurs commises par des systèmes de détection automatique de chaînes de coréférences. Nous soulignons plusieurs cas de bruit et de silence, caractérisés par des gravités différentes, ainsi que des types d’erreurs spécifiques, notamment la construction de chaînes « fourre-tout » regroupant des expressions référentielles inexploitées par ailleurs. Dans le but de définir une méthodologie généralisable, nous proposons une première typologie d’erreurs et quelques pistes de réflexion pour leur prise en compte à terme dans les processus d’apprentissage, ce qui passe par des considérations sur les types d’hybridation à envisager pour ces processus.

Production endogène de règles déductives dans le réseau JDM Talia-Lafourcade_Joubert
Mathieu Lafourcade and Alain Joubert

À partir d’un réseau lexico-sémantique, il est possible de générer des règles de façon inductive à partir des faits présents. Ces règles permettent de densifier le réseau et d’en réduire les silences. Afin de minimiser l’émergence de relations qui pourraient être erronées, la question de la polysémie est abordée et un filtrage sur les règles présentant des exceptions est réalisé.

Modèles de langue neuronaux à grand vocabulaire 
Alexandre Allauzen (Université Paris Sud, Limsi, Orsay)

Ces dernières décennies, les réseaux de neurones artificiels et plus généralement l'apprentissage profond ont renouvelé les perspectives de recherche en traitement automatique des langues (TAL). Certaines applications, comme la traduction automatique et la reconnaissance automatique de la parole, nécessitent la conception de modèles capables d'engendrer des phrases. Du point de vue de l'apprentissage automatique, l'enjeu est alors de modéliser des séquences de mots ou de symboles qui se caractérisent par des distributions particulières, parcimonieuses et impliquant un espace de réalisation, le vocabulaire, de grande dimension.
Or, malgré les avancées récentes dans ce domaine, si les modèles neuronaux sont considérés comme "universels" dans leur conception, la diversité des langues implique une réalité bien différente. Selon les langues et leurs processus morphologiques, la dimension des vocabulaires et la notion de mot diffèrent grandement et altèrent la pertinence des modèles d'apprentissage considérés pourtant comme état de l'art. Ainsi, la manipulation efficace de vocabulaire de grande taille reste un défi.
Cet exposé aborde ce défi en s'intéressant aux architectures et aux critères d'apprentissage dédiés qui permettent d'appréhender et de mieux modéliser ce phénomène typique des langues naturelles.

Comparaison de systèmes de traduction automatique, probabiliste et neuronal, par analyse d'erreurs Talia-Esperança-Rodier_Becker
Emmanuelle Esperança-Rodier et Nicolas Becker

Cet article présente les travaux d'analyse d'erreurs de 2 systèmes de TA maison, l'un probabiliste et l'autre neuronal. Après une description du corpus et des systèmes, nous analysons les deux systèmes en fonction d'une typologie d'erreurs en nous arrêtant sur quelques exemples de phrases pour lesquelles les deux systèmes ont effectué le même type d'erreurs.

An Efficient Semantic Graph-Based Approach for Text Representation Talia-Mabrouk_et_al
Ahmed Mabrouk, Rim Hantach et Philippe Calvez

La représentation des documents est l’une des principaux problèmes dans le domaine de l’analyse des textes tels que l’extraction des thèmes et la similarité entre les textes. L’approche standard comme la représentation par sac de mots ne permet pas de représenter les liens sémantiques entre les termes. Afin de surmonter cette limitation, nous introduisons une nouvelle approche basée sur l’utilisation conjointe du graphe de co-occurrence et d’un réseau sémantique de la langue anglaise appelé Wordnet. Pour ce faire, un algorithme de désambiguïsation du sens des mots a été utilisé dans le but d’établir les liens sémantiques entre les termes étant donné le contexte sous-jacent. Les expérimentations réalisées sur des bases de données standards prouvent une bonne performance de l’approche proposée.

Modélisation d'un contexte global d'étiquettes pour l'étiquetage de séquences dans les réseaux neuronaux récurrents Talia-Dinarelli-Grobol
Marco Dinarelli et Loïc Grobol

Depuis quelques années, les réseaux neuronaux récurrents ont atteint des performances à l’état-de-l’art sur la plupart des problèmes de traitement de séquences. Notamment les modèles sequence to sequence et les CRF neuronaux se sont montrés particulièrement efficaces pour ce genre de problèmes. Dans cet article, nous proposons un réseau neuronal alternatif pour le même type de problèmes, basé sur l’utilisation de plongements d’étiquettes et sur des réseaux à mémoire, qui permettent la prise en compte de contextes arbitrairement longs. Nous comparons nos modèles avec la littérature, nos résultats dépassent souvent l’état-de-l’art, et ils en sont proches dans tous les cas. Nos solutions restent toutefois plus simples que les meilleurs modèles de la littérature.

Invitation de l'ATALA

L'ATALA offre 40 bourses à ses membres pour s'inscrire à la journée "TAL & IA"
co-organisée par Pierre Zweigenbaum <pz@limsi.fr> et Didier Schwab
<didier.schwab@univ-grenoble-alpes.fr>, à Nancy le vendredi 6 juillet 2018,
dans le cadre de la Plate-forme Intelligence Artificielle PFIA2018.

Le montant de chaque bourse est d'un montant maximum de 90€ TTC, cela correspond
au tarif préférentiel (avant le 08/06/2018) d'inscription à la journée pour
les membres de l'ATALA qui ne sont ni membres de l'AFIA ni étudiant. Si vous êtes
étudiant, retraité ou membre de l'AFIA un tarif de 54€ TTC ou 66€ TTC s'applique
(avant le 08/06/2018) en fonction de votre status
(http://pfia2018.loria.fr/inscriptions). L'inscription à la journée comprend
outre l'accès aux conférences, les pauses café ainsi que la pause déjeûner.

Pour bénéficier de cette bourse, merci d'envoyer par courrier éléctronique une
demande à Didier schwab <didier.schwab@imag.fr> , en précisant dans le titre
"BOURSE ATLA PFIA2018" et en indiquant dans le message votre type d'inscription
parmi: étudiant, retraité, membre AFIA, autre.

Notez que la procédure de remboursement dépend de l'identité portée sur votre
justificatif de paiement. Si vous avez avancé sur vos fonds propres le montant
de l'inscription, l'ATALA vous remboursera directement sur présentation du
justificatif de paiement; si c'est votre institution d'appartenance qui a réglé
l'inscription, il faudra communiquer à l'ATALA les informations lui permettant
d'émettre un bon de commande à destination de cette institution, qui ensuite
établiera une facture à l'ordre de l'ATALA. Ceci est nécessaire pour être en
accord avec la loi et rendu possible grace aux efforts des trésoriers
de l'ATALA Thierry Charnois et Solen Quiniou, merci à eux.

Si vous n'êtes pas membre de l'ATALA, vous pouvez vous inscrire en ligne
à l'URL http://www.atala.org/adhesion. Une fois votre demande faite, vous
recevrez après vérification manuelle de la part de Damien Nouvel ou de
Solen Quiniou, un email de confirmation avec votre numéro d'adhérent,
cette étape est requise pour filtrer les tentatives d'inscription provenant
de robots.

Rappels:
Journée TAL& IA: http://pfia2018.loria.fr/journee-tal/
PFIA208: http://pfia2018.loria.fr/
Inscriptions PFIA2018: http://pfia2018.loria.fr/inscriptions/
Adhésion à l'ATALA: http://www.atala.org/adhesion
Adhésion à l'AFIA: https://adherer.afia.asso.fr/

En bref

  1. Il s’agit d’une occasion unique pour rencontrer des chercheurs issus de nos deux communautés
  2. Si le français est privilégié, l’article peut-être écrit en anglais si l'un des co-auteur n’est pas francophone
  3. Les articles seront en libre accès dans la série CEUR (http://ceur-ws.org/) qui donne plus de visibilité grâce à un ISSN et une indexation dans DBLP

Organisation

Pierre Zweigenbaum (pz@limsi.fr)
Didier Schwab (didier.schwab@univ-grenoble-alpes.fr)

Présentation

Le traitement automatique des langues est un thème important de l'intelligence artificielle : la langue est au cœur de la communication humaine et est un véhicule privilégié d'enregistrement et de transmission d'information, de connaissance et de culture. Compréhension et production de langue, dialogue en langue naturelle, traduction, extraction d'information et réponse à des questions sont des exemples de fonctions et d'applications auxquelles s'attaque le traitement automatique des langues. Il mobilise lui-même divers champs de l'intelligence artificielle, comme l'apprentissage automatique et la représentation des connaissances, et joue un rôle clé dans l'acquisition de connaissances à partir de textes.
Ces dernières années ont vu l'émergence des réseaux de neurones profonds qui sont aujourd’hui intensivement utilisées dans le traitement automatique des langues. Après un saut qualitatif notable pour des tâches centrales comme par exemple la traduction automatique, ces réseaux ont montré certaines de leurs limites. On sait par exemple qu’il n’est pas facile de comprendre comment un résultat a été obtenu, que la qualité des résultats est souvent moins bonne qu’avec les méthodes classiques lorsque moins de données sont disponibles.
Cette journée vise ainsi à faire le point sur les méthodes actuellement employées en IA & TAL, notamment les travaux en cours sur les réseaux profonds et représentations continues de mots, leurs limites et les recherches entreprises pour les pallier.

Thèmes (non exhaustifs)

  • Approches du TAL inspirées de l’IA
  • Apport du TAL à des méthodes de l'IA
  • Analyse des résultats des réseaux neuronaux
  • Limites des réseaux de neurones profonds
  • Comparaison des approches classiques et réseaux neuronaux
  • Approches hybrides

Dates importantes

  • Réception des articles : 23 avril 2018
  • Notification aux auteurs : 15 mai 2018
  • Réception des textes définitifs : 6 juin 2018
  • Dates & lieu de la journée : à Nancy le 6 juillet 2018

Actes de la journée

Nous prévoyons de publier les actes en libre accès dans la série CEUR (http://ceur-ws.org/) qui donne plus de visibilité grâce à un ISSN et une indexation dans DBLP.

Modalités de soumission

Les articles seront rédigés en français ou en anglais (dès lors qu’un co-auteur n’est pas francophone). Les articles doivent faire de 6 à 8 pages (hors références).
Une feuille de style LaTeX, un modèle Word et un modèle Libre/OpenOffice sont disponibles (style_talia2018).
La soumission se fait en ligne sur EasyChair.

Comité de programme

Massih-Reza Amini, Univ. Grenoble Alpes, AMA-LIG, Grenoble
Marianna Apidianaki, CNRS, LIMSI, Orsay
Loic Barrault, Le Mans Université, LIUM, Le Mans
Nicolas Béchet Université de Bretagne-Sud, IRISA, Vannes
Chloé Braud, CNRS, LORIA, Nancy
Nathalie Camelin, Le Mans Université, LIUM, Le Mans
Christophe Cerisara, CNRS, LORIA, Nancy
Thierry Charnois, Université Paris-Nord, LIPN, Villetaneuse
Benoit Crabbé, Université Paris Diderot, LLF, Paris
Benoit Favre, Université d'Aix-Marseille, LIS, Marseille
Olivier Ferret, CEA LIST, Gif-sur-Yvette
Bassam Jabaian Université d’Avignon, LIA, Avignon
Mathieu Lafourcade Université de Montpellier, Lirmm, Montpellier
Thomas Lavergne, Université Paris-Sud, LIMSI, Orsay
Benjamin Lecouteux Univ. Grenoble Alpes, GETALP-LIG, Grenoble
Claire Lemaire Univ. Grenoble Alpes, GETALP-LIG, Grenoble
Solen Quiniou Université de Nantes, LS2N, Nantes
Christian Raymond, INSA Rennes, IRISA, Rennes
Christophe Servan Qwant Research, Paris
Andon Tchechmedjiev Université de Montpellier, Lirmm, Montpellier
Nadi Tomeh, Université Paris-Nord, LIPN, Villetaneuse
Tim Van de Cruys, CNRS, IRIT, Toulouse
Cassia Trojahn,  Université Toulouse-Jean-Jaurès, IRIT, Toulouse