Descriptif
Attention ce module est une version dupliquée de SD-TSIA 214. Il n'est donc pas possible de le suivre si vous avez déjà suivi ou si vous comptez suivre SD-TSIA 214. ce cours est conçu pour des élèves qui seront présents aux cours et aux tp.
Le traitement automatique des langues est un domaine en pleine expansion. Par exemple, beaucoup d'efforts ont été récemment consacrés au développement de méthodes capables d'analyser les données d'opinion disponibles sur le Web social. Le premier objectif de ce cours est d'aborder les différentes méthodes de traitement de la langue et d'apprentissage automatique sous-jacentes à l'analyse des textes. Au cours de ce cours, les étudiants acquerront des compétences théoriques et techniques sur les méthodes avancées d'apprentissage automatique et le traitement du langage naturel.
Les techniques et concepts qui seront étudiés comprennent:
-processus de langage naturel: tokenisation, marquage de partie de discours, représentation de document et word embeddings
ressources linguistiques : les lexiques, wordnet
-classement de texte et catégorisation de texte: méthodes avancées d'apprentissage automatique telles que les réseaux de neurones, les modèles markov cachés, etc.
Objectifs pédagogiques
Acquis d'apprentissageÀ l'issue de l'UE, l'élève sera capable de:
- Décrire les grandes catégories de tâches du traitement automatique du langage et les catégories de modèles permettant de les résoudre; expliquer les difficultés qui se posent dans la majorité des cas lors de l'application de méthodes d'apprentissage profond.
- Expliquer le développement du paradigme de pré-entraînement des modèles de langue, et leur peaufinage; ainsi que les nouvelles difficultés pratiques, principalement liées au langage, qui sont soulevées.
- Déterminer, pour une tâche données, la démarche à suivre parmi l'utilisation de ressource existantes, l'entraînement ou le peaufinage d'un ou des modèles appropriés, et ceux en ayant à l'esprit les compromis à faire entre coût computationnel, performance, et éventuels biais.
- Mettre en œuvre les principales démarches éprouvées pour les tâches les plus importantes du traitement automatique du langage.
Compétences de rattachement (et justification)
- BC5.2 – Concevoir un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : Dans le choix du type d'approche à suivre pour une nouvelle situation, celle-ci impliquant une tâche de traitement du langage, des ressources (données, annotations, modèles) éventuellement disponibles pour trouver le meilleur compromis possible entre performance et coûts computationnels et humain. Ce choix est loin d'être facile, vu l'éventail des possibilités et le manque de documentation et d'analyse des résultats sur beaucoup d'entre elles, notamment les plus modernes (grands modèles de langues).
- BC5.3 – Structurer, dimensionner un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : Dans le choix des modèles à utiliser pour une tâche, étant donné la quantité de données disponible et la difficulté et le degré de spécialisation requis par cette tâche.
- BC5.4 – Tester, gérer un système de traitement de données, d’intelligence artificielle, d’apprentissage machine dans un objectif d’aide à la décision ou de recherche automatique d’information; Justification : Dans la mise en œuvre de plusieurs démarches d'entraînement et d'utilisation de modèles modernes de traitement automatique du langage.
Diplôme(s) concerné(s)
Parcours de rattachement
Format des notes
Numérique sur 20Littérale/grade européenMots clés
NLP, Language modelsMéthodes pédagogiques
Les concepts clés sont présentés ne cours magistral et mis en application via un TP correspondant, en python.Ressource: Slides + bibliographie et de nombreuses ressources supplémentaires, parmi lesquelles la documentation des modèles, disponibles en ligne.