Tokenisation, lemmatisation, étiquetage morpho-syntaxique, etc. - Conférence SEO Campus Lille • Antoine Brisset

Publié le 7 Mar 2016

Le 4 février dernier avait lieu à l'Espace Inkermann une nouvelle édition du SEO Campus Lille. Au programme : un peu de R, de webspam ou encore d'Adwords mais aussi et surtout des échanges très intéressants avec les participants. Pour ma part, j'ai eu le plaisir d'y intervenir pour une conférence sur les pièges à éviter lors de l'analyse sémantique.

L'objectif de la conférence était de faire le point sur les différents pré-traitements à effectuer sur un document ou sur un corpus de documents, avant de pouvoir en retirer des données statistiques actionnables d'un point de vue SEO.

Ces opérations sont en effet le lieu commun de la plupart des analyses sémantiques et se décomposent ainsi :

le parsing du code HTML et l'extraction du contenu textuel
la tokenisation
l'étiquetage morpho-syntaxique
le traitement de la casse
la lemmatisation
l'élimination des stop words
le traitement des caractères accentués

Merci aux personnes présentes pour leur retour sur la conf’ et pour les échanges qui ont suivi. Pour ceux qui n'étaient pas présents, vous pouvez retrouver les slides de la présentation ci-dessous. N'hésitez pas à commenter !

Les pièges à éviter lors de l'analyse sémantique