Publié le 7 Mar 2016
Le 4 février dernier avait lieu à l'Espace Inkermann une nouvelle édition du SEO Campus Lille. Au programme : un peu de R, de webspam ou encore d'Adwords mais aussi et surtout des échanges très intéressants avec les participants. Pour ma part, j'ai eu le plaisir d'y intervenir pour une conférence sur les pièges à éviter lors de l'analyse sémantique.
L'objectif de la conférence était de faire le point sur les différents pré-traitements à effectuer sur un document ou sur un corpus de documents, avant de pouvoir en retirer des données statistiques actionnables d'un point de vue SEO.
Ces opérations sont en effet le lieu commun de la plupart des analyses sémantiques et se décomposent ainsi :
- le parsing du code HTML et l'extraction du contenu textuel
- la tokenisation
- l'étiquetage morpho-syntaxique
- le traitement de la casse
- la lemmatisation
- l'élimination des stop words
- le traitement des caractères accentués
Merci aux personnes présentes pour leur retour sur la conf’ et pour les échanges qui ont suivi. Pour ceux qui n'étaient pas présents, vous pouvez retrouver les slides de la présentation ci-dessous. N'hésitez pas à commenter !
comments powered by Disqus