Cours #5
Présentation Professeur

Monsieur LAKEL Amar, occupe actuellement le poste de chercheur dans la donnée dans le domaine du marketing digital, travaillant au sein du laboratoire MICA, ainsi que du groupe E3D données. Pour venir en complément, il est aussi maitre de conférence et professeur à l’université Bordeaux Montaigne dans la branche de « Sciences de l’Information et de la Communication ».
Précédemment dans son parcours professionnel, il a pu tenir le poste d’ingénieur et consultant dans le marketing digital, pour aider les entreprises à réaliser les transitions stratégiques concernant le numérique. Une poursuite vers le milieu de l’éducation en devenant professeur adjoint à l’université de Brown aux États-Unis. Puis une expérience en tant que conseiller spécial pour les Nations Unies en collaboration avec l’état Français. Et enfin débuter ces débuts dans la recherche pour la « Fondation Maison des Sciences de l’Homme » (FMSH) sur le projet Vox Internet.
Introduction
Monsieur LAKEL Amar, nous a enseigné les bases de l’analyse des données sur le web à travers le module « Analyse des données », en nous parlant de la théorie puis de la pratique avec l’utilisation de différents outils, que je vais présenter.
Qu'est-ce que l'analyse des données ?
Le numérique à une place importante dans notre quotidien, ce qui amène vers un volume immense de données partagées sur le web, qui ne fait qu’augmenter d’année en année. Toutes ces données sont essentielles pour comprendre les intérêts de la société, ainsi que pour prendre des décisions, cela concerne la majorité des domaines.
C’est ainsi, que l’analyse de la donnée ou dit le Big Data est né. Pour expliquer simplement le déroulement d’un processus d’analyse de données, on débute par la récupération, le trie, la visualisation et enfin la prise de décision. Dans le milieu universitaire, il se voit très intéressant pour effectuer de la recherche.
Pour retrouver des explications plus en profondeur sur le Big Data et les métiers et compétences à acquérir, vous pouvez vous référer sur cet article.
De la théorie à la pratique
À la suite de la théorie vient logiquement la pratique en découvrant et maniant des outils. Nous allons reprendre les 4 grands points cités précédemment correspondant à un processus d’analyse de donnée suivi durant le module avec :
- Récupérer
- Trier
- Visualiser
- Prendre des décisions
Récupérer
Comme son nom peut l’indiquer, cette partie consiste à récupérer des données en grande quantité sur le web. On appelle également cela, le « crawl ». Pour cela plusieurs outils sont indispensable.
MyWebIntelligence :
MyWebIntelligence est un projet OpenSource produit par le laboratoire MICA. Il se compose de plusieurs outils qui vont nous donner la possibilité d’effectuer le crawl sur le web par rapport à des mots-clés précis à travers les sites choisit et récupéré via leurs adresses URL sur le moteur de recherche Google. Les outils qui figure dans ce projet sont MyWebIntelligencePython ou MyWebClient.
MyWebIntelligencePython :
MyWebClient :
Concernant MyWebClient, c’est une interface web donnant à l’utilisateur la capacité de trier brièvement le contenu récupéré du crawler, en les nettoyant ou les classant.
Docker :
Docker équivaut globalement à une machine virtuelle bien plus légères, grâce à l’emploi de conteneur qui isole une application et ses dépendances.
Pourquoi son utilisation dans notre cas :
Son emploi est essentiel pour le stockage des données récupérés, mais ce n’est pas tout. Il va permettre d’appliquer un environnement propre et commun sur tous les ordinateurs des élèves de la classe, évitant les problèmes quelconques par rapport aux environnements se trouvant dans chaque ordinateur.
À partir d’ici, il est temps de passer à l’action et de pratiquer.
1
Tout d’abord, il faut installer et configurer les différents outils que nous allons utiliser (Git, Docker, MyWebIntelligencePython, MyWebClient).
2
Ensuite les différents processus pour effectuer le crawl (MyWebIntelligencePython).
3
Et enfin, le nettoyage et l’enrichissement des données en taggant, et mettant en forme les différents corpus (MyWebClient).
1
Tout d’abord, il faut installer et configurer les différents outils que nous allons utiliser (Git, Docker, MyWebIntelligencePython, MyWebClient).
2
Ensuite les différents processus pour effectuer le crawl (MyWebIntelligencePython).
3
Et enfin, le nettoyage et l’enrichissement des données en taggant, et mettant en forme les différents corpus (MyWebClient).
Trier
En ce qui concerne le trie, il se fera plus en profondeur avec l’environnement de développement RStudio permettant d’utiliser le langage de programmation R d’une façon plus intuitive et simple. Il s’emploie pour du traitement de données et de l’analyse statistique, parfait dans notre cas pour le traitement de nos corpus de texte. Les données récupérées seront ajoutés sur un Google SpreadSheet, qui offre la possibilité de manipuler les données en temps réel avec RStudio.
Pour que vous puissiez visualiser à quoi ressemble la pratique de RStudio, voici une vidéo d’introduction complète. Vous pouvez également retrouver un document sous format PDF créé lors du second semestre reprenant les formules que nous avons utilisées.
Visualiser
À propos de la visualisation, elle permet de représenter graphiquement les données récupéré et trier précédemment pour les rendre compréhensible et accessible a quiconque. Pour réaliser cette étape, deux outils se proposent à nous, Public Tableau ou Microsoft Power BI. Plus tard lorsque nous pratiquerons cette étape, nous privilégierions Public Tableau, plus puissant, ainsi qu’offrant des fonctionnalités exclusives.
Comme pour le trie, nous n’avons pas pu développer cette partie, pour imager l’utilisation de l’outil, voici une vidéo expliquant le concept et les bases de celui ci.
Prendre des décisions

Cette étape de prise de décision va venir conclure le processus d’analyse de données, en utilisant la visualisation proposée précédemment, ce qui va donner la possibilité de choisir la stratégie ou la direction que veut prendre par exemple un chercheur sur un sujet de recherche ou une entreprise sur son évolution.