Site icon Anakeyn

Web Marketeurs ! et si nous passions à R et Python ?

Curieusement, alors que le Web Marketing se nourrit de nombreuses données en provenance de nombreuses sources : Google Analytics, FaceBook, Twitter, Trends, Adwords… Très peu d’entre nous utilisent des outils d’analyses statistiques, d’analyse prédictive ou tout simplement des outils de visualisations de données dédiés.

Le plus souvent nous nous contentons des outils disponibles auprès des fournisseurs de sources de données. Ou encore de quelques graphiques travaillés avec Excel.

Il semblerait que le Web Marketing n’ait pas encore rencontré le Big Data et l’Intelligence Artificielle !!!

Univers du Big Data et de l’IA

Pour planter le décor voici un tableau qui répertorie les outils les plus connus du Big Data et de l’Intelligence Artificielle. (Source Matt Turck Big Data 2017).

Je vous laisse quelques instants pour compulser ce tableau. 🙂

Oups ! Mais par quoi commencer ?

Si vous êtes un indépendant ou travaillez dans une petite entreprise comme nombre de Web Marketeurs, je ne saurais trop vous conseiller de vous intéresser aux outils Open Source. Remarque : Encadré vert sur le tableau de Matt Turck.

En général les licences sont gratuites et il existe des communautés d’utilisateurs qui pourront vous aider.

Parmi les outils statistiques, 2 sont généralement plébiscités par la profession pour démarrer dans les sciences de données : Le Logiciel R et maintenant le langage Python.

(Source Etude KDNuggets auprès de professionnels des sciences de données – 2900 en 2017.

Qu’est-ce que R ?

R est un langage dédié aux statistiques et aux sciences de données. R est un logiciel libre que vous pouvez télécharger sur ce site https://cran.r-project.org/

R est un langage interprété et est accessible via une « interface en ligne de commande ». Ceci n’est pas très facile d’accès pour les débutants.

C’est pourquoi nous vous conseillons de télécharger et d’installer aussi le logiciel RStudio ici : https://www.rstudio.com/products/rstudio/download/. RStudio est un environnement de développement qui vous facilitera la tâche dans la création et la gestion de vos applications.

R a été développé avec le concours de nombreux mathématiciens, statisticiens et scientifiques et dispose de ce fait de nombreuses bibliothèques. On dénombre à ce jour 11818 packages sur le site du « CRAN » (Comprehensive R Archive Network). Ces bibliothèques comportent de nombreux outils statistiques, de manipulations et de visualisations. Celles-ci vous aideront dans l’analyse de vos données sans que vous soyez mathématicien vous-même.

Qu’est-ce que Python ?

Python est un langage de programmation orienté objet interprété généraliste. Comme R, Python est aussi un logiciel libre. Python est aujourd’hui un langage très populaire auprès des programmeurs car il est réputé bien construit avec une syntaxe claire, ce qui facilite son apprentissage. Par ailleurs, comme R, Python est un langage qui permet l’utilisation de bibliothèques ce qui fait qu’il est utilisé dans de nombreux contextes.

Dans le domaine des sciences de données, de nombreux packages ont été développés.  Les plus connus sont NumPy, SciPy, MatplotLib, scikit-learn. Ils facilitent la manipulation de vecteurs, de matrices, la mise en œuvre de techniques de statistiques inférentielles, la visualisation de données ou encore le machine learning.

Comme pour R nous vous conseillons d’utiliser un environnement de développement. Vous trouverez ici un comparatif d’environnements de développement Python pour les Sciences de Données réalisé par DataCamp (en anglais).

Pour notre part, nous avons choisi Rodeo . C’est celui qui nous semblait le plus proche de RStudio en terme d’interface, ce qui nous facilitait la prise en main. Mais nous n’avons pas d’avis tranché à ce sujet.*

*Finalement nous avons aussi opté pour Spyder, l’environnement de développement fourni par défaut avec Anaconda.  Anaconda se présente comme une plateforme dédié au sciences de données. Anaconda propose une version de Python avec les packages dont nous avons parlé précédemment,  pré-installés et compatibles entre-eux. Spyder semble un petit plus lent à démarrer que Rodeo, mais il a l’avantage d’être intégré à Anaconda.

Les avantages de R et Python

Quels sont les avantages de R et Python ? Notamment par rapport à des logiciels propriétaires de traitements statistiques comme SAS ou SPSS ou encore par rapport à Excel :

Et maintenant ?

Dans les prochains articles nous vous proposerons des exemples concrets d’utilisation de R et Python au service du Web Marketing.

Notre objectif est de vous faire partager nos trucs et astuces, nos découvertes, nos difficultés et de façon générale nos tribulations de Web Marketeurs dans l’univers de la Data Science. :-).

Une nouvelle aventure pour Anakeyn !

A Bientôt,

Pierre.

Quitter la version mobile