Digital Spotlight

De l’utilisation utile du machine learning dans l’entreprise

définition du besoin, planification, collaboration et évaluation

Qu’est-ce que le machine learning?

« Basé sur des algorithmes qui peuvent apprendre des données sans s’appuyer sur une programmation explicitement basée sur des règles », le machine learning est souvent défini comme « la science qui permet aux ordinateurs d’agir sans être explicitement programmés ».

Les algorithmes de machine learning peuvent aider le business de multiples façons : identification de clusters de consommateurs, personnalisation d’expérience client (recommandations/campagnes marketing targetées), prévisions de ventes, maintenance prédictive, optimisation des inventaires…

Buzzword, il est au coeur de nombreux écueils qui se rencontrent au quotidien dans les entreprises. Une étude Gartner a estimé que 85% des grands projets de datascience échouent. Cette problématique n’est pas nouvelle. En 2015, le MIT a indiqué que « si les entreprises embauchent plus de datascientists que jamais, beaucoup d’entre elles ont du mal à tirer pleinement parti des avantages organisationnels et financiers que représente l’investissement dans l’analyse des données ».
Ces erreurs sont principalement organisationnelles – le management a souvent une connaissance insuffisante de la réalité terrain des projets de datascience, ce qui provoque entre autre silos, manque d’objectifs clairs et pas de vision partagée.

Le machine learning workflow

On peut regrouper en 5 grandes phases les étapes d’un projet de machine learning:

1) Définition du problème
2) Collecte des données
3) Pré-processing (traitement) des données
4) Développement du modèle de ML
5) Evaluation du modèle de ML


La compréhension du besoin business et de l’intérêt final est la pierre angulaire de tout projet.

Le data innovation board, inspiré de la méthode agile permet de mieux comprendre les étapes « non techniques » des projets data.

1) Définition du problème / du projet

La phase 1 est l’exploration.

Elle consiste à bien comprendre l’utilisateur ou le client et ses besoins. Pourquoi va-t-on se lancer dans un projet? Quel est le pain point que nous voulons résoudre? Quelle valeur ajoutée veut-on créer?

Une fois l’enjeu bien cerné, d’autres idées peuvent émerger « de l’interieur » à partir d’un mapping des données que l’entreprise a déjà à disposition.

Ces données peuvent être :
Internes – liées à l’entreprise en temps que telle (process de l’entreprise, supply chain, organisation, retours des business units…)
Externes – liés aux concurrents/environnement/clients… (opendata/réseaux sociaux ou propriété de l’entreprise comme les chiffres de ventes/sondages consommateurs etc)

On aboutit à ce stade probablement à plusieurs idées et problématiques qu’il s’agit de prioriser entre autres en fonction de la stratégie/priorités de l’entreprise et des contraintes (temps, budget, compétences…). Responsables business et data scientists doivent travailler en collaboration dès cette étape pour s’aligner sur les objectifs à atteindre.

On termine ainsi la première phase du workflow ML avec la définition précise du problème que l’on va tenter de résoudre.


2) Collecte des données

La phase 2 est la collecte des données.
Aux données précédemment identifiées, on va à ce stade avoir potentiellement besoin d’ajouter de nouvelles données, qui pourront soit être collectées directement, soit qui vont être à « créer » : par le biais de sondages/focus group par exemple.

A ce stade, il est utile de créer un tableau récapitulatif des données afin de disposer d’une vue claire sur:
-les catégories de données à disposition (prix de produits, chiffres de vente…)
-les sources des données (opendata, sondages, CRM…)
-la fréquence de collecte (mensuelle, quotidienne…)
-le format/type de données (texte/image/chiffre, csv/excel/autre)
-l’owner de chaque catégorie de données.

3) Pré-processing (traitement) des données

La phase 3 est le pré-traitement des données.
Les données exploitées ne seront pas nécessairement directement exploitables. D’ailleurs, on dit souvent que 80% du temps est alloué à préparer les données, 20% seulement au modèle/à l’évaluation.
Il s’agit entre autres de vérifier la pertinence et qualité des labels/features, le contenu des données (cases vides), format, normalisation, etc.


4) Développement du modèle de ML

On arrive alors enfin à la phase 4 : le développement du modèle.
Sans rentrer dans trop de détails techniques, deux grandes catégories de méthodes existent : apprentissage supervisé et non-supervisé (on peut également réaliser un apprentissage semi-supervisé)

Avec l’apprentissage supervisé, on “guide” l’algorithme sur la voie de l’apprentissage en lui fournissant des exemples qu’il estime probants après les avoir préalablement étiquetés des résultats attendus. L’intelligence artificielle apprend alors de chaque exemple en ajustant ses paramètres de façon à diminuer l’écart entre le résultats obtenus et le résultats attendus. La marge d’erreur se réduit ainsi au fil des entraînements, avec pour but, d’être capable de généraliser son apprentissage à de nouveaux cas. Deux grands types d’algorithmes sont utilisés : regression (ex: linear regression, K-NN) et classification (ex: logistic regression, K-NN).

Une autre manière de classifier les algorithmes de prédiction est la suivante, chacun ayant ses avantages et ses inconvénients : le type « linéaire (linear regression&logistic regression), le type « arbre » (decision-tree, random forest & gradient-boosting) ainsi que les réseaux de neurones.

Au contraire, dans l’apprentissage non supervisé, on ne va pas essayer de prédire une variable mais plutôt de découvrir des patterns cachés. Deux grands types d’algorithmes sont utilisés : cluster analysis (ex: K-means) et dimensionality reduction (ex: Analyse en composantes principales).

Les réseaux de neurones peuvent s’utiliser dans les deux cas.

Le choix des algorithmes dépend de l’objectif poursuivi et des ressources à disposition (données et puissance de calcul).

5) Evaluation du modèle

La 5ème étape est l’évaluation. Cette évaluation est double:

-Du côté technique : évaluation du modèle à partir de metrics prédéfinies (comme le « mean squared error » en regression ou l’accuracy en classification par exemple)

-Du côté « business » lié à l’objectif poursuivi, en accord avec les KPIs définis en début de projet


Pour conclure

On réalise et reprend toutes ces étapes par itérations successives, en corrigeant au fil de l’eau selon les résultats obtenus (de la même manière que le réseau de neurones apprend).
La complexité des projets de machine learning est très variable. Mais dans tous les cas, pour garantir le succès de ces projets, la collaboration tech-business est essentielle.
Il s’agit désormais d’un avantage compétitif et même d’une nécessité pour rester pertinent pour les clients finaux.

Quelques lectures, pour aller plus loin:
https://medium.com/d-lighted/the-data-innovation-board-44b9cc35e0ca
https://quantilus.com/why-is-machine-learning-important-and-how-will-it-impact-business/
https://github.com/mxc19912008/Andrew-Ng-Machine-Learning-Notes
https://www.deeplearning.ai/

0 comments on “De l’utilisation utile du machine learning dans l’entreprise

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s

%d blogueurs aiment cette page :