Comment le Big Data peut aider une entreprise à gérer le cas par cas

Photo Mingke HE & Dongni REN / Directeur général & cofondateur, yimian.com.cn / September 23rd, 2016

Aujourd’hui, une multinationale de la grande distribution a presque la même productivité, en matière de données, qu’une société Internet de taille moyenne. De plus en plus d’entreprises espèrent pouvoir exploiter les données associées à leurs clients avec la même efficacité que les sociétés technologiques, et pouvoir ainsi prendre des décisions sur la base des informations collectées. Mais la quantité colossale des données ainsi générées et les multiples sources d’où elles proviennent constituent un défi informatique, même pour les entreprises spécialisées qui rêveraient pourtant d’être en mesure de collecter et analyser en temps réel cette masse d’information. Les sociétés de conseil, qui jouaient autrefois un rôle clé dans ce domaine, ont perdu la capacité à rassembler efficacement ces données et à en offrir une lecture affinée. Elles n’en ont plus les moyens humains. Nous avons commencé à construire une plateforme de données pour une société chinoise leader sur le marché du prêt-à-porter. Il nous a fallu six mois pour mettre en place les fonctionnalités permettant de recueillir et d’analyser ses données, profiler ses consommateurs, mettre en place un système de gestion de ses membres et lui donner les moyens de suivre ces données externes et de les enregistrer. Les connaissances acquises dans ces domaines méritent d'être partagées.

Le terme «Big Data» renvoie à un état d’esprit, davantage qu’à une technologie donnée. Il peut être compris comme un ensemble d’algorithmes, de technologies et d’outils spécifiques, comme ceux permettant l’extraction de données, l’apprentissage automatique, le traitement du langage naturel et de l’informatique distribuée. La Business Intelligence a quant à elle une histoire beaucoup plus ancienne. Des géants des nouvelles technologies comme IBM, Oracle, Microsoft, Informatica, SAP, Sybase ou Teradata ont été les leaders dans l’adoption de logiciels BI, suivis par des entreprises plus petites. La BI est aussi un terme général qui englobe l’utilisation d’une large palette d’outils et de technologies, tels que le stockage de données (ou data mart), la déclaration d’enquête, l’analyse de l’information, l’exploration de données, la sauvegarde et la restauration, pour ne citer que ceux-ci. Quelles caractéristiques distinguent ces deux concepts?

Pour une grande entreprise offrant des biens de consommation, au moins 10 systèmes d’information sont nécessaires pour soutenir les opérations quotidiennes : 1) un système de distribution qui trie et analyse jusqu’à 100 000 commandes, 2) un système e-commerce qui exploite la gestion des commandes et le service client, 3) un système de gestion d’entrepôt qui organise la logistique à l’échelle nationale et les registres de stocks pour des milliers de références, 4) un système de veille (BI) en charge de la collecte des données pour chaque grand secteur d’activité, qui génère les statistiques et les graphiques journaliers, et 5) d’autres systèmes tels la finance, la RH, la gestion de la performance, les systèmes marque/commande qui eux aussi impliquent de grandes quantités de données quotidiennes.

L’utilisation la plus courante de logiciels BI en entreprise vise à intégrer l’ensemble des systèmes informatiques et statistiques pour une meilleure compréhension des opérations et des données de l’entreprise, à travers notamment des graphiques quotidiens et des chiffres générés et calculés par un système choisi. À l’exception de sa partie ETL (Extract-Transform-Load, ou datapumping), le logiciel BI se généralise facilement, notamment dans le cadre d’une utilisation trans-industrielle, et convient à des besoins universels.

C’est pourquoi l’intérêt des logiciels de BI appliqués à la vente repose dans leur fonction de gestion des données de surveillance, puis de mise à disposition de rapports et de graphiques permettant de maîtriser des facteurs tels que le  temps, la distribution, ou la segmentation. Le tableau 1 montre les variations moyennes de prix et de ventes de cette entreprise sur une période de deux ans. Il est facile d’identifier une tendance générale à la hausse, janvier et février étant des mois plutôt lents, alors que la fin de chaque trimestre connaît une augmentation assez nette. Les prix ont ​​à peine changé au cours des deux dernières années, étant plus élevés en hiver qu’en été. Le tableau 2 porte sur la répartition des ventes et le ratio de chaque marque de la société, dont une marque grand public avec une solide performance et quelques sous-marques qui réalisent des records de vente impressionnants, selon les données visibles sur ce graphique. Il est important pour les entreprises d’accorder une attention constante aux graphiques de distribution de leurs ventes, afin d’être en mesure d’ajuster les stratégies d’allocation des ressources et de développement de l’entreprise au moment voulu.

cas1FR

cas2fr

Les logiciels BI sont particulièrement utiles à la collecte de données commerciales permettant une visualisation et un suivi à long terme sans autres entrées de programmation. Ils peuvent toujours faire l’objet d’une mise à jour par rapport aux rapports statiques fournis par les entreprises traditionnelles de conseil en gestion, qui sont fondamentalement inutiles au-delà du premier jour d’analyse (jour 1).

Les ingénieurs spécialisés dans la gestion de données perçoivent toujours un logiciel BI comme un outil d’analyse de données et comme une base permettant de développer une projection à partir de ces dernières. Les scientifiques qui consacrent leurs travaux à la prise en compte de données peuvent fournir des informations, voire une intervention et une contribution industrielle à ces chiffres, et arriver à des rapports plus sophistiqués que ceux des services BI. De tels rapports, supérieurs en qualité, peuvent être de précieux outils à la conception de produits, de plans marketing, de systèmes d’adhésion et de services après-vente, de sorte que les données peuvent avoir une force motrice suffisante pour déclencher la croissance de l’entreprise, phénomène bien connu des sociétés de l’Internet.

Le tableau 3 est une courbe CDF (Fonction de Distribution Cumulative) avec l’axe X pour les jours et Y pour le pourcentage. 37% des utilisateurs achèteront à nouveau le même produit après un premier achat un mois (30 jours) auparavant. 45% des utilisateurs choisiront d’effectuer un nouvel achat 3 fois dans le mois suivant le deuxième achat. 51% des utilisateurs achèteront pour la quatrième fois moins d’1 mois après leur dernier achat. La courbe CDF montre une tendance vers la gauche avec un nombre d’achats de plus en plus important, les clients étant disposés à acheter plus fréquemment une fois la reconnaissance de la marque établie. Par conséquent, le meilleur moment pour faire connaître la marque et attirer de nouveaux clients est la fin de chaque trimestre, à savoir tous les 3 à 4 mois, lors de la reconnexion avec les clients existants. L’intervalle de 1 à 2 mois est donc optimal. Ceci est un cas typique observable lorsque les ingénieurs de données ont l’opportunité de se pencher sur les chiffres fournis par une industrie, lus à la lumière de leurs connaissances et de leur expérience, ce qui ne peut être obtenu par un logiciel BI. Des achats répétés avec de telles intervalles est un scénario unique dans la vente de biens de consommation. Un outil statistique plus complexe et adapté est donc nécessaire pour approfondir la signification des données et trouver de nouveaux modèles et pistes de lecture. Grâce à des statistiques d’écriture et des systèmes SQL (Structured Query Language) composés et multiples, les ingénieurs spécialistes de la gestion des données ont prouvé la valeur de l’intervention humaine dans cette spécialité.

cas3FR

Mises à part les possibilités qu’il offre en termes de statistiques logistiques complexes et hautement personnalisées, le traitement et l’exploration des données non structurées n’est pas une tâche facile pour les logiciels de BI. Pour les grandes entreprises produisant des biens de consommation, le recours au e-commerce complet est devenu la nouvelle normalité. Les entreprises comme JD.com, Tmall, Vipshop, Yihaodian et Jumei ont vu, en provenance de dizaines de milliers de commandes, l’apparition de quantités gigantesques de données, portant sur la localisation du client, sur son identité, sa profession, son pouvoir d’achat, etc. Les entreprises peuvent appliquer le fruit de leurs recherches à leurs clients via des programmations et l’utilisation de cartes API (Interface de Programmation d’Application). Le tableau 4 est la carte de chaleur que nous avons établie en fonction des adresses d’expédition de chaque commande que nous avons reçue. Il est facile de dire qu’une grande proportion d’utilisateurs se concentre autour du Zhongguan Village, suivi par des pâtés de bâtiments universitaires localisés dans le district Haidian de Beijing. Les onglets rouges sur la carte montrent les magasins de briques et de mortier de la marque en question, qui couvre la zone du Zhongguan Village, de l’Université de Pékin et de la zone de Wudaokou. L’entreprise doit donc repenser sa boutique d’Anzhenli, où nous ne voyons que peu d’activité, et entrevoir plutôt une ouverture de vitrines autour de la Zhichun Road et du Mudan Garden, où l’on peut observer que le trafic est relativement dense.

cas4

La valeur d’une telle carte de chaleur, et son intérêt pour les entreprises est difficilement concurrençable par des  cabinets de conseil traditionnels.

Même les données apparemment moins importantes et pas nécessairement couvertes par un monitoring quotidien peuvent fournir de précieuses informations. Le tableau 5 montre le temps passé par les utilisateurs en ligne. Il est facilement identifiable que presque tous les week-ends, les commandes sont réparties uniformément sur ​​toute la journée, à l’exception des heures autour de minuit. Cela devient d’autant plus intéressant quand on regarde la tendance sur les jours ouvrés. Le nombre de commandes présente des pics entre 9h et 10h heures du matin, ce qui signifie qu’un grand nombre d’employés de bureau commencent la journée par un peu de shopping en ligne. Pour les services e-commerce des entreprises, le message est clair: envoyez vos promotions marketing plutôt entre 8h et 10h chaque matin pour attirer l’attention.

cas5fr

On retrouve, à quelques détails près, la même ligne de de raisonnement dans le tableau 6 ci-dessous, qui met en évidence le motif d’achat en fonction du jour de la semaine. Les lundis et mardis sont toujours les plus actifs, le week-end apparaissant plutôt calme. Ce modèle d’achats en ligne permettrait de proposer aux clients une parade au « syndrome du lundi », et des offres permettant aux employés d’apaiser la pression au travail en faisant quelques achats. Ici, le recours au shopping diminue à mesure que le week-end approche.

 cas6fr

Les données des tableaux 5 et 6 ne sont généralement pas détectables par un logiciel BI, mais peuvent être marquées et interprétées comme ayant une valeur commerciale par les ingénieurs qui gèrent les données. Les cabinets de conseil ne disposent pas d’outils assez puissants pour intégrer cet océan de chiffres et les traiter au quotidien.

La science des données (données de soumission) et la BI dans leurs dimensions « macro » ne diffèrent que très peu l’une de l’autre. Tous deux couvrent une large gamme de services avec un objectif commun, faire progresser l’entreprise par le traitement et l’analyse des données. Le BI, comme nous l’avons évoqué lors de notre introduction,  désigne le logiciel fournis par les fabricants d’applications et générant cartes d’affaires et suivi statistique, mais ne correspondent pas à une science des données à proprement parlé. Un logiciel BI fournit en résumé des statistiques et des outils de visualisation permettant de couvrir une partie du travail que propose la science des données. Si l’on veut approfondir une analyse et des concepts à de multiples niveaux dans un cadre de données industrielles, il est alors indispensable que des ingénieurs de données se joignent à un groupe de travail pour mettre en place des systèmes de données spécifiques qui seraient en mesure de mener une analyse jusqu’à son terme.

Création de profils et de systèmes utilisateurs
Pour les groupes fournisseurs de produits ou de services, la détention de profils d’utilisateurs constitue une partie importante de l’exploration de données. La survie de nombreuses sociétés Internet dépend de profils utilisateurs précis et complets. Nous avons tous entendu parler des miracles que peuvent générer une analyse précise de l’utilisateur, et les success stories d’entreprises qui ont su exploiter de tels profils. Amazon et Alibaba, par exemple, ont eu recours à l’apprentissage machine pour filtrer les comportements de navigation de leurs utilisateurs, les modifications de paniers, et la mise en évidence des articles précédemment achetés. Ils ont développé des systèmes de recommandation qui annoncent certains produits à certains clients sur la base des données recueillies pour stimuler efficacement les taux de clic et de ventes. Un autre exemple est quand les appstores recommandent des applications en fonction des installations précédemment effectuées par l’utilisateur; ou quand la musique, les livres ou des sites d’information utilisent le filtrage collaboratif pour fournir un contenu personnalisé.

Par comparaison, les approches Scattergun d’études de marché et d’enquêtes par sondage traditionnellement utilisées par les consultants semblent presque dépassées.

Par rapport aux sociétés Internet, les entreprises de ventes de biens de consommation disposent peut-être de moins de données sur le comportement de l’utilisateur. Mais elles disposent de mieux que cela. Les informations utilisateur et les données de transaction, répartis entre les différents systèmes informatiques, sont généralement plus fiables. Après avoir recueilli, filtré et analysé les données, nous avons constaté qu’elles sont de meilleure qualité que ce que nous avions pensé, ce qui a confirmé à nos yeux l’intérêt d’encourager la création des profils.

Les tags (ou mots-clés) numériques
L’analyse des données utilisateur trouve ses origines dans l’apprentissage machine. Quel que soit la raison pour laquelle les données utilisateur peuvent être exploitées, segmentation de la clientèle ou ciblage de la commercialisation, elles doivent être traitées en premier, et représentées sur des vecteurs caractéristiques. De nombreux algorithmes, tels que les clusters, la régression, la corrélation et les classificateurs, ont besoin d’une représentation numérique des objets pour faciliter le traitement et l’analyse statistique. Pour les données structurées, l’extraction de caractéristiques commence généralement par un marquage: canaux d’achat, fréquence des dépenses, âge, sexe, renseignements sur la famille, etc. Ces balises permettent alors de créer des profils utilisateurs plus complets et de rendre profitable l’apprentissage machine (en termes de précision et de vitesse de convergence, par exemple).

Nous avons sélectionné des dizaines de tags pour des articles vendus par des sociétés de biens de consommation. LE tableau 7 montre certains d’entre eux. Ils proviennent de 3 sources. La première source est l’ensemble des systèmes informatiques. Par exemple, les cartes de membre (sexe, âge, date de naissance), les canaux d’achat, les points de fidélité, etc. La deuxième source est le calcul, ou l’analyse, qui donne des informations telles que l’intérêt d’un utilisateur pour les promotions. Quelle sont ses préférences en termes de couleur ou de style? Est-ce qu’il est généralement fidèle à une marque ou est-il en recherche d’autres marques? La troisième source de balises est l’inférence. Si le carnet d’adresses d’un utilisateur comprend des mots comme «dortoir», «école» ou «université», alors on peut en déduire que ce dernier est très probablement étudiant. De même, si l’adresse mentionne “Tencent Tour” ou “parc technologique,” il y a des chances qu’il soit cadre, et probablement un professionnel de la technologie. De plus, les mots-clefs dans cette catégorie sont souvent conçus d’une manière à refléter clairement l’industrie et les produits recherchés. Par exemple, en termes de mode, préfère-t-il les dernières tendances ou les produits plutôt classiques? Préfère-t-il des produits moins chers ou à prix réduit (sensibilité au prix)? Ou recherche-t-il des produits plus chers ou des éditions limitées?

cas7fr

Lorsque les tags sont créés, l’étape suivante consiste à discrétiser les données, ou à diviser les tags en plusieurs balises 0/1 pour les rendre lisibles par les algorithmes d’apprentissage machine. Ceux-ci peuvent inclure le regroupement, la classification, la prédiction, ou une analyse de corrélation, ce qui crée des milliers de vecteurs de dimension au sein du processus.

Au vu de ces avancées, l’heure n’a-t-elle pas sonné pour les tableurs Excel, encore largement utilisés par les cabinets de conseil, de prendre leur retraite?

La combinaison de règles d’apprentissage
La combinaison de règles d’apprentissage est un autre outil d’apprentissage machine largement utilisé dans l’industrie du détail. Il existe par exemple une anecdote célèbre à propos de l’exploitation de ces règles d’association, celle dite de «la bière et les couches», qui veut que les clients des supermarchés qui achètent des couches aient aussi tendance à acheter de la bière. Même s’il a été prouvé que cette anecdote est en réalité un mythe inventé dans le simple but d’illustrer ce principe de corrélation, la parabole évoque les règles d’association existant au sein du marché de détail. Et si cette histoire devait être racontée en Chine, ce serait celle des “nouilles instantanées et du porc aux trois parfums”.

Contrairement au panier dans notre exemple précédent, l’unité de base dans cette exploration des données est l’utilisateur. Des vecteurs propres sont créés sur la base de balises utilisateur. Le tableau ci-dessous en est une démonstration simple.

Nous avons créé une matrice de fonction NxM. N est le nombre d’utilisateurs, de l’ordre de plusieurs millions. M fait référence à un ensemble de variables binaires. Apriori [1] est utilisé pour déterminer les règles d’association. Le seuil de soutien, le coefficient de confiance et le seuil d’augmentation ont été fixés pour déterminer les règles d’association répondant à des exigences précisent. Etant donné que les règles d’association identifiées peuvent concerner la vie privée de l’utilisateur, le tableau ci-dessous en est seulement une démonstration. L’antécédent est la localisation de l’utilisateur. La conséquence est la sensibilité à la promotion la plus élevée. Les résultats sont les suivants :

cas8fr

Il est très clair que les utilisateurs à Shanghai, Jiangsu et Zhejiang sont plus sensibles aux promotions. Ils ont les taux de participation les plus élevés. Leurs augmentations sont supérieures à 2. En particulier, l’augmentation à Shanghai atteint 3,3.

cas9fr

Un autre exemple consiste en l’usage de règles d’association de couleurs. Le tableau ci-dessous présente les caractéristiques des préférences des utilisateurs pour les produits de différents coloris/SKU. Il y a des associations très fortes, comme entre l’or et l’argent, ou le marron et vert. Les clients qui achètent des produits violet et beige sont plus susceptibles d’acheter leur prochain article couleur or. Si les employés de magasin et/ou les équipes en ligne pourraient utiliser ces informations de base pour mettre en place leurs décisions marketing, telles que la recommandation ou la distribution par couleur, tout s’en trouverait alors simplifié.

cas10fr

Le modèle RFM
Il est à noter que, dans le processus d’apprentissage des règles d’association, l’indépendance de l’antécédent et du conséquent doit être garantie. Bien que des caractéristiques soient extraites, certaines dimensions sont identifiées à partir de sections similaires ou connexes; par exemple, le signe zodiacal et le mois de naissance du client. À moins que cette indépendance ne soit garantie, vous pouvez vous retrouver avec quelques règles assez amusantes, comme «beaucoup de gens nés en novembre sont du signe du Scorpion.”

Le modèle RFM (de récence, de fréquence et monétaire) est une méthode classique d’analyse de la valeur client. Les trois attributs sont utilisés pour la classification et l’identification des clients constituant un intérêt afin d’améliorer la prise de décision tant commerciale que marketing.

Le RFM a le mérite de la simplicité. On a simplement besoin d’une table avec la date d’achat et la valeur d’achat. Par exemple, si on dispose du nombre de mois qui se sont écoulés depuis le dernier achat du client, le nombre d’achats dans les X derniers mois, et la moyenne/valeur totale des commandes d’un client donné, on peut alors créer des repères pour chacune des trois dimensions, qui sont ensuite pondérées en utilisant k-means [2]. En comparant les trois dimensions des différents groupes de clients et les points de repère, des décisions peuvent être prises. Les stratégies marketing sont orientées en conséquence pour augmenter le taux de ré-achat et les taux de conversion (par guidage ou éveil).  Il est intéressant de noter ici qu’il n’y a pas de normes pour déterminer le poids à accorder à chaque critère. Une technique populaire est le processus de hiérarchie analytique [3], ou AHP. Les caractéristiques de l’industrie et de l’entreprise sont également prises en considération pour des résultats optimaux.

Le tableau 8 montre des segments de clientèle RFM identifiés. Le nombre de clients et leurs proportions sont très clairement présentés. Les idées peuvent également être incluses sous forme de balises dans les profils clients et CRM afin que l’entreprise puisse commencer à comprendre et à cibler ses meilleurs clients.

cas11fr

cas12fr

 

Le tableau 9 montre la répartition des différents segments de clientèle par dimension. Les trois groupes de clients, de toute évidence, présentent une récence, une fréquence et des scores monétaires très différents. Ces dernières varient aussi sur certaines dimensions orthogonales caractéristiques.

Les systèmes utilisateur
Pour les entreprises de biens de consommation, le but ultime de l’investissement dans des profils d’exploration de données utilisateur est d’améliorer les performances. Ainsi, la traduction des connaissances, à partir de l’analyse des données  en résultats tangibles, est vitale. Toutes les balises et les règles d’association doivent finalement atteindre les clients par le biais d’un canal ou d’un autre. Il peut s’agir d’un système CRM puissant, dans lequel les clients présentant des tags différents sont ciblés différemment. Ou il peut s’agir d’une demande d’adhésion qui envoie des offres promotionnelles personnalisées ou les derniers produits au client; ou encore des plates-formes e-commerce, même autoportants, comme tmall.com ou JD.com, qui génèrent et utilisent de telles données à leur compte.  

Utiliser les données externes pour mieux comprendre les tendances
Les plates-formes e-commerce en plein essor et les réseaux sociaux ont permis aux robots web et autres parseurs de récupérer d’énormes quantités d’information très structurées. Donc, en dehors de l’analyse des données générées à l’intérieur de l’organisation, une entreprise peut également surveiller et analyser les données des principales plates-formes en ligne, qui peuvent être tout aussi précieuses et aider l’entreprise à vraiment comprendre le marché. La capacité des robots à recueillir et à stocker des données surpasse de loin tout ce que les consultants ont été capables de faire.

Dans cet article, nous ferons état de quelques-unes des idées qui se cachent derrière l’extraction de données pratiquées par tmall.com. Nous disposons de 5 mois de données sous une seule sous-catégorie, qui comprend 5000 marques, 7000 détaillants en ligne, 24 000 articles, 1 million de SKU, et 26 millions de commentaires clients.

Les tendances du secteur
Comme le montre le tableau suivant, tmall.com a préalablement structuré chaque élément, assez efficacement d’ailleurs. Par exemple, il y a près de 20 propriétés dans les segments « vêtements pour femme ». 24.000 articles ayant des prix et des ventes différents sont analysés pour déterminer les tendances de l’industrie; par exemple, la fourchette de prix pour les différents styles, les modèles les plus populaires, et les coloris et marques préférés.

cas13

Le tableau 10 permet de visualiser les ventes sur plusieurs styles vestimentaires. L’an dernier, la Fête des Célibataires et les offres spéciales du 12 décembre ont clairement stimulé les ventes de tous les styles, plus sensiblement le style coréen, qui a triomphé sur le reste.

cas14fr

Sémantique de décision de l’utilisateur
« Que mettre en avant lorsque nous parlons de nos produits? » est la question que chaque marque se pose. Quand les entreprises font appel à des consultants, le degré d’analyse est très limité, car ces derniers ne recourent qu’à des approches semi-conseil, tels que des groupes de discussion ou des questionnaires, pour tenter d’extraire des règles à partir d’échantillons très restreints.

Mais l’ère numérique a rendu les choses beaucoup plus simples. Revenons à l’exemple de tmall.com : en seulement 5 mois, 24 millions de commentaires d’utilisateurs ont été recueillis. Chacune était spécifique selon la cible recherchée, avec un niveau SKU et un horodatage clairs, ce qui nous a permis de mieux observer les utilisateurs.

Le tableau 11 montre une série chronologique des différentes situations mentionnées dans les commentaires. Chaque situation s’est vue affectée environ 10 mots-clés.  Ces mots ont ensuite été segmentés et un indice a été créé. Les données quotidiennes furent alors extraites par mots clés spécifiques. On y trouve quelques principes très intéressants. Par exemple, l’impact des journées shopping du 11 novembre et 12 décembre mis à part, le nombre d’utilisateurs qui ont mentionné le mot “mariage” a atteint un pic à la mi-Septembre, probablement en raison de la prochaine saison de mariage qui suivait le jour férié, soit le 1er octobre, jour national. On a aussi pu observer deux pics quand le tag “voyage” était mentionné début août et début octobre, ce qui signifie que beaucoup de gens préparaient leurs vacances pendant les mois d’été et durant la fête nationale.

cas15fr

Tmall.com classe ses clients de T0 à T4. Les clients T0 comprennent les clients du niveau « entrée », qui consomment moins. Les clients T4 sont les clients principaux qui consomment beaucoup plus, et beaucoup plus fréquemment que les autres. Le classement des clients est disponible sur la page de commentaires. Nous avons également mené une analyse des achats clients pour chacun de ces différents rangs. Les tableaux 12 et 13 montrent l’activité des clients T4 et T0. Il est très clair que les utilisateurs T4 parlent beaucoup plus de “mariage”, de “voyage” et de “conduire” que les clients T0, qui mentionnent plus souvent les mots “shopping”, “étudiants”, “travail au bureau” et “déplacements”. Grâce à ces informations, les commerçants peuvent cibler différents segments de clients.

cas16

Positionnement de la marque et stratégies de prix
Les données utilisateurs obtenues à partir de plates-formes e-commerce permettent également aux commerçants d’en savoir plus sur le positionnement de leur marque et sur les stratégies de fixation des prix de leurs concurrents. Le tableau 14 résume le nombre d’éléments appartenant aux 5 grandes marques de chacun des grands groupes de l’industrie. Seule la marque n°1 dans le groupe B présente un avantage certain et domine les autres marques du groupe. Parmi les trois autres groupes, la marque principale est suivie par les marques de poids similaire.

cas17fr

Le tableau 15 montre la contribution des ventes pour chaque marque. En comparaison avec le tableau 14, nous pouvons voir que, dans le groupe A, les ventes de chacune de ses marques sont proportionnelles au nombre de marque d’articles. Dans le groupe B, la marque n°1 est très largement contributrice aux ventes. Le nombre d’éléments appartenant à chaque marque au sein du groupe C est similaire, mais le revenu provient principalement de sa marque n°1. Cela signifie que la stratégie de multi-marketing pour la marque du groupe C, n’est pas une réussite flagrante.

cas18fr

Dans le passé, il aurait été presque impossible, en recourant aux entreprises de conseil, de mettre la main sur de telles  données concurrents.

cas19fr

cas20fr

Même les marques ayant un maximum de succès peuvent définir une clientèle cible et, par conséquent, un positionnement sur ​​le marché. Le tableau16 met en évidence le nombre d’éléments dans chaque gamme par groupe de prix. Le tableau 17 permet de visualiser les ventes par gamme de prix. Le groupe C se distingue immédiatement, parce que bien que la majorité de ses produits tombent dans la tranche 200-400 yuans, la plupart de ses ventes est générée à partir du support 400-600. Autrement dit, malgré le positionnement du Groupe C, sa clientèle continue de préférer ses produits haut de gamme.

Quand bouche-à-oreille et achat impulsif s’en mêlent…
A ce jour, la technologie chinoise de surveillance des avis du public sur un sujet donné n’est pas aussi avancée qu’on veuille bien le dire. En fait, nous n’avons même pas pu trouver d’outil approprié à la segmentation des mots-clés de l’industrie chinoise, ni d’outil de calcul du facteur émotionnel. Nous en avons donc construit un nous-mêmes en recourant à des mots clés et à une grammaire de dépendance pour extraire un sens et analyser le facteur émotionnel. Il nous a semblé que le recours à d’un tel outil, comparé à l’utilisation de réseaux SVM pour déterminer la positivité ou la négativité d’un commentaire, était plus avantageux. Et au-delà de l’analyse positive/négative, on peut également identifier le sujet de la discussion et ses modificateurs, informations utilisable ensuite pour exécuter une analyse plus détaillée de la clientèle.

cas21fr

cas22fr

Le tableau 18 met en évidence les commentaires positifs reçus par les quatre groupes. Le Groupe B semble très sensible à «l’accessibilité du prix ». Il est donc clairement en mesure d’utiliser les prix bas pour susciter l’appel. Quant au Groupe C, il est comme on pouvait s’y attendre, en retard sur les autres pour ce qui est du « service client ».

Le tableau 19 est une série chronologique de commentaires négatifs. Le nombre de plaintes, pourtant généralement stable, a grimpé lors de la Journée des Célibataires. La plupart des gens se sont plaints de la logistique et du service  client. D’autres se sont aussi plaints d’avoir reçu un colis endommagé, ou d’avoir reçu un article d’un coloris différent de celui qu’ils voulaient, ou encore une couleur de mauvaise qualité. Mais ici encore, l’augmentation n’a été que légère.

*

A l’ère du numérique, les entreprises de vente de produits de large consommation, comme les sociétés Internet, utilisent des données internes et externes pour créer des profils utilisateur et des systèmes d’adhésion, et mettre en place une production plus ciblée et mieux segmentée, afin d’améliorer leur fonctionnement et leurs ventes. Leur demande dépasse de loin ce que le cerveau humain ou des consultants traditionnels, attachés à leurs tableau Excel, sont capables de faire.  La technologie des données est comme le palantír, représenté dans Le Seigneur des Anneaux de Tolkien, une boule de cristal permettant aux humains et aux elfes de suivre des événements se déroulant dans le monde entier. En revanche, la vision humaine, aussi experte soit-elle, ne pourra jamais atteindre une telle acuité.

Tout le monde aujourd’hui parle de données. Et quelle est la réponse des fournisseurs de services haut de gamme tels que les banques d’investissement, les consultants, les cabinets comptables ou d’avocats? Beaucoup de parole et, au final, peu d’action. Pourtant il va bien falloir que tous ces cabinets décident un jour des suites à donner à cette problématique. À l’avenir, quand ils proposeront à leurs clients une stratégie Big Data, leurs clients seront en droit de leur demander: «Au fait, quelle stratégie Big Data vous appliquez-vous à vous-même?”

1. Apriori est un algorithme d’analyse fréquencielle et d’exploitation d’éléments par règle d’association et d’apprentissage. Il utilise une approche «bottom up», où des sous-ensembles fréquents sont prolongés par un élément à la fois (étape appelée génération de candidat), et où des groupes de candidats sont testés en comparaison des données. L’algorithme se termine lorsqu’aucune autre extension concluante n’est trouvée. Le support, le coefficient de confiance et l’augmentation mentionnés dans le texte ci-dessous sont les concepts de base d’Apriori. Il offre de larges applications dans des domaines tels que le commerce et la sécurité Internet.

2. K-means vise à partitionner les observations n en cluster k dans lequel chaque observation appartient à un cluster ayant la moyenne la plus proche, servant alors de prototype du cluster. Les distances entre chacun des centres de classes k et des points de données n sont utilisées pour trouver la solution optimale aux problématiques k-means, par raffinement itératif.

3. Le processus de hiérarchie analytique (AHP) est une technique structurée, simple, flexible, efficiente et multicritères pour l’organisation et l’analyse des décisions complexes. Il a été développé par le chercheur américain en décisions opérationnelles Thomas L. Saaty dans les années 1970. AHP a des avantages uniques lorsque des éléments importants de la décision sont difficiles à quantifier. Une fois que la hiérarchie est construite, les décideurs évaluent systématiquement les différents éléments en les comparant deux à la fois, selon leur impact par rapport à l’élément supérieur dans la hiérarchie. Il offre alors des comparaisons, des données concrètes sur les éléments analysées et des jugements sur le sens et l’importance relative des éléments combinés. L’AHP convertit ces évaluations en valeurs numériques qui peuvent être traitées et comparées sur l’ensemble de l’énoncé. Un poids numérique est alors calculé pour chaque élément de la hiérarchie, ce qui permet d’extraire des éléments divers, souvent en quantités incommensurables pour les comparer les uns aux autres de manière rationnelle et cohérente. Un classement peut alors être établi, offrant un ensemble de solutions envisageables, allant du plus plausible au moins souhaitable.

Note des éditeurs. Cet article est paru à l’origine dans notre édition chinoise, publiée conjointement avec l’université Jiaotong de Shanghai, SJTU ParisTech Review.

More on paris innovation review

By the author

  • Comment le Big Data peut aider une entreprise à gérer le cas par cason September 23rd, 2016

www.parisinnovationreview.com

This content is licensed under a Creative Commons Attribution 3.0 License
You are free to share, copy, distribute and transmit this content

Logo creative commons

5 quai Voltaire 75007 Paris, France - Email : contact@parisinnovationreview.com / Landline : +33 1 44 50 32 89