PARIS SCIENCES & LETTRES (PSL)
Merci ! Votre abonnement a bien été enregistré !
il y a un soucis. Merci de vérifier votre saisie.

Le métier de datascientist

Voici un métier dont tout le monde parle et dont personne n’a une idée bien précise… ne serait-ce que parce que son intitulé prête à confusion. Qui sont les datascientists, sur quelles compétences s’appuient-ils, et que font-ils exactement?

Monday
20
November 2017
read in english
read in english
Lire le résumé

Qui sont les datascientists, sur quelles compétences s’appuient-ils, et que font-ils exactement ? L’expression émerge il y a une dizaine d’années autour du Big Data, quand les métiers de la donnée connaissent une évolution foudroyante. La source de cette évolution, c’est la sortie de la « data warehouse », où étaient conservées des données opérationnelles bien paramétrées, et l’entrée concomitante dans un monde où l’on cherche surtout à exploiter des flux de données en temps réel. Les compétences mobilisées sont différentes : de nouveaux outils apparaissent, et on demande de plus en plus aux spécialistes de les enrichir. De grandes suites logicielles en open source viennent concurrencer les logiciels propriétaires comme SAS qui dominaient le monde de la data warehouse. Le développement de ces suites en open source a pour conséquence une véritable floraison de solutions et une accélération du cycle. Les professionnels qui exploitent et développent ces nouveaux outils se sont souvent reconvertis, mais des cursus spécialisés sont apparus et de jeunes diplômés arrivent sur le marché. Tous ont en commun 1/une spécialisation sur l’un des grands logiciels 2/une capacité à coder, à développer et 3/ des compétences en statistiques ou dans d’autres domaines des mathématiques.

Paris Innovation Review – Le terme de datascientist était quasiment inconnu il y a dix ans. En 2017, on a presque l’impression qu’il est déjà trop général, par rapport aux spécialités parfois très différentes qui émergent aujourd’hui.

Arnaud Contival – Le terme conserve une cohérence, mais il est évident que la discipline autour de la data évolue. À côté des catégories initiales comme le datamining, on voit apparaître des spécialités nouvelles, par exemple les marketing scientists. Plus généralement on assiste à une segmentation progressive. Mais, en pratique, les professionnels ont tous deux ou trois « casquettes », ne serait-ce que parce qu’ils ont commencé à travailler dans ce domaine il y a quelques années, quand le champ de la data n’était pas aussi segmenté. La plupart ont commencé autour des Big Data, et il est peut-être utile de remonter de dix ans en arrière pour comprendre les évolutions en cours.

Comme tendance de marché, c’est vers 2008-2010 que les Big Data apparaissent réellement. Cela prend la forme d’une série d’acquisitions aux États-Unis, qui signale que les grands acteurs mondiaux de l’édition de logiciels ont atteint leurs limites, qu’ils voient apparaître un nouveau marché et cherchent à prendre des positions. Ils s’approprient des modules pour les vendre, avec une stratégie de push vers leurs grands clients.

Au sein des grandes entreprises, des domaines comme la finance, le marketing, les RH commencent alors à s’intéresser de près aux possibilités offertes par les Big Data, et c’est à ce moment que des métiers différenciés commencent à émerger. Après les grands acteurs du logiciel, c’est au tour des entreprises de services du numérique (ESN, les anciennes SSII) de s’approprier le cycle – et les clients ! – avec un effet retard dû en partie à la nécessité de former des professionnels. Les masters spécialisés qui forment aujourd’hui les datascientists n’ont été créés qu’un peu plus tard, en 2013 par exemple pour celui de Telecom ParisTech.

Fondamentalement, on peut ramener l’émergence des datascientists à un phénomène fondamental : la sortie de la « data warehouse ». Jusqu’alors, les données étaient conservées dans des « entrepôts », où l’on stockait méthodiquement des informations provenant de bases de données opérationnelles, dans une perspective d’aide à la décision. Avec les Big Data, on quitte ce monde bien organisé pour entrer dans des logiques très différentes : la capture et l’exploitation de données beaucoup plus variées et incomparablement plus nombreuses mobilisent des compétences nouvelles.

Revenons un moment sur les acteurs historiques du marché. Comment, par exemple, une entreprise comme AID est-elle devenue un spécialiste de la data ?

L’analyse informatique de données est sa spécialité depuis sa création, en 1972. À l’époque, et avec des moyens techniques qui n’ont évidemment pas grand chose de comparable avec ceux dont on dispose aujourd’hui, il s’agissait déjà de faire du prédictif, en l’occurrence un logiciel d’anticipation du trafic routier dû aux départs en vacances, Bison Futé. L’entreprise s’est ensuite spécialisée dans le marketing, en aidant des clients à exploiter leurs bases de données : ce sont les premiers outils de CRM (customer relationship management, gestion de la relation client), les cartes de fidélité, coupons et autres offres personnalisées. Puis elle a pris en charge la gestion de ces bases de données, afin d’en optimiser les usages, et en incorporant petit à petit des technologies relevant des Big Data.

Aujourd’hui, les données explosent et ce sont davantage des flux que des bases qu’il s’agit d’exploiter, même si le stockage reste essentiel. Les flux plus intéressants à utiliser – géolocalisation, clickstream, ou objets connectés – sont aussi les plus verbeux. Ils sont très volumineux, mais contiennent des informations qui ont du sens. Ils ont aussi comme caractéristique une plus grande véracité.

Une dimension majeure de ce métier est de choisir correctement les données collectées. Les grandes plateformes comme Facebook ou Amazon sont passées maîtres dans cet art. Ce choix est nécessaire. Il peut être contraint : Uber, ainsi, s’est vu interdire de prélever les données GPS hors parcours.

Les datascientists, ce sont les professionnels ou les agences qui développent ou utilisent les nouveaux outils permettant d’exploiter intelligemment, et de plus en plus en temps réel, ces énormes flux de données.

Les outils en question sont-ils universels, ou au contraire chaque agence, chaque grande entreprise développe-t-elle les siens ?

Il existe quelques technos « propriétaires », mais aujourd’hui 90% sont en open source. Tout ce qui est en système distribué, par exemple, est en open source.

Un élément qui contribue puissamment au succès des logiciels en open source, c’est qu’ils sont utilisés dans les écoles. Les datascientists qui arrivent sur le marché aujourd’hui apprennent ces technos à l’école parce que, comme tout ce qui a été développé en open source, elles sont accessibles gratuitement, et que par ailleurs on peut contribuer à leur développement, ce qui est une excellente forme d’apprentissage !

Le développement des suites logicielles en open source mode a pour conséquence une véritable floraison de solutions, et une accélération du cycle, entre la naissance et la mort d’un nouvel outil. Des grandes suites existent, et autour d’elles se sont constitués des savoirs partagés. Mais on est plutôt à l’opposé de solutions universelles.

Il faut noter par ailleurs qu’il existe une plus ou moins grande compatibilité entre les outils utilisés pour traiter les différents segments de l’activité. AID, ainsi, a choisi une suite cohérente : Cassandra pour le stockage, et pour la partie datascience Spark, qui fait partie de l’écosystème Hadoop. Les grandes suites logicielles sont Python, R, Scala, Spark. Toutes sont « généralistes », mais chacune offre des solutions plus particulièrement adaptées à certains usages.

J’observe par ailleurs que toute une filière qui utilisait jusqu’ici des logiciels propriétaires, comme SAS ou les outils SaaS, se transforme et s’approprie les nouveaux outils. Non sans raison : il y a tout d’abord une vraie différence de coûts, car les logiciels propriétaires ont leur prix (le pack initial, le coût de la formation). Mais aussi et surtout il y a la puissance et la scalabilité. Dans R, par exemple, il y a des milliers de fonctions, contre quelques centaines dans SAS. Et ces nouveaux outils sont toujours en mouvement, leur développement est constant, ce qui leur permet d’être en phase avec l’évolution très rapide des besoins et des idées nouvelles. Les fonctions s’affinent, car on peut tester beaucoup d’algorithmes en parallèle. Il y a enfin dans ces outils une dimension auto-apprenante.

Pour toutes ces raisons, les grands clients basculent eux aussi vers les solutions open source.

Quelles sont les compétences mobilisées par les datascientists ?

Les datascientists maîtrisent ces outils d’analyse et, davantage que les dataminers qui les ont précédés, ils sont professionnellement liés à un outil particulier. Mais ils ne se contentent pas de les utiliser : ils développent également, sur ces technologies, des solutions spécifiques.

La principale filière de formation, aujourd’hui, ce sont des dataminers qui deviennent datascientists. Mais on observe aussi beaucoup de reconversions, par exemple des gens qui ont un Master 2 en informatique décisionnelle. Certaines de ces reconversions, chez les clients, se font en interne, et des entreprises comme AID jouent aussi la carte de la formation.

Pour répondre plus précisément à votre question, il y a trois piliers. Le premier est une spécialisation sur l’un des grands logiciels. Le second est une capacité à coder, à développer. Enfin, il faut des compétences en statistiques ou dans d’autres domaines des mathématiques.

Les datascientists sont jeunes, recherchés… Qu’est-ce qui peut les fidéliser ?

La possibilité d’explorer beaucoup de choses, la diversité des missions, et la possibilité de se rafraîchir à midi, en jouant au pingpong par exemple ! Or les grands clients n’offrent que la première option, et pendant un temps. Assez logiquement, les meilleurs talents se retrouvent du côté du conseil ou des agences. Ils ont parfois un statut d’indépendant, tout en travaillant avec une agence. Il y a enfin, souvent en lien avec une agence, de toutes petites entreprises spécialisées autour de tel ou tel module, de telle ou telle spécialité, sur une logique de rareté ou de niche.

Cette diversité de structures est-elle durable ? Ou assiste-t-on à une consolidation, avec l’émergence de monopoles ou de quasi-monopoles, comme cela a été le cas avec les ERP ?

Il me semble plutôt qu’il y a de la place pour tout le monde. D’une façon générale le marché est porteur : les DSI ont une obligation d’y aller, ne serait-ce que pour réduire les coûts, et ils manquent de ressources en interne.

Pour répondre à cette demande, on a d’un côté de grands éditeurs mondiaux et de l’autre des acteurs plus spécialisés. Les premiers déploient leurs technologies mondialement, et autour d’eux s’est constitué un écosystème d’agences qui font du support, de l’intégration. Leur faiblesse, c’est qu’ils font du prêt-à-porter… et que leurs solutions ne sont pas toujours faciles à bien utiliser.

Les « petits » ont pour eux une capacité de co-construction, au plus près des besoins du client. Ils réaliseront par exemple une prestation de service pour une entreprise d’objets connectés qui génère beaucoup de données et cherche à mieux les utiliser. On trouve aussi des intermédiaires pour des sociétés qui gèrent des activités externalisées (par exemple la comptabilité).

Ce qui est intéressant, c’est l’interpénétration entre ces acteurs spécialisés et leurs clients. La data peut aller vers l’équivalent du BPO (business process outsourcing, externalisation des processus métier). Les datascientists « in-house » d’AID sont ainsi hébergés chez le client, dans le métier, car c’est là que l’on trouve l’usage le plus rapide. Par exemple en marketing, on envoie des professionnels en régie. Mais il y a aussi des équipes ici, qui produisent à distance. C’est une combinaison d’externalisation, de conseil, de formation… une forme d’intégration qui bénéficie aux deux parties.

Arnaud Contival
Président-directeur général, AID