Big data & I.A.

Beyond DevOps, let's introduce DataOps

Par
le
20/5/2019

Le DataOps est une méthodologie automatisée, utilisée par les équipes “analyse et data” pour accélérer et optimiser la production de Datas en grandes quantités tout en réduisant le temps d’analyse de ces mêmes Datas. Inspiré du DevOps, leDataOps s'applique à l'ensemble du cycle de vie des Datas

Le DataOps est une méthodologie automatisée, utilisée par les équipes “analyse et data” pour accélérer et optimiser la production de Datas en grandes quantités tout en réduisant le temps d’analyse de ces mêmes Datas. Inspiré du DevOps, leDataOps s'applique à l'ensemble du cycle de vie des Datas. De la préparation des données à la génération de rapports. En termes de processus et de méthodologie, le DataOps applique les méthodes issues de développement de logiciels en mode“Agile”, les pratiques de développement de logiciels DevOps et le contrôle statistique des processus (SCP) utilisés dans la fabrication de l’analyse de données.

 

L’héritage intellectuel du DevOps :

 

DataOps : héritage intellectuel du DevOps

Aujourd’hui, les applications ”light” (qui ne reposent pas sur de grandes quantités de données analysées) sont développées au moyen d’un process transverse, le DevOps. Nous le savons tous, le DevOps en tant qu’approche du développement logiciel contribue à accélérer le cycle global de conception d’une solution (release engineering) grâce à la mise en oeuvre de principes agiles et d’automatisation. Le DevOps se concentre en ce sens sur l'intégration et l’update continus de logiciels grâce à l’exploitation des ressources “IT on demand” et en automatisant l'intégration, le test et le déploiement du code. Cette fusion du développement logiciel et des opérations IT («DEVelopment» et «OPerationS») réduit considérablement les délais de déploiement, minimise les défauts et réduit le temps de résolution de bugs. Ce qui permet évidemment d’accélérer leur “mise sur le marché”.

 

Data science : la course à l'hyperdata est lancée !

En route vers l'hyperdata

Or, les objectifs liés à la montée en puissance de la “data science” ont soulevé de nouveaux défis et engendré la nécessité d’une approche “data centric” pour la création et le déploiement des applications qui en sont grandes consommatrices. Aussifondamentaux que furent les progrès liés au DevOps, les masses de données nécessaires aux nouvelles applications ont conduit au développement du DataOps, qui permet la prise en charge des applications à usage intensif de données. Le DataOps focalise ainsi le développement sur les données, au lieu de l’application elle-même.

 

DataOps: composante essentielle du BigData. 

 

Leterme DataOps a été utilisé pour la première fois par Lenny Liebmann, rédacteuren chef, d’ “InformationWeek”, dansun article sur le hub IBM Big Data & Analytics : "3 raisons pour lesquelles DataOps est essentiel pour le succès du BigData" le 19 juin 2014. Le terme DataOps est une abréviation de «DataOperations». L’année 2017 est une année charnière pour le DataOps, l’écosystème s’étant considérablement enrichi avec un nombre accru de recherches de mots clés, d’enquêtes, de publications, de projets open source et l’adoption de la méthode par un grand nombre d’analystes.

 

LeDataOps : le noyau de la data factory !

 

Si le développement agile et le DevOps ont effectivement donné un sens significatif à l'analyse de données dans le domaine du développement digital,le DataOps contribue à son tour à enrichir considérablement le cycle d’analyse en y intégrant une nouvelle composante majeure. En effet, dans l’approcheDataOps, l'analyse de données permet de gérer et d’orchestrer directement un“pipe” de données. Ainsi, les Datas sont intégrées en continu dans le“pipe”,  et sont traitées selon un process séquencé. Elles sont, par la suite, livrées sous forme de rapports, de modèles et de vues. Le “pipe” de données représente en quelque sorte le côté «opérationnel» de l'analyse de données,ce pipe pourrait être matérialisé comme la chaîne de fabrication d’une usine entièrement automatisée dans laquelle la qualité, l'efficacité, les contraintes et la disponibilité sont automatiquement contrôlées. Ce “pipe”, logiquement est généralement appelé "data factory".

Le SPC comme accélérateur de création de datas.

 

Nous l’avons donc compris le DataOps permet d’orchestrer, de monitorer et de gérer la “Data Factory”. Le contrôle statistique lié au processus (SPC) est un outil particulièrement puissant qui permet d’évoluer en mode Lean en mesurant et  monitorant les données et les caractéristiques opérationnelles du”data pipe” de manière constante. Dès lorsque l’on applique le SPC à l'analyse des datas, il en résulte mécaniquement des progrès spectaculaires en termes d'efficacité, de qualité et de traçabilité.Grâce au SPC les données circulent parfaitement dans le système, et en cas d'anomalie, l'équipe d'analyse sera la première au courant via une alerte automatisée.

SI le terme «DataOps» doit fortement son nom au DevOps. Ce sont bien trois méthodologies distinctes : Agile, DevOps et contrôle de processus statistique (SPC) - qui constituent le socle intellectuel du DataOps. Agile régit le développement des analyses, DevOps optimise la vérification du code, la construction et la livraison de nouvelles analyses et SPC orchestre et surveille la fabrique de données.

 

Ainsi le modèle DataOps s’impose également comme un nouveau mode collaboratif : les équipes Développement,Opérations pour le déploiement et supervision, Sécurité et gouvernance, DataScientists et Data Engineering étant invitées à collaborer ensemble.

 

Le DataOps et les Data sciences, nouvelles forces motrices du développement d’application ?

 

Bien qu’il s’agisse d’une pratique quelque peu émergente en France, le DataOps sera de plus en plus considéré comme la force motrice qui permettra aux équipes de se rassembler pour créer, gérer, déployer des applications autorisant un usage intensifié des données. Grâce au DataOps, l’entreprise est à même de mieux valoriser les activités liées aux “datas sciences” et au machine learning, en réduisant les délais de mise en production de telles applications. Le DataOps focalise ainsi le développement sur les données, au lieu de l’application elle-même.