loader image

La Data Virtualisation, cette technologie qui bouleverse l’écosystème data

Cydnos - Conseil en management et technologies

La Data Virtualisation, cette technologie qui bouleverse l’écosystème data

Selon Forrester, la forme d’intégration des données qui va croître le plus rapidement ces prochaines années sera la virtualisation des données. Pourquoi un tel engouement pour la data virtualisation? Certainement parce que la data virtualisation révolutionne les stratégies d’accès et de gestion de données avec des outils utilisés pour créer, exécuter et gérer des services de données bien plus rapidement que les approches traditionnelles tels que les ETL par exemple et avec en plus, bien mois de ressources.

data virtualization
Exemple d’un data lake virtuel hybride

Alors, comment ça marche la data virtualisation?

La data virtualisation intègre des données provenant de sources disparates sans copier ni déplacer les données, offrant ainsi aux utilisateurs une seule couche virtuelle couvrant plusieurs applications, formats et emplacements physiques. Cela signifie un accès plus rapide et plus facile aux données.

Techniquement, la data virtualisation se base sur un moteur d’exécution qui utilise le langage SQL et se connecte simultanément aux sources de données structurées (relationnelles), non-structurées ou semi-structurées (XML, Json). Le moteur d’exécution restitue généralement l’information dans un format lignes-colonnes.

Quels sont les avantages de la data virtualisation?

La data virtualisation est ce qu’il se fait de mieux en matière d’intégration de données car, contrairement aux outils classiques d’intégration de données, la data virtualisation n’exige pas la réplication des données, leur transfert et leur stockage physique à de multiples endroits. Ces nouveaux processus d’intégration sont bien plus efficients que les processus d’intégration classique car ils offrent plus de rapidité et de fiabilité.

Quels sont les principaux cas d’usage de la data virtualisation?

Les cas d’usage les plus courants:

Intégration de données
Toutes les entreprises disposent de données provenant de nombreuses sources de données et désirent réaliser des analyses croisées. La data virtualisation permet d’imaginer des liens entre une base de données relationnelle classique avec une base de données NoSQL, une API REST, une API SOAP. Ainsi la data virtualisation permet de connecter les bases les unes aux autres et cela reste complètement transparent pour l’utilisateur final.

Entrepôts de données logiques
L’entrepôt de données logique est similaire fonctionnellement à un datawarehouse traditionnel, à quelques exceptions près. Contrairement à un datawarehouse où les données sont préparées, filtrées et stockées, aucune donnée n’est stockée dans un EDL (Entrepôt de Données Logique). Un EDL fédère toutes les sources de données et fournit une plateforme unique pour l’intégration à l’aide d’une gamme de services, tels que SOAP, REST, Odata, etc.

Big Data et analyse prédictive
Le Big Data et l’analyse prédictive sont construits sur des sources de données hétérogènes (données structurées, données non structurées). La data virtualisation est particulièrement adaptée dans ce cas

Utilisations opérationnelles
Qui n’a jamais rêvé d’accéder en temps réel à toutes les données de l’entreprise à un seul endroit? Un acteur de la grande distribution pourrait, par exemple, imaginer accéder à toutes les données d’un client à un seul endroit en temps réel. A l’appel d’un client pour une réclamation, le conseiller, s’ils disposent des informations concernant les habitudes d’achat, le profil, le montant moyen du ticket de caisse, dernier article scanné, etc. sera bien plus efficace.

Confidentialité et sécurité
La data virtualisation permet d’isoler une source de données particulière de certains utilisateurs qui ne devraient pas avoir accès à ces données.

De quoi est constitué une plateforme de data virtualisation?

Les solutions de data virtualisation comportent trois composants principaux

Outils de développement : La plateforme de data virtualisation doit faciliter l’accès à l’information et permettre de créer des relations entres les entités le plus simplement possible.

Environnement de run : L’environnement de run est l’exécutable par lequel toutes les informations transitent. On y trouve des modules qui sont utilisés par le serveur pour optimiser les requêtes, faciliter la gouvernance et la traçabilité des données, introduire la sécurité, etc.

Environnement de gestion et de monitoring : Il constitue l’environnement d’administration de la solution de data virtualisation. Il permet d’envoyer un package vers un serveur, de créer des serveurs pour déployer plusieurs machines et de monitorer l’ensemble des activités.

Les principaux acteurs du marché de la data virtualisation

Fournisseur / ProduitLogoPrincipales caractéristiques Facteurs différenciant
Actifioactifio-logo-png - SybylOptions de déploiement physique et virtuel.Restauration et restauration intégrées. 
Atscale79% of Enterprises Want Better Integrated Security and Governance for Their  Data in the Cloud | Business WireTechnologie de cache adaptative pour des performances de requête optimisées.Fonctionne bien avec les référentiels et entrepôts de données sur site et dans le cloud.De nombreuses options d’intégration avec les outils de Business Intelligence.
Data VirtualityData Virtuality | High-Performance Data VirtualizationRequête de données basée sur SQL. Capacité de réplication des données pour les grands ensembles de données qui ne peuvent pas être facilement virtualisés.Collecte et virtualisation optimisées au niveau des fichiers de données à partir de sources de données.
DenodoDenodoGouvernance des données pour la conformité et la confidentialité.Fonctionnalités de catalogue de données qui aident les utilisateurs à trouver les bonnes données à analyser.
IBM Cloud Pak for DataFichier:IBM logo.svg — WikipédiaInterface glisser-déposer pour les transactions ETL. Contrôles de flux de travail intégrés pour l’analyse et la gouvernance des donnéesSolution convergente pour la virtualisation et l’analyse des données
Informatica – PowerCenterNOTRE EXPERTISE DATA INFORMATICA - Solution BIAnalyse d’impact des efforts d’intégration de données. GUI pour la modélisation des donnéesOutils intégrés de qualité des données
Oracle Data Service IntegratorDemande de devis licence oracle data integrator - Next DecisionAccès aux données en temps réel. Capacité de lire et à écrire des données à partir de plusieurs sources.Gestion de la confidentialité et de la conformité.
Red Hat JBoss Data VirtualizationAnnouncement: Red Hat JBoss Data Virtualization on OpenShift now available  - Red Hat DeveloperL’accès à la couche d’abstraction de base de données virtuelle s’effectue via une interface standard. Intégration avec JBoss Data Grid pour des recherches accélérées.Intégration avec Kubernetes et les environnements basés sur des conteneurs.
TIBCO Data VirtualizationTIBCO Data virtualization video tutorials Relational Data Source  Connections - YouTubeMoteur de transformation intégré pour les sources de données non structurées.Possibilité de créer des services de données à partir de données virtualisées.

En conclusion, la data virtualisation change le paradigme de gestion et d’analyse des données, en réduisant drastiquement le temps alloué au transfert, à la préparation et au traitement des données avant leur analyse.

CYDNOS