mer. Jan 22nd, 2025

 Databricks, la société spécialisée dans les données et l’IA, annonce aujourd’hui qu’elle mettait en open sourcing Unity Catalog, la seule solution unifiée du secteur pour la gouvernance des données et de l’intelligence artificielle (IA) à travers les clouds, les formats de données et les plateformes de données. Cette initiative s’appuie sur l’engagement de Databricks en faveur d’écosystèmes ouverts, garantissant aux clients la flexibilité et le contrôle dont ils ont besoin sans verrouillage des fournisseurs. Databricks ouvre une nouvelle ère pour les normes de catalogue ouvertes pour les données et l’IA avec le soutien d’Amazon Web Services (AWS), Google Cloud, Microsoft, NVIDIA, Salesforce, et plus encore. 

Unity Catalog OSS offre une interface universelle qui prend en charge n’importe quel format de données et moteur de calcul, y compris la possibilité de lire des tables avec les clients Delta Lake, Apache IcebergTM et Apache HudiTM via Delta Lake UniForm. Il prend également en charge les normes d’interface Iceberg REST Catalog et Hive Metastore (HMS). En outre, Unity Catalog OSS assure une gouvernance unifiée des données tabulaires et non tabulaires, ainsi que des actifs d’IA, tels que les modèles de machine learning (ML) et les outils d’IA générative, ce qui permet aux entreprises de simplifier la gestion à l’échelle.

Unity Catalog : Le premier catalogue de données et d’IA

Databricks a lancé Unity Catalog en 2021 pour répondre à la demande des clients : les organisations ont besoin d’un catalogue interopérable pour leurs workloads de données et d’IA. Historiquement, les organisations s’appuyaient sur de multiples solutions différentes à but unique, créant des silos entre les plateformes et entre les actifs de données et d’IA. Ces silos ont rendu difficile la création d’applications de données et d’IA modernes, qui combinent des données tabulaires dans plusieurs formats de table, des données non structurées, des modèles ML, des indices vectoriels et des outils d’IA. Les clients créaient des réseaux complexes pour gérer les silos de métadonnées, copiaient les données à différents endroits ou dans différents formats pour permettre l’accès à divers moteurs, ou maintenaient des solutions bricolées pour synchroniser les métadonnées entre les catalogues. En fin de compte, cela a entraîné une augmentation des coûts et de la complexité, ainsi qu’une faible gouvernance et un contrôle d’accès fragmenté. Unity Catalog élimine ces silos pour plus de 10 000 organisations. 

« Nos clients adorent Unity Catalog. Il leur permet de gérer tous leurs objets de données – données tabulaires, données non structurées et actifs d’IA et de ML – dans une source unique fiable au sein de la Data Intelligence Platform de Databricks, au lieu de coller ensemble plusieurs solutions à usage unique », a déclaré Ali Ghodsi, cofondateur et CEO de Databricks. « Notre plateforme est la seule grande plateforme de données du secteur où toutes les données sont dans un format ouvert par défaut – maintenant, les métadonnées et la gouvernance sont également ouvertes, donnant aux entreprises la solution de gouvernance dont elles ont besoin dans le paysage des données et de l’IA d’aujourd’hui. Nous sommes ravis d’ouvrir Unity Catalog et de publier le code. Nous continuerons à faire évoluer la norme ouverte en étroite collaboration avec nos partenaires. »

Unity Catalog OSS est le seul catalogue universel pour les données et l’IA. Ses principales caractéristiques sont les suivantes :

  • Interopérabilité : Unity Catalog OSS offre une interface universelle qui prend en charge n’importe quel format de données et moteur de calcul, y compris la possibilité de lire des tables avec les clients Delta Lake, Apache IcebergTM  et Apache HudiTM via Delta Lake UniForm. Il prend également en charge les normes d’interface Iceberg REST Catalog et Hive Metastore (HMS). Unity Catalog OSS est interopérable avec toutes les principales plateformes cloud, notamment Microsoft Azure, AWS, GCP et Salesforce ; les moteurs de calcul comme Apache Spark™, Presto, Trino, DuckDB, Daft, PuppyGraph et StarRocks ; et les plateformes de données et d’IA, notamment dbt Labs, Confluent, Eventual, Fivetran, Granica, Immuta, Informatica, LanceDB, LangChain, Tecton et Unstructured.
  • Gouvernance unifiée : Unity Catalog OSS permet une gouvernance unifiée des données tabulaires, des données non tabulaires et des actifs d’IA, tels que les modèles ML et les outils d’IA générative, permettant aux organisations de simplifier la gestion, la découverte et le développement à l’échelle.
  • Ouverture : Avec ses API ouvertes et son serveur open source sous licence Apache 2.0, Unity Catalog OSS maximise la flexibilité et le choix du client en permettant une large interopérabilité entre différents moteurs, outils et plateformes. 

« AT&T s’engage à rendre nos données interopérables avec nos plateformes. Avec l’annonce de l’open sourcing d’Unity Catalog, nous sommes encouragés par la démarche de Databricks pour rendre possible la gouvernance de lakehouse et la gestion des métadonnées grâce à des standards ouverts. La flexibilité d’utiliser des outils interopérables avec nos données et nos actifs d’IA, avec une gouvernance cohérente, est au cœur de la stratégie de plate-forme de données d’AT&T », déclare Matt Dugan, VP Data Platforms AT&T.

« Le Nasdaq est fier d’utiliser Unity Catalog de Databricks dans le cadre de sa stratégie globale de gestion des données », déclare Lenny Rosenfeld, Vice President, Capital Access Platforms, Nasdaq. « La décision de Databricks d’ouvrir Unity Catalog fournit une solution qui aide à éliminer les silos de données et nous sommes impatients d’étendre notre plateforme, d’améliorer notre gouvernance et de moderniser nos applications de données, alors que nous continuons à fournir nos services à nos clients. »

« Chez Rivian, l’adoption de la Data Intelligence Platform de Databricks nous a donné la possibilité d’utiliser les données et l’IA dans la construction de nos VAE de nouvelle génération. Nous sommes ravis que Databricks ouvre le catalogue Unity et publie des API ouvertes pour apporter l’interopérabilité à travers notre paysage de données sans aucune préoccupation de verrouillage du fournisseur. Grâce à la prise en charge de tous nos actifs de données – données structurées et non structurées, modèles ML et outils Gen AI – la décision de standardiser Unity Catalog a été facile à prendre », déclare Jason Shiverick, Director of AI Platforms chez Rivian.

Citations de partenaires Cloud

« AWS se félicite de l’adoption par Databricks de la solution open source Unity Catalog. AWS s’engage à travailler avec l’industrie sur des solutions open source qui permettent le choix et l’interopérabilité pour les clients » déclare Chris Grusz, Managing Director of Technology Partnerships chez AWS. 

« Google s’engage à proposer des solutions ouvertes et flexibles qui permettent aux clients de maximiser la valeur de leurs données. La stratégie de Databricks visant à ouvrir la norme Unity Catalog pour les données et l’IA s’aligne très bien avec notre stratégie » déclare Ritika Suri, Data and AI Technology Partnerships chez Google Cloud.

« Microsoft s’engage auprès de la communauté open-source et donne le choix à ses clients. Databricks est un partenaire stratégique depuis des années et il est formidable de les voir ouvrir Unity Catalog. Nous pensons que des normes réellement ouvertes avec une large participation de l’industrie sont dans le meilleur intérêt des clients. Notre collaboration avec Databricks continue d’élever Microsoft Azure au rang de meilleur choix pour les workloads liées aux données et à l’IA » déclare Jessica Hawk, CVP, Data, AI, Digital Applications, Microsoft. 

« Salesforce Data Cloud est construit à partir de standards ouverts avec Apache Parquet et Apache Iceberg. Nos innovations sans copie permettent aux clients d’exploiter les données, d’obtenir des informations et d’orchestrer des actions à travers le Customer 360. L’adoption par Databricks d’Apache Iceberg via UniForm et Unity Catalog répond aux principaux défis d’interopérabilité entre Delta Lake et Iceberg. Nous sommes ravis de compter Databricks parmi les membres de notre réseau de partenaires Zero Copy et nous nous réjouissons des innovations conjointes avec le nouveau catalogue ouvert Unity Catalog, offrant à nos clients une valeur ajoutée convaincante en matière de données structurées, de données non structurées et de modèles d’IA » déclare Ravi Loganathan, EVP, Salesforce. 

Citations de partenaires technologiques Data et IA

« La mission de Confluent est de mettre les données en mouvement et de permettre aux organisations de tirer profit de leurs données partout. Nous sommes ravis de voir Databricks apporter une contribution significative à un écosystème de données ouvertes avec Unity Catalog qui devient open source. Tableflow sur Confluent Cloud permettra de fournir facilement des données en temps réel à des endroits tels qu’un data lake en transformant les flux de données en tables Iceberg d’un simple clic. En combinant nos fonctionnalités de streaming de pointe avec les solutions de gestion de données robustes de Databricks, les clients seront en mesure de mettre leurs données au travail plus efficacement que jamais » déclare Shaun Clowes, Chief Product Officer, Confluent.

« Ensemble, Databricks et dbt Cloud aident les utilisateurs à briser les silos de données pour collaborer efficacement, à simplifier l’ETL pour réduire le coût total de possession avec Delta Lake, et à unifier la gouvernance avec Unity Catalog. Nous sommes ravis d’annoncer notre soutien à Unity Catalog OSS et aux API ouvertes. Ce partenariat souligne notre engagement à fournir une expérience unifiée des données, permettant à notre communauté d’obtenir de meilleures informations et de stimuler l’innovation », déclare Mark Porter, CTO chez dbt Labs.

« Delta Kernel a considérablement simplifié la construction de l’extension Delta de DuckDB, permettant un accès facile à Delta Lake à partir de DuckDB. Nous sommes ravis de nous associer à Databricks sur Delta Kernel et la norme ouverte Unity Catalog pour les données et l’IA. Cette collaboration représente une avancée significative dans l’innovation open source et le développement de lacs de données ouverts » déclare Hannes Mühleisen, PDG de DuckDB Labs.

“Chez Eventual, nous avons créé Daft, le premier moteur de requête distribué open source pour les données multimodales. Nous pensons qu’il ne suffit pas d’unifier le calcul pour les données tabulaires et non structurées et qu’un catalogue multimodal est essentiel pour construire des entrepôts de données GenAI. Nous sommes ravis de nous associer à Databricks et à d’autres innovateurs en matière d’IA pour développer le standard ouvert Unity Catalog pour les données modernes et les workloads d’IA », a déclaré Sammy Sidhu, CEO d’Eventual. 

« Nous sommes ravis de voir Databricks ouvrir Unity Catalog en tant que open standard pour les données et l’IA. Cette évolution offrira à nos clients un plus grand choix et une plus grande flexibilité dans leur écosystème de données, en assurant une intégration transparente et en maximisant l’interopérabilité avec la plateforme de Fivetran lorsqu’ils ingèrent des données critiques dans Databricks » déclare Anjan Kundavaram, Chief Product Officer chez FiveTran. 

« Chez Granica, nous défendons la démocratisation des données et l’absence de verrouillage des fournisseurs. Notre technologie Safe Room garantit la confidentialité, la confiance et la sécurité dans les workflow d’IA générative tout en prenant en charge des open standard telles que Unity Catalog et Apache Iceberg. L’architecture neutre d’Unity Catalog et ses solutions de gouvernance robustes s’alignent sur notre vision qui consiste à offrir aux clients flexibilité et contrôle sur leurs données. Nous sommes ravis de contribuer à cet écosystème ouvert, en stimulant l’innovation et en permettant aux clients de travailler de manière transparente avec leurs données sur les meilleures plateformes » déclare Rahul Ponnala, cofondateur et CEO de Granica.

« L’exposition des modèles d’accès natifs dans Unity Catalog a transformé la façon dont notre entreprise est en mesure de rationaliser l’accès aux données et d’appliquer des règles de gouvernance à l’échelle – sans impact sur les performances. L’investissement continu de Databricks dans une communauté pour accélérer les services afin de rendre les contrôles de données plus faciles à construire permet à nos clients de gouverner avec plus de facilité et de gérer le volume massif de nouveaux consommateurs de données embarqués à l’ère de l’IA » déclare Matthew Carroll, CEO d’Immuta.

« Nous sommes ravis de voir les opportunités qui s’offrent à nos clients communs lorsque Databricks ouvre Unity Catalog en tant que open standard pour les données et l’IA. Avec Unity Catalog OSS et le Cloud intelligent de gestion des données d’Informatica, les clients peuvent bénéficier de plus de choix, de flexibilité et d’interopérabilité dans leurs écosystèmes de données » déclare Brett Roscoe, GM et SVP Cloud Data Governance and Cloud Operations chez Informatica. 

« La décision de Databricks d’ouvrir Unity Catalog est un développement passionnant pour la communauté des données et de l’IA. Nous sommes ravis de nous associer à Databricks pour intégrer Unity Catalog à LangChain, ce qui permet à nos utilisateurs communs de construire des agents avancés en utilisant les fonctions d’Unity Catalog comme outils » déclare Harrison Chase, CEO de Langchain. 

« Les données d’entreprise sont essentielles pour développer des applications d’IA générative précises. NVIDIA travaille en étroite collaboration avec son écosystème de partenaires pour soutenir des offres open-source comme Databricks Unity Catalog, qui peuvent aider les clients à créer des pipelines de développement efficaces et puissants » déclare Pat Lee, VP of Strategic Enterprise Partnerships chez NVIDIA.

« L’ouverture d’Unity Catalog est une étape cruciale vers un écosystème de données plus collaboratif et innovant. En rendant cette technologie accessible, Databricks favorise un environnement dans lequel l’ensemble de la communauté peut contribuer et bénéficier d’une meilleure gouvernance des données et de fonctionnalités de gestion. Cette démarche s’inscrit dans la vision de Onehouse et d’Apache XTable (Incubating), qui consiste à soutenir l’interopérabilité des formats ouverts, source de progrès et d’innovation pour tous » déclare Vinoth Chandar, fondateur et CEO de OneHouse.

« Unstructured est la principale solution ETL de données non structurées pour les LLM – aidant les organisations à transformer leurs données de l’état brut à l’état prêt pour le RAG. Notre partenariat avec Unity Catalog OSS est parfaitement logique, car nous brisons les silos de données et accélérons le développement de l’IA/ML dans les entreprises. Nous sommes ravis de nous associer à Databricks pour développer cette norme ouverte pour les cas d’utilisation de l’IA et pour normaliser les métadonnées pour les données non structurées – aidant ainsi nos clients à opérer à la pointe de l’IA » déclare Brian Raymond, CEO d’Unstructured.

Avec l’annonce d’aujourd’hui, Databricks continue de montrer la voie en matière de gouvernance des données et de l’IA, en encourageant un écosystème d’outils interopérables, une prise en charge universelle des actifs de données et d’IA, et une sécurité intégrée.

Disponibilité

Unity Catalog OSS sera disponible au Data + AI Summit.

À propos de Databricks

Databricks est une société de données et d’IA. Plus de 10 000 organisations dans le monde – dont Comcast, Condé Nast, Grammarly et plus de 50 % des entreprises du Fortune 500 – s’appuient sur la plateforme de Data Intelligence de Databricks pour unifier et démocratiser les données, l’analytique et l’IA. Databricks a son siège à San Francisco, avec des bureaux dans le monde entier, et a été fondée par les créateurs originaux de Lakehouse, Apache Spark™, Delta Lake et MLflow. Pour en savoir plus, suivez Databricks sur LinkedIn, X et Facebook.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *