Business Application Research Center

Experten für Business Intelligence, Analytics, Big Data, CRM und ECM

BARC-Newsletter

Der große Data-Catalog-Marktvergleich – Teil 1

RssRss

18.11.2021

Der große Data-Catalog-Marktvergleich – Teil 1

Im BARC-Webinar stellten sich 6 Anbieter dem direkten Vergleich – ein Webinarbericht unseres Data-Management-Experten Timm Grosser

Data Catalogs unterstützen dabei, Daten zu finden und zu verstehen. Im erweiterten Sinne fördern sie auch Data Governance und sogar den direkten Datenzugriff. Das klingt einfach, ist es aber nicht.

Die Initiativen zur Implementierung und zum Betrieb eines Data Catalogs sind umfangreich. Data Catalogs bieten wertvolle Struktur, Automatisierung und Funktionalität, um Metadatenprojekte erfolgreich umzusetzen und weiterzuentwickeln. Aber warum der ganze Aufwand?

Die Vorteile von Data Catalogs liegen vor allem darin, dass sie die Fachabteilungen agil und flexibel machen und zeitgleich Datenkonsistenz, Transparenz und Sicherheit gewährleisten. Der Bedarf eigene Daten finden zu können und zu verstehen ist hoch. Entsprechend hoch ist damit auch die Nachfrage nach Data Catalogs.

Der Markt für Data Catalogs wächst stetig und wir zählen bereits mehr als 80 Lösungen für Data Cataloging.

Im BARC-Webinar traten drei Data-Catalogs-Marktführer – Alation, Collibra und Informatica – gegen drei Herausforderer – dataspot., Synabi und Zeenea – an, um ihre Produkte in einem direkten Toolvergleich live zu demonstrieren.

In diesem Blog blicken wir auf die Performance der drei Marktführer Alation, Collibra und Informatica. In Teil zwei sprechen wir über die drei Challenger und im dritten Teil der Blogserie blicken wir auf die Ergebnisse zurück.

Das Webinar ist on demand verfügbar. Hier gelangen Sie auch zur Aufzeichnung:

Webinar on demand ansehen

Ein Szenario sorgt für eine bessere Vergleichbarkeit

Um die Tools besser vergleichen zu können, haben wir ein Szenario vorgegeben, an welchem die Anbieter ihre Lösung für Data Democracy aufzeigen sollten.

Jeder Anbieter hatte 20 Minuten Zeit, seine Lösung möglichst live im Tool zu präsentieren. Im Anschluss konnten die Anbieter jeweils in einem fünfminütigen Q&A Fragen beantworten. Ziel war es, die differenzierenden Merkmale der Lösungen für diesen Use Case aufzuzeigen. Mit diesem Szenario ließen sich die Unterschiede der Produkte klar definieren.

So haben sich die drei Marktführer präsentiert

Informatica

Kash Mehdi, Data Governance & Privacy Segment Leader, präsentierte die Data Governance Catalog Module von Informatica. Noch im letzten Jahr sahen wir in dem Webinar unterschiedliche Werkzeuge. In der heutigen Präsentation wirkte der Workflow im Werkzeug durchgängig aus einem Guss. Ins Zentrum der Aufgabenstellung Data Democracy rückte Informatica den Data Marketplace als Bestandteil des erwähnten Moduls.

Danach sahen wir eine durchgängige Data Shopping Experience. Vom Einstellen von Metadaten Suche, Shopping und der Bereitstellung bis hin zum Monitoring wurde alles erwähnt. Zur Orientierung auf dem Marktplatz für den Data Shopper zeigte Informatica übersichtliche Suchfunktionen oder Hilfsmittel zur Bewertung und Eingrenzung der Treffermenge wie Ratings.

Ist der Datensatz der Wahl einmal identifiziert, kann über einen Checkout-Button der Datenzugriff beantragt werden. Wie dies erfolgen soll, kann über das UI konfiguriert werden. Voraussetzung für das nahtlose Shopping-Erlebnis ist, dass entsprechende Transportmechanismen hinterlegt sind und diese angesteuert werden können.

Aus Perspektive des Data Stewards wurde ein Set an Governance-Funktionalitäten (Datenqualität, Policies, Freigabeprozesse, Aufgabendashboards) vorgestellt. Interessant hier war die Erwähnung der eingebauten ML-Funktionalität, die dabei helfen soll, Daten zu klassifizieren oder zu finden. Darüber hinaus erwähnenswert sind die Overlay-Effekte, die es ermöglichen, Kontextinformationen (bspw. DQ-Metriken) an Prozessschritten in einem Businessprozess anzuzeigen.

Informatica war zudem der einzige Anbieter, der individuelle Katalogbereiche für unterschiedliche Unternehmensbereiche aufgezeigt hat.

In der Q&A wurde Informatica nach der Messung der Datenqualität gefragt. Zudem wurde nach einem Bericht gefragt, in dem semantische Inkompatibilitäten zwischen Daten veröffentlicht werden. Die Q&A und das gesamte Webinar können Sie sich auch on demand ansehen.

Webinar on demand ansehen

Collibra

Paul Dietrich (Area Vice President DACH) und Guido Bilstein (Senior Solution Engineer) lieferten eine gute und klar strukturierte Präsentation ihres „one stop shop for data“. Der schnelle Einstieg in den Data Catalog für den/die gewöhnliche/n Nutzer:in erfolgte über die „Collibra for Desktop“ Applikation, die per „Hotkey“ zu den gewünschten Kontextinformationen des markierten Objektes führte.

Im Anschluss wurde ein anschaulicher, kollaborativer Prozess eines Data Shoppers, Data Stewards und Business Analysts gezeigt, die sich untereinander austauschten und „Aufgaben“ systemgestützt zuschoben.

Entlang der Demonstration wurden viele Funktionen gezeigt, wie beispielsweise die Klassifikation durch Machine Learning während des Metadaten-Lesens, Data Lineage, Profiling oder Policies.

Insgesamt wurde ein guter Einblick in den Workflow des Tools gegeben. Im Hinblick auf den Datenzugriff löste Collibra die Aufgabenstellung mit einem „Request for Data“-Button, der einen Freigabeprozess entsprechend den Unternehmensrichtlinien ansteuern kann.

Die Abstimmung der Live-Zuschauer:innen über die Top 3 Stärken von Collibra’s Tool.
Die Abstimmung der Live-Zuschauer:innen über die Top 3 Stärken von Collibra’s Tool.

In der Q&A ging es um die Verbindung zwischen geschäftigen und technischen Metadaten und eine automatische Abstammung. Die Q&A und das gesamte Webinar können Sie sich hier on demand ansehen:

Webinar on demand ansehen

Alation

Christian Herzog, Senior Sales Engineer bei Alation, hob die Relevanz von Personen und einer Organisation für eine Datendemokratie hervor. Zudem gab er an, dass es eine Datenkultur dafür brauche. Die Präsentation zeigte zu Beginn einen Tippfehler in der Suche des Datenkataloges, der prompt vom System korrigiert wurde und zu den richtigen Treffern führte. Der gewollte Tippfehler war jedoch recht einfach.

Mit Blick auf die jüngste Übernahme von Lyngo Analytics durch Alation bin ich gespannt, was zukünftig möglich sein wird. Denn Lyngo Analytics ist auf Natural Language Processing spezialisiert. Gut nachvollziehbar wurden auch hier die gewünschten Personas in Szene gesetzt und betont, dass die Anwender:innen mit der Nutzung des Datenkataloges durch Warnings, Endorsements und weiterführende Informationen lernen und quasi ihre Datenkompetenz aufbauen.

Funktionen wie ML für die Klassifizierung, interaktive Data Lineage, Suchfunktionen und weitere wurden natürlich vorgestellt. Als ein Highlight stellte sich die Nutzung von „Usage Metadaten“ heraus. Diese helfen sowohl dem Konsumenten als auch Data Stewards, Datensätze anhand ihrer Popularität besser einschätzen und priorisieren zu können. Diese Information gewinnt Alation aus den Logs der angeschlossenen Systeme.

Alation zeigte als einziger Hersteller, mit welchen SQL-Statements Daten typischerweise abgefragt werden. Dies gibt dem Data Steward einen besseren Einblick darin, wie Daten verwendet werden und mit welchen Tabellen die Daten typischerweise verlinkt werden. Alation vertritt die Ansicht, dass eine einzige Person nicht alles wissen könne. So wurde eine Funktion vorgestellt, die es einem Datenkurator (Steward) ermöglicht, die Top-Nutzer:innen für ein Datenobjekt identifizieren und mit ihnen in Kontakt zu treten, um die Informationen zu den Daten zu vervollständigen. Der Datenzugriff an sich wird auch in Alation über einen Workflow initiiert.

Zuletzt hervorzuheben ist der Alation Composer, ein SQL-Editor, der den/die Anwender:in dabei unterstützt, Queries zu bauen, jedoch unter Berücksichtigung der vorhandenen Kontextinformationen aus dem Datenkatalog.

In der Q&A waren eine Historie im Datenverlauf, NoSQL / Hadoop oder SPARQL-graph-databases Thema. Die Q&A und das gesamte Webinar können Sie sich auch on demand ansehen.

Webinar on demand ansehen

Im nächsten Beitrag dieser dreiteiligen Blogserie blicken wir auf die Performance der drei Marktchallenger – dataspot, Synabi und Zeenea.