Business Application Research Center

Experten für Business Intelligence, Analytics, Big Data, CRM und ECM

BARC-Newsletter

Datenmanagement und Hadoop

RssRss

09.03.2015

Datenmanagement und Hadoop

Steigende Anforderungen aus den Fachbereichen bei der Datenanalyse und wachsende Datenmengen lassen bisherige relationale Datenbanksysteme immer öfter an ihre Grenzen stoßen. Sie sind zu inflexibel, zu teuer und, da sie historisch gewachsen sind, meist zu komplex in der Wartung und Weiterentwicklung.

Innovative Technologien wie analytische Datenbanken mit ihrer spaltenbasierten Tabellenverwaltung und ihren In-memory-Verfahren, sowie NoSQL- und Hadoop-Techniken können hier einen Ausweg eröffnen.  Die Hadoop-Technologie konzentriert sich diesbezüglich auf die Frage, wie strukturierte (tabellarische) sowie unstrukturierte (z. B. Text-, Bild-, Audio-, Video-Daten) kostengünstig und skalierbar abgelegt, verwaltet, zugegriffen und ausgewertet werden können.

Steigende Investitionen in den Hadoop-Markt

Das gewachsene Interesse der Anwender an Big Data und Hadoop zeigt sich beispielsweise darin, dass innerhalb eines Jahres (Dezember 2012 und Januar 2014) die Investitionen in die marktaktivsten Hadoop-Anbieter um 70 Prozent von 233 Millionen US-Dollar auf 402 Millionen US-Dollar gestiegen sind. Nachfrage besteht dabei vor allem nach Infrastrukturtechnologie und weniger nach Hadoop-basierten Analysewerkzeugen. Dies erklärt sich daraus, dass es Anwendern aktuell vor allen an Technologie mangelt, mit der sie unstrukturierte und große Datenmengen verwalten und im Zugriff halten können, während man bei der Auswertung auf vorhandene (BI-)Analysewerkzeuge setzt.

Allerdings wird das Potential der Hadoop-Technologie bei alleiniger Nutzung traditioneller Reporting- und Analysewerkzeuge nur zu einem Teil ausgeschöpft. Die zu erfüllende Anforderung besteht darin, aus unstrukturierten Daten (zum Beispiel Bildinformationen, Logfile-Daten, Audiodaten, Texte) strukturierte Informationen auslesen zu können, um diese weiterzuverarbeiten (Interpretation von Texten, um das aktuelle Stimmungsbild zu verfolgen; Analyse von Informationen diverser Quellen wie E-Mails und Dokumentenablagen, um die Relevanz von Begriffen im Zeitverlauf auszuwerten). Sollen diese Aufgabenstellungen nicht durch aufwändige Eigenprogrammierung umgesetzt werden, benötigt man spezielle Werkzeuge, die es ermöglichen, eine Struktur auf unstrukturierte Daten zu legen und sie somit auswertbar zu machen.

Anwendungsgebiete für Hadoop

Das Hadoop-Framework besteht aus einer Sammlung von Komponenten für die Verwaltung, den Zugriff und die Analyse strukturierter und unstrukturierter Daten. Als Plattform zur effizienten Umsetzung von Big-Data-Lösungen sind dabei viele Anwendungsgebiete denkbar:

  • Supply Chain Monitoring und Optimierung
  • Maschinen-Überwachung und Serviceplanug
  • Textanalyse auf Stichwörter, Stimmungen, Themen
  • Social Media Monitoring und Kampagnenmanagement
  • Web-Personalisierung
  • Next Best Offer / Activity, zum Beispiel für Web-Shops & Call Center
  • Betrugsentdeckung in Event-Streams, Netzwerken, CDRs
  • Systemmonitoring

Das Hadoop-Framework bietet als Speicher- und Ausführungsplattform für Eigenentwicklungen mit Big-Data-Anforderungen zahlreiche Komponenten, einen breiten Fundus an Funktionen und ermöglicht eine offene Programmierung mittels Java. Ebenso lässt sich Hadoop dank seines verteilten Dateisystems und der Nutzung von Standard-Hardware als einfachen, horizontal skalierenden Speicherort für polystrukturierte Daten nutzen.

Durch die Möglichkeit der Aufnahme großer Mengen an Rohdaten kann es zudem als „Staging Area“ verwendet werden. Diese Staging Area eignet sich beispielsweise als Plattform für Datenvorverarbeitung in Data-Warehouse-Umgebungen oder als Umgebung auf der individuelle analytische Methoden umgesetzt werden können (welche schließlich auch ihre Ergebnisse an nachgelagerte Systeme weitergeben können). Und schließlich kann eine Hadoop-Umgebung vorhandene Datenbanken entlasten und als Archiv dienen, indem es per „Near-Line Storage“ selten genutzte Daten vorhält oder im Stil des „Corporate Memory“ kostengünstig große Mengen von Transaktionsdaten speichert.

Vorteile von Hadoop

Technisch betrachtet bietet das Hadoop-Framework Im Vergleich zu traditionellen Technologien eine Reihe von Vorteilen und Möglichkeiten:

  • Sehr große Datenmengen können gespeichert und verarbeitet werden.
  • Polystrukturierte Daten können flexibel aufgenommen werden
  • Unterstützung von „Late-Binding“-Konzepten. Bei diesen werden Daten ohne oder mit vergleichsweise wenig Wissen über die spätere Verwendung ohne oder mit nur geringem Aufbereitungsaufwand abgelegt. Das eigentliche „Nutzbarmachen“ der Daten geschieht erst, wenn der Anwendungsfall eintritt: So werden die unstrukturierten Daten – beispielsweise Videodaten – erst zum Abfragezeitpunkt strukturiert (beispielsweise wird ein Algorithmus entwickelt, der bestimmte Personen identifiziert).
  • Die Individualentwicklung wird durch ein umfangreiches Framework unterstützt.
  • Das Open-Source-Angebot steht für Offenheit und Weiterentwicklung durch eine weltweit engagierte Community, bestehend aus Freiwilligen und vor allem durch IT-Unternehmen gestellte Mitarbeiter.
  • Horizontale Skalierbarkeit durch ein verteiltes Dateisystem und Nutzung von Standardhardware.
  • Eingebaute Funktionen für Redundanz, vorwiegend zum Zweck der parallelen Verarbeitung von verteilten Daten.
  • Die Performance in der Batch-Verarbeitung von unstrukturierten Daten, sowie Massendaten ist tendenziell besser.
  •  Die reinen Softwarekosten sind aufgrund des Open-Source-Ursprungs niedrig.
  • In der neuen Version auch geeignet für Realtime-Analytics.

Herausforderungen mit Hadoop

Demgegenüber gibt es heute aber auch noch Vorbehalte gegenüber der Hadoop-Technologie So ist die Technologie selbst ist im Unternehmenseinsatz noch nicht breit erprobt und führt neue Denkweisen und Konzepte ein. Weitere Herausforderungen sind:

  • Die Reife beziehungsweise Stabilität der Komponenten, insbesondere für allgemeine Datenmanagement-Aufgaben (z. B. Datenintegration, Stabilität, Hochverfügbarkeit, Disaster Recovery, Snapshots, Isolation Management, Load Management) ist noch nicht so weit entwickelt wie bei etablierten Data-Warehouse-Systemen.
  • Die Richtung der Weiterentwicklung der Open-Source-Hadoop-Distributionen durch die Community ist nicht fest definiert (allerdings können kommerzielle Distributoren meist eine verbindlichere Roadmap vorweisen und treiben die Entwicklung zielgerichtet voran).
  • Die Verarbeitung geschieht vorwiegend batch-orientiert. Hadoop-Initiativen, die eine SQL-Schnittstelle für einen flüssigen ad-hoc-Zugriff vorantreiben, befinden sich aktuell in einem frühen Entwicklungsstadium (Cloudera Impala vs. Hortonworks Stinger, Drill).
  • Die integrierten Sicherheitsfunktionen (zum Beispiel Verschlüsselung) sind noch recht schwach ausgeprägt
  • Die Integration mit etablierten Datenbanken ist noch recht eingeschränkt.
  • Der Aufwand für Wartung und Betrieb ist durch einen vergleichsweise hohen Eigenentwicklungsanteil noch recht hoch.
  • Ressourcen und Erfahrungen sind nur eingeschränkt verfügbar.
  • Nutzbarkeit durch den heutigen Fachbereich wird durch fehlende Schnittstellen erschwert (beispielsweise eine umfassende SQL-Schnittstelle).
  • Auch Hadoop folgt dem Prinzip der Quasi-Konsistenz. Die integre und konsistente Ablage von Daten muss über die Applikation sichergestellt werden

Die diversen Softwareanbieter sind sich dieser Schwächen bewusst und versuchen mit ihren Angeboten entsprechend gegenzusteuern.

Viele Unternehmen haben mittlerweile den Mehrwert von Hadoop erkannt und beeinflussen dessen weitere Entwicklung als Plattform in Enterprise-Umgebungen. Dabei geht es um Aspekte wie Performance, Stabilität, Security, Analysefähigkeit, Nutzbarkeit (bspw. in Form eines ausreichenden SQL-Zugriffs), Wartbarkeit oder Administrierbarkeit, die in der ursprünglichen Apache Hadoop Distribution eher schwach ausgeprägt sind. Zudem ist die Frage des verlässlichen Supports und der Haftung zu klären – ein „General Availability (GA)“ Vermerk für Open-Source-Hadoop-Projekte heißt nichts anderes als „fehlerfrei kompiliert“.

Diesem Gedanken folgend, versuchen diverse Anbieter am Markt, eigene Distributionen zu positionieren, die die genannten Schwachstellen durch eigene Bausteine oder Erweiterungen verbessern.

Unterschiede Hadoop-Distributionen

Das Angebot von Distributionen am Markt verändert sich entsprechend stark, was zudem noch dadurch beschleunigt wird, dass das Open-Source-Projekt Apache Hadoop eine entwicklergetriebene, schnelle Weiterentwicklung durchläuft. Der Markt an kommerziellen Distributionen kann in mehrere Segmente unterteilt werden:

  • Reine Hadoop Distributionen
  • Software-Stack-Anbieter
  • Speicherlösung-Anbieter mit Hadoop-Angebot sowie
  • Cloud-Service-Anbieter.

Interessant in der Marktbetrachtung ist, dass neben reinen Softwareanbietern vor allem auch Hardwareanbieter den Softwaremarkt für sich entdeckt haben und eigene Hadoop Distributionen anbieten, die punktuell bestimmte Funktionen dank entsprechender Hardwareoptimierung besonders gut unterstützen (z. B. Kompression, Verschlüsselung). Die Angebote basieren meist auf Apache Hadoop oder aber Hortonworks, einer Distribution, die, getrieben durch Apache-Entwickler, sich zum Ziel gesetzt hat, vor allem die Hadoop-Funktionen und ihre Performance weiterzuentwickeln.

Allen Distributionen gemein ist, dass deren Anbieter vor allem beim Datenmanagement versuchen, die vielen Werkzeuge (für Integration, Speicherung, Zugriff, Analyse und Business Intelligence Reporting) unter einer einheitlichen Administrationskonsole einfacher verwaltbar zu machen. Zugleich sind hier sowie in den Bereichen Security, Analytics und Benutzerfreundlichkeit deutliche Tendenzen zu erkennen, sich bei der Ausgestaltung und Umfang von den Konkurrenten zu differenzieren. Die Folge ist, dass sich der Markt – aber auch das Hadoop-Framework – ständig weiterentwickelt. Auch das Angebot an Analysewerkzeuge auf Hadoop-Distributionen nimmt dabei spürbar zu. Unternehmen sollten daher den Markt genau beobachten und auch eine bereits eingesetzte Distribution nochmals evaluieren, um beispielsweise nicht teuer für einen „added value“ einer Distribution zu bezahlen, der anderswo zum Lieferumfang gehört.

Informationen und Hilfe zu Hadoop und Big Data

  • Die BARC-Studie „Hadoop Distributoren“ bietet einen aktuellen Überblick über die fünf Hadoop-Distributionen Cloudera, Hortonworks, IBM, MapR und Pivotal. Zudem werden die Grundlagen der Hadoop-Technologie im Hinblick auf das Datenmanagement, die wesentlichen Komponenten des Hadoop-Technologie-Pakets sowie Anwendungsfälle erläutert. Weitere Informationen zu den Hadoop-Distributionen finden Sie hier.

 

 

  • In den Expertenworkshops zu Big Data vermitteln Ihnen die BARC-Analysten alles, was Sie für Ihre Big-Data-Strategie benötigen – von der Marktübersicht, über eine Analyse der zentralen Techniken bis hin zu Best Practices bei der Produktauswahl und Projektierung von Big-Data-Vorhaben. Weitere Informationen zu den Workshops rund um Big Data finden Sie hier.