Business Application Research Center

Experten für Business Intelligence, Analytics, Big Data, CRM und ECM

BARC-Newsletter

Heutige Einsatzgebiete von Hadoop

RssRss

08.01.2016

Heutige Einsatzgebiete von Hadoop

Immerhin vier Prozent aller Unternehmen haben Hadoop bereits produktiv im Einsatz, weitere 25 Prozent planen dies zumindest. Dies ergab im vergangenen Jahr die BARC-Anwenderbefragung "Hadoop als Wegbereiter für Analytics", an der 250 Unternehmen aller Branchen teilgenommen haben.

Diesen ersten Ansätzen steht eine Mehrheit gegenüber, die entsprechenden Initiativen zumindest nicht abgeneigt ist (49 Prozent) oder aber bislang kein Interesse an Hadoop bekundet (21 Prozent). Letztere Gruppe begründet ihre Haltung in erster Linie damit, dass sie dem Thema keine Relevanz/Priorität  beimisst (61 Prozent) oder fehlendes Wissen einräumt. Insgesamt sehen also Unternehmen Hadoop durchaus als Lösung der zahlreichen Herausforderungen im Big-Data-Umfeld, doch herrscht noch viel Unsicherheit.

Hadoop als Plattform für Datenmassen

Dort, wo sich Hadoop-Initiativen entwickeln, sind die häufigsten Ziele laut BARC-Umfrage technischer Natur: 68 Prozent dieser Anwender benötigen insbesondere eine Plattform für die einfachere Verwaltung großer Datenvolumina, 61 Prozent wollen semi-/unstrukturierte Datenquellen nutzbar machen. Fachlich-analytische Anforderungen hinsichtlich Flexibilität der Datenanalyse (44 Prozent) sowie erweiterte Analysefunktionalitäten (42 Prozent) folgen auf den weiteren Plätzen. Geringer als erwartet fällt hingegen der Punkt „Kosteneffizienz der analytischen Infrastruktur erhöhen“ aus (37 Prozent). Dass Hadoop aktuell ein eher technisch getriebenes Thema ist, zeigt sich zudem daran, dass über der Hälfte der Unternehmen die IT als Vordenker und Treiber von Hadoop sehen.

Das Hadoop-Framework besteht aus einer Sammlung unterschiedlicher Komponenten für die Verwaltung, den Zugriff und die Analyse strukturierter und unstrukturierter Daten. Wenig erstaunlich gehören die ursprünglichen Kernkomponenten, das Programmiermodell MapReduce (67 Prozent) und das Dateisystem HDFS (61 Prozent), zu den am häufigsten eingesetzten oder geplanten Komponenten. Hinzu kommen noch die SQL-Schnittstelle Hive (72 Prozent) und sowie die NoSQL Datenbank HBase (56 Prozent). Überraschend hoch fallen die Werte für Spark (39 Prozent) aus. Bei Spark handelt es sich um eine recht junge in-memory Technologie für die Datenverarbeitung.

Viele Unternehmen programmieren für Hadoop

Rund ein Drittel der Unternehmen mit Hadoop-Erfahrung setzt ausschließlich auf per Hand geschrieben/manuell codierte Programme, beispielsweise mit Java oder R. Die große Mehrheit allerdings verwendet sowohl hand-codierte Programme als auch Standardwerkzeuge (45 Prozent). Eine Integration von Hadoop mit anderen Systemen ist insgesamt noch nicht weit gediehen. Interessant ist ferner zur ersten Orientierung, wo Unternehmen Hadoop einsetzen oder es einzusetzen planen, weil sie sich davon einen Mehrwert erhoffen (siehe Abbildung).

Abbildung: Nutzung bzw. geplante Nutzung von Hadoop (n=67, alle Teilnehmer, die bereits Erfahrung mit Hadoop haben oder eine Initiative planen), Quelle: BARC "Hadoop als Wegbereiter für Analytics".

Danach zeigt sich, dass es nicht den einen übergeordneten Hadoop-Anwendungsfall gibt, sondern sich vielmehr viele Verwendungsmöglichkeiten für Unternehmen eröffnen. Dies wird sich auch nach künftig nicht ändern: Praktisch alle Einsatzszenarien weisen überdurchschnittlich hohe Planwerte auf, sieht man einmal bis zu einem gewissen Grad von der Verwendung von Hadoop als Ablaufumgebung für „klassisches“ BI oder als Ersatz für das Data Warehouse ab.

Ablaufumgebung für fortgeschrittene Analysen

Am häufigsten nutzen Unternehmen Hadoop derzeit als Ablaufumgebung für die fortgeschrittene Analyse/Exploration (24 Prozent). Dies entspricht dem Wunsch vieler Fachbereiche nach einer eigenen, neben dem Data Warehouse existierenden Explorationsumgebung, um flexibel, zeitnah und auf eigene Faust, neue geschäftsrelevante Erkenntnisse gewinnen zu können. Hadoop bietet sich als eine Plattform für fortgeschrittene Analysen/Exploration insbesondere dann an, wenn Fachbereiche Erkenntnisse aus großen Datenmengen mit unterschiedlichen Strukturen generieren möchten, gleichzeitig aber noch keinen klar definierten „Use Case“ haben.

Ein weiteres wichtiges Einsatzgebiet stellt die Nutzbarmachung von Daten im weitesten Sinne dar – sei es als Staging/Landing Area oder zur Datenintegration polystrukturierter Daten. Mittels Hadoop vermögen Unternehmen große Mengen an semi-/unstrukturierter Daten einfacher und kostengünstiger zu speichern, zu verwalten und darauf zu zugreifen. Dies ermöglicht es ihnen, entsprechende Analysen günstiger und skalierbarer durchzuführen und somit einen größeren Mehrwert aus ihren Daten zu generieren.

Hadoop und Data Warehousing

Ferner zeigt sich wie erwähnt, dass Unternehmen Hadoop vor allem als Ergänzung zum Data Warehouse denn als Ersatz sehen und einsetzen. Dieser Ansatz bietet sich vor allem für Daten an, die nicht notwendigerweise in einem Data Warehouse vorgehalten werden müssen, und hat zwei wesentliche Vorteile: Im Data Warehouse entstehen freie Kapazitäten und eine Datenhaltung in Hadoop ist wesentlich kostengünstiger als in einem herkömmlichen Data-Warehouse-System.

Kaum verbreitet sind derzeit Analytik-ferne Einsatzszenarien wie beispielweise zur Unterstützung operativen Anwendungen (15 Prozent) oder als Datenarchiv für Content/Dokumente. Betrachtet man allerdings die Planwerte, soll sich insbesondere Letzteres ändern. Im Vordergrund steht dabei das effiziente Speichern und Verwalten von Daten auf einer Plattform, die schnell und einfach Suchanfragen bearbeiten kann.

Weitere Informationen zu Hadoop entnehmen Sie bitte den BARC-Studien:

BARC auf der OOP - Best Practices und Techniken rund um Hadoop

Praktische Erfahrungen und Hindernisse beim Einsatz von Hadoop, Tipps für die erfolgreiche Umsetzung von Projekten sowie Informationen zu Techniken und Distributionen im Markt stehen im Mittelpunkt des "Hadoop & Big Data Forums @ OOP 2016" von BARC. Die "Special Days" finden im Rahmen der OOP-Konferenz in München am 02. und 03. Februar statt. Die Anmeldung zu den Special Days ist kostenfrei. Hier geht es zur Anmeldung zu den Special Days