Business Application Research Center

Experten für Business Intelligence, Analytics, Big Data, CRM und ECM

BARC-Newsletter

Die Programmiersprache R für Advanced Analytics

RssRss

12.02.2016

Die Programmiersprache R für Advanced Analytics

"R" ist eine objektorientierte, interaktive Programmiersprache zur Analyse, Simulation und Visualisierung von Daten. Es handelt sich um ein Open-Source-Projekt, welches schon 1993 in Auckland, Neuseeland, entwickelt und veröffentlicht wurde. Gerade der Open-Source-Charakter der Software macht R so beliebt. Während Analysewerkzeuge wie SAS oder SPSS mächtig, aber teuer in der Anschaffung sind, kann R als Basisversion kostenlos genutzt werden. Eine Nutzerumgebung und zahlreiche Erweiterungen (Bibliotheken) stehen ebenso zur Verfügung. 

Vielzahl statistischer Methode für "R"

Bereits in der Basisversion bietet R eine Vielzahl von statistischen Methoden wie lineare und nichtlineare Modellierung, klassische statistische Testverfahren, Zeitreihenanalyse, Clusteranalysen etc. und Werkzeuge zur grafischen Visualisierung. Als GNU-Projekt, das heißt als freie Software unter offener Lizenzordnung, wird R von einer interdisziplinären, vorwiegend wissenschaftlichen Community weiterentwickelt, was dazu führt, dass die bereitgestellten Pakete oft neueste Verfahren enthalten, eine hohe Qualität haben und einem kritischen Review-Prozess unterliegen.

Die Relevanz und die Reichweite von R lassen sich nicht zuletzt auch dadurch ableiten, wie sich große Anbieter positionieren. Die jüngsten Entwicklungen um R zeigen, dass nahezu alle wichtigen Player, die im Umfeld Big Data, Data Mining oder Business Intelligence unterwegs sind, R für sich entdeckt haben und auf die eine oder andere Art R integrieren. Exemplarisch seien hier IBM Netezza, Oracle R Enterprise, SAP HANA, SAS oder Jaspersoft (von Tibco übernommen) genannt.

R weist verschiedene Vor- und Nachteile gegenüber kommerziellen Data-Mining-Werkzeugen auf, die hier kurz erläutert werden sollen:

Vorteile von R

  • Kosten: R ist Open Source, es fallen keine Lizenzgebühren an
  • Funktionsumfang: Der Funktionsumfang, den R heute schon (ohne zusätzliche Investitionen) bietet, ist enorm
  • Fachkräfte: An deutschen Universitäten setzen bereits über 20 Prozent der Statistikkurse – fächerübergreifend – auf R. Somit entlassen Universitäten einen stetig wachsenden Strom von R-Expert

Nachteile von R

  • Anwendung: Im Gegensatz zu kommerziellen Werkzeugen sind bei R Programmierkenntnisse notwendig
  • Performance: R wurde ursprünglich mit dem Ziel geschaffen, statistische Analysen zu vereinfachen. Performance hat dabei eine nachgeordnete Rolle gespielt
  • Open Source: Für R-Nutzer gibt es keinen Ansprechpartner bzgl. Dokumentation der umfangreichen Funktionalitäten. Eine einheitliche Qualitätssicherung neuer Bibliotheken findet nicht statt

Dies sind nur einige der Vor- und Nachteile der Software im Vergleich mit anderen, herkömmlichen Data-Mining-Werkzeugen. Ausführlich sind diese Punkte in der PAC/BARC Research Note „Neue Programmiersprache R – Hype oder Nachhaltige Alternative?“ behandelt. Unser Fazit ist, dass es sich lohnt, sich mit R auseinanderzusetzen, wenn es um Advanced Analytics geht. Vor allem für Data Mining und Prognoseaufgaben sowie zum Prototyping von Data-Science-Lösungen hat sich R bewährt.

(SA)

 

Dr. Sebastian Derwisch

Blog von

Dr. Sebastian Derwisch

Email

Senior Analyst Data & Analytics

ALLE BLOGS DIESES AUTORS ANZEIGEN