Home | Englisch | Kontrast++ | A++ |

XDB - Effiziente und komplexe Analysen großer Unternehmensdatenmengen

MapReduce, insbesondere die Open-Source Implementierung Hadoop, ist aktuell der Industriestandard zur Analyse sehr großer Datenmengen (Big Data). Vorteile gegenüber klassischen datenbankbasierten Lösungen ist die Skalierbarkeit von Hadoop auf großen Rechenclustern mit mehreren hunderten von Rechenknoten, sowie die Robustheit gegenüber Ausfällen einzelner Knoten. Ein weiterer Grund für die weite Verbreitung von Hadoop, ist das einfache aber erweiterbare Programmiermodell, das aus zwei Funktionen höherer Ordnung (Map und Reduce) besteht. Die Funktionen können beliebige benutzerdefinierte Logik beinhalten, die von Hadoop automatisch parallelisiert wird. Darüber hinaus sind deklarative und optimierbare Programmiersprachen für MapReduce Programme entstanden (z.B. Hive, PigLatin), die die Entwicklung von Analysen weiter vereinfachen und regelbasierte Optimierungen ermöglichen. Ein letzter Grund, der für Hadoop spricht, ist die Möglichkeit beliebige Daten (strukturierte aber auch unstrukturierte Daten) zu verarbeiten. Allerdings ist Hadoop im Vergleich zu traditionellen relationalen Datenbanken in einigen Punkten sehr ineffizient – d.h. für eine vergleichbare Performance werden wesentlich mehr Ressourcen benötigt.

Das Ziel des Projektes XDB ist ein bestehendes Datenbankmanagementsystem (SAP HANA) so zu erweitern, dass es ähnlich wie Hadoop ermöglicht, große Datenmengen mit Hilfe von komplexen benutzerdefinierten Funktionen skalierbar und robust zu analysieren. Hierzu werden die Vorteile von Datenbanken mit den Vorteilen von Hadoop vereint: Datenbanken sind im Vergleich zu Hadoop sehr reif und bieten wie schon zuvor thematisiert effiziente Ansätze zur Ausführung von SQL-Anfragen. Hadoop dagegen bietet Vorteile wie Skalierbarkeit und Robustheit der Ausführung. Ein weiterer Punkt ist das Programmiermodell: SQL ist als Programmiersprache in Datenbanken zwar sehr gut optimierbar aber gleichzeitig sehr eingeschränkt in seiner Ausdruckskraft und lässt nur über imperative Erweiterungen benutzerdefinierte Funktionen zu. Diese benutzerdefinierte Funktionen können im Vergleich zu den deklarativen SQL-Anfragen nur schlecht optimiert und parallelisiert werden. MapReduce dagegen bietet ein einfaches Programmiermodell, dass benutzerdefinierte Funktionen erlaubt, die auch sehr gut parallelisiert werden können.

Das Projekt wurde am 31.05.2016 erfolgreich abgeschlossen.

Gefördert durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg (DHBW-Förderlinie 2013).

6.300 STUDIERENDE
41 STUDIENRICHTUNGEN
1.900 PARTNERUNTERNEHMEN

Projektleitung

Prof. Dr. Carsten Binnig

Coblitzallee 1-9
68163 Mannheim

Tel.: (0621) 4105-1112
Fax: (0621) 4105-1249

carsten.binnig(at)dhbw-mannheim.de

Homepage

Dualer Kooperationspartner

SAP Deutschland SE