Unified Information Access und Big Data Management

16. Januar 2012

Das gelingt auch nicht immer. Mit „Unified Information Access“ und „Big Data Management“ sind gleich zwei der in letzter Zeit sehr häufig gebrauchten Buzzwords in einer Überschrift enthalten. Da semantische Technologien, Suche und Textanalyse sowohl für Unified Information Access, also auch für Big Data Management relevant sind, möchte ich die beiden Themen heute einmal beleuchten.

Grundsätzlich geht es bei Big Data Management, wie der Name schon sagt, um die Bewältigung der dramatischen Zunahme an Informationen, die in einem Unternehmen verarbeitet werden müssen. Die Herausforderung ist dabei nicht die bloße Menge sondern vor allem die Art der zu verarbeitenden Daten. Schon lange konnten mit Data Warehouse und BI-Systemen große Mengen an Informationen verarbeitet werden, allerdings handelte es sich hierbei ausschließlich um strukturierte Daten, also Daten, wie sie etwa von Produktionssystemen, Tracking- oder Logistik-Systemen generiert wurden. Diese strukturierten Daten können wunderbar durch Maschinen verarbeitet, analysiert, miteinander kombiniert und interpretiert werden.

Problematischer wird es aber bei allen Informationen, die nicht so ohne weiteres maschinell verarbeitet werden können. Dazu zählen vor allem die durch den Menschen generierten Daten, die nun aber insbesondere in den letzten Jahren extrem zunehmen. Ursachen dafür sind zum einen die innerhalb von Unternehmen immer breiter etablierten Social Media Tools, zum anderen die im Internet verfügbaren und für ein Unternehmen wichtigen Informationen.

Social Media oder auch Social Intranet Tools sind zunächst wunderbar, lässt sich doch dadurch das viele Wissen in den Köpfen der Mitarbeiter explizit verfügbar machen. So entstehen zahlreiche Projektseiten, Themenblogs, Wikis und Skill-Datenbanken. Nur sind diese Inhalte eben komplett unstrukturiert und als Text in natürlicher Sprache verfasst. Da die menschliche Sprache hinreichend vielfältig und interpretierbar ist, wird die automatische Verarbeitung und Analyse bedeutend schwieriger als bei strukturierten Informationen. Die Probleme werden spätestens dann offensichtlich, wenn relevante Informationen benötigt werden und nach ihnen oft erfolglos gesucht wird. Die verwendete Suchtechnologie liefert die Ergebnisse dann oft nicht in der benötigten Relevanz, so dass wirklich wichtige Informationen in der schieren Menge untergehen. Auch lassen sich wenig Zusammenhänge zwischen den verschiedenen Arten von Informationen herstellen. Eine Abfrage welche Projekte welche Technologien verwenden und welche Mitarbeiter die entsprechenden Skills haben wäre unter Kombination der Social Intranet Inhalte mit ERP-Daten problemlos möglich, lässt sich aber in der Praxis nur schwer realisieren.

Eine ähnliche Herausforderung ergibt sich auch aus Informationen, die außerhalb des Unternehmens entstehen. Vor allem für Unternehmen im Consumer-Bereich ist es von großer Bedeutung zu wissen, was im Internet in diversen Blogs, Social Networks und sonstigen WebSites über sie gesprochen wird. Zum einen kann so auf positive oder negative Stimmungsbildung reagiert werden (Social Media Monitoring und Marketing Intelligence) zum anderen lassen sich mit einer Marktbeobachtung auch Unternehmensrisiken erkennen und frühzeitig abwehren. Dazu zählen zum Beispiel Markenschutz- oder Patentverletzungen oder auch Risiken durch unvorhergesehene Ereignisse an den Standorten von wichtigen Lieferanten oder Lieferwegen (Risiko Management).

Leicht vorstellbar ist die gewaltige Menge an Informationen, die zur effektiven und effizienten Bewältigung der jeweiligen Aufgaben verarbeitet werden muss. Die dafür notwendigen Technologien werden unter dem Begriff "Big Data Management" zusammengefasst. Kernfunktionen dieser Technologien sind

  • das Management strukturierter Daten und unstrukturierter Informationen in einer zentralen Architektur,
  • Die Interpretation von Anfragen entsprechend des Datentyps, die Kombination der Ergebnisse sowie die Analyse von Zusammenhängen zwischen den Ergebnissen,
  • Die Bereitstellung von Tools, um Daten aus verschiedenen Quellen zu integrieren, zu analysieren und zu kombinieren sowie
  • Eine extreme Skalierbarkeit und die Fähigkeit, riesige Mengen an Informationen zu verarbeiten

Big Data Management Tools bestehen im Kern aus Elementen der Datenbank- und Data Warehouse-Technologie, der BI- und Suchtechnologie sowie der Textanalyse und der semantischen Informationsverarbeitung. Insbesondere für die Kombination strukturierter und unstrukturierter Informationen spielen semantische Technologien eine entscheidende Rolle. Schließlich muss es gelingen aus den vorhandenen Texten und Dokumenten so viel an strukturierten Informationen heraus zu bekommen, dass diese mit ERP-, CRM- oder sonstigen strukturierten Datensätzen kombiniert werden können.

Unified Information Access kann als eine Teilkomponente von Big Data Management Technologien verstanden werden, bei der es vor allem um die Bereitstellung eines einheitlichen Zugriffs auf verschiedene Arten strukturierter und unstrukturierter Informationen aus verschiedenen Quellen geht. Oft werden die beiden Begriffe nahezu synonym behandelt. Der Markt an Big Data Management Lösungen ist noch relativ jung. Natürlich setzen große Anbieter von BI-Tools wie SAP mit BusinessObjects, IBM oder SAS schon lange auf dieses Thema, allerdings kommen diese Hersteller aus der klassischen Welt der strukturierten Daten. Um die große Herausforderungen des automatisierten Managements unstrukturierter Daten in Kombination mit strukturierten Daten zu meistern, sind auch einige relativ neue Anbieter auf den Markt getreten, die eine sehr vielversprechende Lösung anbieten.

Neuen Kommentar schreiben