© Dr. Andreas Totok 2000-2022
Dr. Andreas Totok
Spezialist für Digitalisierung und Künstliche Intelligenz
Links und Literatur zur
multidimensionalen Modellierung
Eine ausführliche Darstellung mit zahlreichen Abbildungen
der folgenden Ausführungen ist in
Totok, A. (2000): Modellierung von OLAP- und Data-
Warehouse-Systemen, Wiesbaden (Gabler) 2000 erschienen
(nur noch in elektronischer Form erhältlich).
Einleitung
Die semantische Modellierung operativer Systeme wurde in der Vergangenheit umfassend thematisiert. In Theorie und
Praxis hat sich das Entity-Relationship Model (ERM) von CHEN (Chen 1976, S. 9 ff) als Standard durchgesetzt. In den
letzten Jahren wurde auch verstärkt der objektorientierte Ansatz behandelt, der durch die Unified Modeling Language
(UML) eine Standardisierung erfahren hat. Im Bereich multidimensionaler Informationssysteme steht eine solche
Standardisierung noch aus, vielmehr wird zur Zeit eine intensive Diskussion darüber geführt, welche Ansätze sich
besonders eignen.
Durch die weite Verbreitung des ERM wird dieses von vielen Autoren auch für die Modellierung multidimensionaler
Informationssysteme präferiert. Die Meinungen über die Anwendbarkeit differieren allerdings. Schwierigkeiten gibt es
z.B. bei der Abbildung von Dimensionshierarchien (Gabriel/Gluchowski 1997, S. 30) oder von datenstrukturinhärenten
Regeln (Holthuis 1998, S. 136). Diskutiert werden muß weiterhin, inwieweit und in welcher Form
auswertungsbezogene Methoden und Sichten in die Modellierung multidimensionaler Informationssysteme einbezogen
werden sollten. Einige Autoren sehen keine Notwendigkeit, das ERM um neue Konstrukte zu erweitern, sondern
modifizieren nur die Anordnung der Notationselemente. Ein andere Gruppe von Veröffentlichungen behandelt die
Erweiterung des ERM um spezielle multidimensionale Notationselemente. Eine letzte Gruppe hält das ERM für nicht
ausreichend und benutzt objektorientierte Ansätze oder generiert völlig neue Notationen. Im Folgenden wird eine
Übersicht über ausgewählte Ansätze gegeben.
•
Chen, P. P. (1976): The entitiy-relationship-model – towards a unified view of data, in ACM Transactions on
Database Systems, 1/1976, S. 9-36
•
Gabriel, R.; Gluchowski, P. (1997): Semantische Modellierungstechniken für multidimensionale
Datenstrukturen, in: HMD – Theorie und Praxis der Wirtschaftsinformatik, 195/1997, S. 18-37
•
Holthuis, J. (1998): Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher Universitäts Verlag)
1998
Ansätze auf Basis des ERM
•
Multidimensionales Entity-Relationship Model
Das multidimensionale Entity-Relationship Model (ME/R Model) ist eine Modellierungsnotation, die von der
Forschungsgruppe Wissensbasen des bayrischen Forschungszentrums für wissensbasierte Systeme (Forwiss)
im Rahmen des Projekts System 42 entwickelt wurde.
Für die semantische Modellierung wird die ER-Notation um die drei neuen Elemente Faktenrelation,
Dimensionsebene und hierarchische Beziehung ergänzt (Sapia et al. 1998). Bei Faktenrelation und
hierarchischer Beziehung handelt es sich um spezialisierte Beziehungstypen. Dimensionsebenen sind eine
besondere Ausprägung von Entities. Grundsätzlich wurde für die Notation das Prinzip der Minimalität
angewendet, so daß Notationselemente so sparsam wie möglich benutzt werden. Daher gibt es auch keine
Elemente für bestimmte Dimensionstypen oder -elemente. Ebenso werden normale und hierarchische
Beziehungen nicht durch das traditionelle Rautensymbol dargestellt, sondern werden vom Verbindungselement
impliziert.
Sapia, C.; Blaschka, M. ; Höfling, G.; Dinter, B. (1998):
Extending the E/R Model for the Multidimensional Paradigm, Proc. International Workshop on Data Warehouse
and Data Mining (DWDM, in connection with ER'98), Nov 19-20, 1998, Singapore
•
Modifizierte Objekttypenmethode
Bei der Objekttypenmethode (OTM) nach WEDEKIND und ORTNER (Wedekind 1981, Ortner 1983) handelt es
sich keinesfalls um einen objektorientierten Ansatz, der Daten und Methoden eng miteinander verknüpft und
z.B. von BOOCH oder COAD/YOURDON verfolgt wird. Vielmehr ist die OTM eine methodische
Vorgehensweise, die auf dem Objekttypenmodell basiert, dessen Ausprägungen notationsmäßig eng mit dem
ERM verwandt sind. Das primäre Ziel der OTM ist die formale Begriffsbildung, die durch eine Rekonstruktion
der Fachbegriffe im Unternehmen erreicht wird (Ortner 1983, S. 18).
Eine Modifikation der OTM für die Modellierung von Data Warehouses stammt von RAUTENSTRAUCH. Für die
multidimensionale Modellierung werden die Sprachkonstrukte Objekttyp, der synonym für Entitytyp benutzt wird,
Konnexion, also ein Beziehungstyp für die Verbindung von Objekten sowie Aggregation verwendet.
(Rautenstrauch 1997, S. 7 ff). Neu eingeführt wird ein komplexer Objekttyp, der Dimensionselemente, die in
einer hierarchischen Beziehung zueinander stehen, zusammenfaßt. Ebenso wie beim ME/R Modell gibt es
keine besonderen Symbole für bestimmte Dimensionstypen; im Gegensatz dazu allerdings auch kein Symbol
für eine zentrale Faktentabelle. Der Aufbau der Modelle orientiert sich an Star, Snowflake und Galaxy Schema.
Ortner, E. (1983):
Aspekte einer Konstruktionssprache für den Datenbankentwurf, Darmstadt (Toeche-Mittler) 1983
Rautenstrauch, C. (1997):
Modellierung und Implementierung von Data-Warehouse-Systemen, Arbeitspapier, Otto-von-Guericke-
Universität, Magdeburg, 1997
Wedekind, H. (1981): Datenbanksysteme I: Eine konstruktive Einführung in die Datenverarbeitung in Wirtschaft
und Verwaltung, 2. Aufl., Mannheim Zürich (Bibliographisches Institut) 1981
•
Datenmodellierung Data Warehouse - ein Lösungsvorschlag mittels ER-Modellierung
Der Modellierungsansatz wurde von der Arbeitsgruppe Enterprise Modelling der IBM-Anwendergruppe
Guide/Share Europe erstellt. ALTENPOHL ET AL. benutzen für ihre Modelle ausschließlich Entity- und
Beziehungstypen, wobei ähnlich wie beim ME/R-Ansatz das Rautensymbol nicht verwendet wird, sondern
Beziehungen zwischen Entities durch eine beidseitige Pfeilnotation impliziert werden (Altenpohl et al. 1997, S. 8
ff), Das Modell konzentriert sich auf die logischen Belange von Star und Snowflake Schema, wobei die
Modellierung von Dimensionshierarchien und zentraler Faktenentität im Vordergrund steht. Aussagen zu
Dimensionstypen oder Formeln werden wie bei den vorher genannten Ansätzen nicht getroffen.
Altenpohl, U.; Huhn, M.; Schwab, W.; Zeh, T. (1997):
Datenmodellierung Data Warehouse – ein Lösungsvorschlag mittels ER-Modellierung, Arbeitspapier der
Arbeitsgruppe Enterprise Modeling/Guide Share Europe 1997
•
ER-Modellierung aggregierter Daten
Bereits 1994 haben BECKER ET AL. eine Erweiterung des ER-Modells zur Modellierung von aggregierten
Daten vorgestellt. Gefolgt wird dabei der Auffassung von RAUH, der eine Differenzierung im ERM zwischen
originären und abgeleiteten Daten fordert (Rauh 1992, S. 295). Ziel der Erweiterung soll es daher sein, in einem
ERM zu erkennen, welche Daten atomar und welche verdichtet sind (Becker et al. 1994, S. 423). Dabei muß in
der Darstellung deutlich werden, welche Informationen auf Entities und welche auf Beziehungen beruhen. Als
zusätzliche Beschreibungselemente werden hierzu ein Verdichtungspfeil (Doppellinie durchgezogen und
gestrichelt) sowie ein Verdichtungs-Entitytyp, der aufgrund verdichteter Daten entsteht (uminterpretierter
Beziehungstyp mit zusätzlicher Strichelung) eingeführt.
Becker, J; Priemer, J.; Wild, R. G. (1994):
Modellierung und Speicherung aggregierter Daten, in: Wirtschaftsinformatik, 5/1994, S. 422-433
Rauh, O. (1992):
Überlegungen zur Behandlung ableitbarer Daten im Entity-Relationship-Modell (ERM), in: Wirtschaftsinformatik,
3/1992, S. 294-306
Ansätze ohne direkten Bezug zu einem konventionellen Modell
•
Application Design for Analytical Processing Technologies (ADAPT)
Das Application Design for Analytical Processing Technologies (ADAPT) ist eine von BULOS für die
multidimensionale Datenstrukturierung entwickelte grafische Modellierungsnotation, die ihren Ursprung in der
Unternehmensberatungspraxis hat. ADAPT ist auf mehreren Modellierungsebenen einzuordnen, da es sowohl
semantische, logische und physikalische Aspekte umfaßt. Motiviert wird die Entwicklung einer neuen Notation
durch die Unzulänglichkeit traditioneller Modellierungstechniken (Bulos 1996, S. 34). Hierzu wird angeführt, daß
in Entity-Relationship Models keine Möglichkeit besteht, die Verarbeitungslogik für Analyseprozesse abzubilden.
Mit Datenflußdiagrammen können zwar dynamische Aspekte berücksichtigt werden, sie reichen allerdings für
Darstellung von Berechnungen nicht aus. Benötigt wird eine Modellierungstechnik, welche die
Verarbeitungslogik, die in Form von Ableitungsregeln im Datenbankserver angesiedelt ist, für Analyseprozesse
in Beziehung zu multidimensionalen Datenstrukturen darstellen kann.
Die Firma Symmetry Corporation bietet die Modellierungskonstrukte als Schablone für Visio zum Download an.
Zur Zeit liegt die Schablone in der Version 3 vor. Im Unterschied zu Version 1.1 gibt es keine unterschiedlichen
Dimensionstypen mehr. Insgesamt wurde der Umfang der Symbole reduziert. Damit hat Bulos auf die Kritik an
der Komplexität seiner Notation reagiert, die aus den zahlreichen Symbolen entstand. Ein Fallbeispiel für
ADAPT findet man für die Automobilindustrie von Jaworski und Totok.
Bulos, D. (1996):
A New Dimension, in: Database Programming & Design: 6/1996, S. 33-37; nachgedruckt in: Chamoni, P.;
Gluchowksi, P. (Hrsg.): Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 251-261
Bulos, D.; Forsman, S. (1998):
Getting Started with ADAPT, White Paper, San Rafael (Symmetry) 1998; Informationen bei Symmetry erhältlich
Bulos, D.; Forsman, S. (angekündigt für 1999):
Olap Database Design : Delivering on the Promise of the Data Warehouse
•
Grafenbasiertes Modell
HAHNE/SCHELP leiten ein semantisches grafenbasiertes Datenmodell her, das multidimensionale Elemente
auf Konstrukte der Grafentheorie abbildet (Hahne/Schelp 1997, 25 ff). Dabei verallgemeinern die Autoren
hierarchische Dimensionen zu knotenmarkierten Baumstrukturen, Heterarchien (Dimensionsstruktur mit
unterschiedlichen Pfadlängen ) zu knotenmarkierten gerichteten Graphen mit genau einer Quelle sowie
parallele Hierarchieny zu knoten- und kantenmarkierten Graphen mit genau einem Ursprung und genau einem
Ziel. Die Gesamtsicht auf das Modell erfolgt in einer Kreisdarstellung, bei der alle Dimensionen einschließlich
einer Kennzahlendimension rund um den Mittelpunkt angeordnet sind (Schelp 1998, S. 273). Die Autoren
definieren weiterhin ein formales logisches Modell für mehrdimensionale Strukturen und Operationen. Eine
genaue Beschreibung der Transformationsregeln vom semantischen in das logische Modell steht allerdings
noch aus (Hahne/Schelp 1997, S. 48).
Hahne, M.; Schelp, J. (1997):
Semantische und logische Modellierung mehrdimensionaler Datenstrukturen, Arbeitsberichte des Lehrstuhls für
Wirtschaftsinformatik, Ruhr-Universität Bochum, 1997
Schelp, J. (1998):
Konzeptionelle Modellierung mehrdimensionaler Datenstrukturen, in: Chamoni, P.; Gluchowksi, P. (Hrsg.):
Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 263-276
•
Skalenähnliche Darstellung
THOMSEN benutzt eine Notation, die an die Skalendarstellung von Flüssigkeitsständen erinnert. Kennzahlen
werden horizontal nebeneinander in einer einzeiligen Tabelle angeordnet. Dimensionselemente werden auf
einer vertikalen Skala eingetragen, wobei alle Verdichtungsebenen markiert werden. Für jede Ebene wird
ergänzend die Anzahl Ausprägungen notiert, um die benötigte Größe der Datenbank abschätzen zu können
(Thomsen 1997, S. 236 ff, S. 447 ff). Die Ebene, auf der Daten in das multidimensionale System importiert
werden, wird mit einem Punkt versehen, so daß man erkennen kann, an welcher Stelle die Daten atomar sind.
Der Datenimport erfolgt nach der Vorgehensweise nicht zwingend auf der untersten Ebene.
Thomsen, E. (1997):
OLAP Solutions – Building Multidimensional Information Systems, New York et al. (John Wiley & Sons) 1997
•
Dimensional Fact Model
Ein anderer Ansatz, der neben einer Notation auch eine methodische Vorgehensweise zur Transformation in
dritter Normalform befindlicher ERM in multidimensionale Strukturen umfaßt, ist das Dimensional Fact (DF)
Model von GOLFARELLI ET AL. Die Notation des DF Model besteht aus einer zentralen Kennzahlentabelle und
baumartigen Dimensionsstrukturen. Einen Schwerpunkt bildet die Modellierung der Additivität von Kennzahlen.
Die Aggregation von additiven Kennzahlen wird wie in anderen Notationen üblich durch die Verbindung von
hierarchischen Dimensionselementen mit durchgezogenen Linien dargestellt. Hierarchien werden dabei durch
eine graue Schattierung verdeutlicht. Semi-additiv sind Kennzahlen, die sich nicht entlang jeder
Dimensionshierarchie summieren lassen. Nicht-additive Kennzahlen lassen sich bezüglich keiner
Dimensionshierarchie addieren. Semi- oder nicht-additivitive Kennzahlen sind damit nur dem untersten Element
jeder Dimension zuzuordnen. Markiert werden sie durch gestrichelte Linien von der Kennzahl hin zu der
jeweiligen Dimensionshierarchie, über die sie nicht addiert werden können.
Golfarelli, M.; Maio, D.; Rizzi, S. (1998):
Conceptual Design of Data Warehouses from E/R Schemes, in: Proceedings of the Hawaii International
Conference On System Sciences, 6.-9.1.1998, Kona, Hawai, o. S.
Ansätze auf Basis des objektorientierten Modells
•
Anwendung der Object-Oriented Analysis
Eine durchgehend objektorientierte Modellierung und Implementierung von Data-Warehouse-Systemen wird von
OHLENDORF vorgeschlagen. Neben den schon genannten Vorteilen einer objektorientierten Vorgehensweise
weist OHLENDORF auf den Vorteil hin, auch unstrukturierte Daten sowie komplexe Datenstrukturen in
objektorientierten Datenbanksystemen verwalten zu können. Dadurch wird Einbeziehung von externen, evtl.
auch multimedialen Inhalten, in multidimensionale Analysen erleichtert. Für die Modellierung wird die Object-
Oriented Analysis nach COAD/YOURDON benutzt. Die Klasse Würfelfeld ist das zentrale Element des
Ansatzes, deren Instanzen mit den für sie relevanten Dimensionen in Verbindung stehen. Ausprägungen der
Klasse Würfelfeld stehen mit Ausprägungen der Klasse Kenngröße über Objekte der Klasse Atom-Datum in
Verbindung, so daß die semantische Objektidentifikation für jedes atomare multidimensionale Objekt gegeben
ist (Ohlendorf 1997, S. 223). Verdichtungen werden in der Dimensionsklasse durch die Methode dim_falten
angedeutet. Die Methode dim_falten wird an die verschiedenen Dimensionen vererbt, wo sie dann auch
überschrieben werden kann.
Ohlendorf, T. (1997):
Objektorientierte Datenbanksysteme für den Einsatz im Data-Warehouse-Konzept, in: Mucksch, H.; Behme, W.
(Hrsg.): Das Data-Warehouse-Konzept – Architektur – Datenmodelle – Anwendungen, 2. Aufl., Wiesbaden
(Gabler) 1997, S. 211-233
•
Anwendung der Object Modeling Technique
Die Evaluation von objektorientierten Konstrukten zur Abbildung multidimensionaler Elemente steht im
Mittelpunkt einer Betrachtung von HOLTHUIS. Überprüft werden Klassen- und Zustandsdiagramme sowie
funktionale Modelle für die Modellierung multidimensionaler Konstrukte nach der OMT von RUMBAUGH ET AL.
Unterschieden wird grundsätzlich zwischen Makro- und Mikrosichten (Holthuis 1998, S. 135 ff). Analog zur
Architektur integrierter Informationssysteme wird die Makrosicht in Daten-, Funktions-, Organisations- und
Geschäftsprozeßsicht differenziert. Die Mikrosichten sind ein Unterpunkt der Datensicht und dienen zur
Definition von statischen Strukturen, Funktionen und Verhalten. Benutzt werden Objektklassen und
Klassenhierarchien zur Modellierung von Dimensionen mit Ebenen und Verdichtungsstufen, die sich direkt der
Mikro-Modellierungssicht zuordnen lassen.
Holthuis, J. (1998):
Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher Universitäts Verlag) 1998
•
Anwendung der Unified Modeling Language
TOTOK entwickelt einen objektorientierten Modellrahmen für die semantische Modellierung von
multidimensionalen Informationssystemen. Als grafische Notation wird die UML benutzt, die sich als Standard
durchgesetzt hat. Realisiert wird ein Klassenmodell für betriebswirtschaftliche Kennzahlen und Dimensionen
jeweils mit den entsprechenden Methoden zur Verwaltung der später zu erzeugenden Objekte. Darauf
aufbauend besteht die Möglichkeit, dynamische Aspekte zu berücksichtigen. Der Modellrahmen ist vor allem für
die Anforderungsdefinition auf semantischer Ebene, also zur Erstellung eines Fachkonzeptes gedacht.
Gesichtspunkte, wie z.B. die Versionierung werden implizit berücksichtigt, ohne allerdings auf die genaue
Implementierung einzugehen.
Totok, A. (2000):
Modellierung von OLAP- und Data-Warehouse-Systemen, Wiesbaden (Gabler) 2000
•
Kombination von UML und ADAPT
Einen interessanten Ansatz, der versucht, die Vorteile einer objektorientierten Modellierung mit der
praxisorientierten Vorgehensweise von ADAPT in Einklang zu bringen, machten Priebe und Pernul 2001 mit der
ADAPTed UML.
Weitere Internetquellen zur Modellierung
•
Unified Modelling Language (UML)
Die UML stellt eine Verschmelzung der objektorientierten Modellierungskonstrukte von Booch, Jacobsen und
Rumbaugh dar. Sie wird inzwischen von der Object Management Group (OMG) gepflegt und weiterentwickelt.
Schnellnavigation