Modellierung

Links und Literatur zur
multidimensionalen Modellierung

Eine ausführliche Darstellung mit zahlreichen Abbildungen der folgenden Ausführungen ist in Totok, A. (2000): Modellierung von OLAP- und Data-Warehouse-Systemen, Wiesbaden (Gabler) 2000 erschienen (nur noch als PDF-Download erhältlich).

Einleitung

Durch die weite Verbreitung des ERM wird dieses von vielen Autoren auch für die Modellierung multidimensionaler Informationssysteme präferiert. Die Meinungen über die Anwendbarkeit differieren allerdings. Schwierigkeiten gibt es z.B. bei der Abbildung von Dimensionshierarchien (Gabriel/Gluchowski 1997, S. 30) oder von datenstrukturinhärenten Regeln (Holthuis 1998, S. 136). Diskutiert werden muss weiterhin, inwieweit und in welcher Form auswertungsbezogene Methoden und Sichten in die Modellierung multidimensionaler Informationssysteme einbezogen werden sollten. Einige Autoren sehen keine Notwendigkeit, das ERM um neue Konstrukte zu erweitern, sondern modifizieren nur die Anordnung der Notationselemente. Ein andere Gruppe von Veröffentlichungen behandelt die Erweiterung des ERM um spezielle multidimensionale Notationselemente. Eine letzte Gruppe hält das ERM für nicht ausreichend und benutzt objektorientierte Ansätze oder generiert völlig neue Notationen. Im Folgenden wird eine Übersicht über ausgewählte Ansätze gegeben.

Die semantische Modellierung operativer Systeme wurde in der Vergangenheit umfassend thematisiert. In Theorie und Praxis hat sich das Entity-Relationship Model (ERM) von CHEN (Chen 1976, S. 9 ff) als Standard durchgesetzt. In den letzten Jahren wurde auch verstärkt der objektorientierte Ansatz behandelt, der durch die Unified Modeling Language (UML) eine Standardisierung erfahren hat. Im Bereich multidimensionaler Informationssysteme steht eine solche Standardisierung noch aus, vielmehr wird zur Zeit eine intensive Diskussion darüber geführt, welche Ansätze sich besonders eignen.

  • Chen, P. P. (1976): The entitiy-relationship-model – towards a unified view of data, in ACM Transactions on Database Systems, 1/1976, S. 9-36
  • Gabriel, R.; Gluchowski, P. (1997): Semantische Modellierungstechniken für multidimensionale Datenstrukturen, in: HMD – Theorie und Praxis der Wirtschaftsinformatik, 195/1997, S. 18-37
  • Holthuis, J. (1998): Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher Universitäts Verlag) 1998

Ansätze auf Basis des ERM

  • Multidimensionales Entity-Relationship Model
    Das multidimensionale Entity-Relationship Model (ME/R Model) ist eine Modellierungsnotation, die von der Forschungsgruppe Wissensbasen des bayrischen Forschungszentrums für wissensbasierte Systeme (Forwiss) im Rahmen des Projekts System 42 entwickelt wurde.

    Für die semantische Modellierung wird die ER-Notation um die drei neuen Elemente Faktenrelation, Dimensionsebene und hierarchische Beziehung ergänzt (Sapia et al. 1998). Bei Faktenrelation und hierarchischer Beziehung handelt es sich um spezialisierte Beziehungstypen. Dimensionsebenen sind eine besondere Ausprägung von Entities. Grundsätzlich wurde für die Notation das Prinzip der Minimalität angewendet, so dass Notationselemente so sparsam wie möglich benutzt werden. Daher gibt es auch keine Elemente für bestimmte Dimensionstypen oder -elemente. Ebenso werden normale und hierarchische Beziehungen nicht durch das traditionelle Rautensymbol dargestellt, sondern werden vom Verbindungselement impliziert.

    Sapia, C.; Blaschka, M. ; Höfling, G.; Dinter, B. (1998): Extending the E/R Model for the Multidimensional Paradigm, Proc. International Workshop on Data Warehouse and Data Mining (DWDM, in connection with ER’98), Nov 19-20, 1998, Singapore
  • Modifizierte Objekttypenmethode
    Bei der Objekttypenmethode (OTM) nach WEDEKIND und ORTNER (Wedekind 1981, Ortner 1983) handelt es sich keinesfalls um einen objektorientierten Ansatz, der Daten und Methoden eng miteinander verknüpft und z.B. von BOOCH oder COAD/YOURDON verfolgt wird. Vielmehr ist die OTM eine methodische Vorgehensweise, die auf dem Objekttypenmodell basiert, dessen Ausprägungen notationsmäßig eng mit dem ERM verwandt sind. Das primäre Ziel der OTM ist die formale Begriffsbildung, die durch eine Rekonstruktion der Fachbegriffe im Unternehmen erreicht wird (Ortner 1983, S. 18).

    Eine Modifikation der OTM für die Modellierung von Data-Warehouse-Systemen stammt von RAUTENSTRAUCH. Für die multidimensionale Modellierung werden die Sprachkonstrukte Objekttyp, der synonym für Entitytyp benutzt wird, Konnexion, also ein Beziehungstyp für die Verbindung von Objekten sowie Aggregation verwendet. (Rautenstrauch 1997, S. 7 ff). Neu eingeführt wird ein komplexer Objekttyp, der Dimensionselemente, die in einer hierarchischen Beziehung zueinander stehen, zusammenfasst. Ebenso wie beim ME/R Modell gibt es keine besonderen Symbole für bestimmte Dimensionstypen; im Gegensatz dazu allerdings auch kein Symbol für eine zentrale Faktentabelle. Der Aufbau der Modelle orientiert sich an Star, Snowflake und Galaxy Schema.

    Ortner, E. (1983): Aspekte einer Konstruktionssprache für den Datenbankentwurf, Darmstadt (Toeche-Mittler) 1983

    Rautenstrauch, C. (1997): Modellierung und Implementierung von Data-Warehouse-Systemen, Arbeitspapier, Otto-von-Guericke-Universität, Magdeburg, 1997

    Wedekind, H. (1981): Datenbanksysteme I: Eine konstruktive Einführung in die Datenverarbeitung in Wirtschaft und Verwaltung, 2. Aufl., Mannheim Zürich (Bibliographisches Institut) 1981

    Datenmodellierung Data Warehouse – ein Lösungsvorschlag mittels ER-Modellierung
    Der Modellierungsansatz wurde von der Arbeitsgruppe Enterprise Modelling der IBM-Anwendergruppe Guide/Share Europe erstellt. ALTENPOHL ET AL. benutzen für ihre Modelle ausschließlich Entity- und Beziehungstypen, wobei ähnlich wie beim ME/R-Ansatz das Rautensymbol nicht verwendet wird, sondern Beziehungen zwischen Entities durch eine beidseitige Pfeilnotation impliziert werden (Altenpohl et al. 1997, S. 8 ff), Das Modell konzentriert sich auf die logischen Belange von Star und Snowflake Schema, wobei die Modellierung von Dimensionshierarchien und zentraler Faktenentität im Vordergrund steht. Aussagen zu Dimensionstypen oder Formeln werden wie bei den vorher genannten Ansätzen nicht getroffen.

    Altenpohl, U.; Huhn, M.; Schwab, W.; Zeh, T. (1997): Datenmodellierung Data Warehouse – ein Lösungsvorschlag mittels ER-Modellierung, Arbeitspapier der Arbeitsgruppe Enterprise Modeling/Guide Share Europe 1997

    ER-Modellierung aggregierter Daten
    Bereits 1994 haben BECKER ET AL. eine Erweiterung des ER-Modells zur Modellierung von aggregierten Daten vorgestellt. Gefolgt wird dabei der Auffassung von RAUH, der eine Differenzierung im ERM zwischen originären und abgeleiteten Daten fordert (Rauh 1992, S. 295). Ziel der Erweiterung soll es daher sein, in einem ERM zu erkennen, welche Daten atomar und welche verdichtet sind (Becker et al. 1994, S. 423). Dabei muß in der Darstellung deutlich werden, welche Informationen auf Entities und welche auf Beziehungen beruhen. Als zusätzliche Beschreibungselemente werden hierzu ein Verdichtungspfeil (Doppellinie durchgezogen und gestrichelt) sowie ein Verdichtungs-Entitytyp, der aufgrund verdichteter Daten entsteht (uminterpretierter Beziehungstyp mit zusätzlicher Strichelung) eingeführt.

    Becker, J; Priemer, J.; Wild, R. G. (1994): Modellierung und Speicherung aggregierter Daten, in: Wirtschaftsinformatik, 5/1994, S. 422-433

    Rauh, O. (1992): Überlegungen zur Behandlung ableitbarer Daten im Entity-Relationship-Modell (ERM), in: Wirtschaftsinformatik, 3/1992, S. 294-306

Ansätze ohne direkten Bezug zu einem konventionellen Modell

  • Application Design for Analytical Processing Technologies (ADAPT)
    Das Application Design for Analytical Processing Technologies (ADAPT) ist eine von BULOS für die multidimensionale Datenstrukturierung entwickelte grafische Modellierungsnotation, die ihren Ursprung in der Unternehmensberatungspraxis hat. ADAPT ist auf mehreren Modellierungsebenen einzuordnen, da es sowohl semantische, logische und physikalische Aspekte umfasst. Motiviert wird die Entwicklung einer neuen Notation durch die Unzulänglichkeit traditioneller Modellierungstechniken (Bulos 1996, S. 34). Hierzu wird angeführt, dass in Entity-Relationship Models keine Möglichkeit besteht, die Verarbeitungslogik für Analyseprozesse abzubilden. Mit Datenflußdiagrammen können zwar dynamische Aspekte berücksichtigt werden, sie reichen allerdings für Darstellung von Berechnungen nicht aus. Benötigt wird eine Modellierungstechnik, welche die Verarbeitungslogik, die in Form von Ableitungsregeln im Datenbankserver angesiedelt ist, für Analyseprozesse in Beziehung zu multidimensionalen Datenstrukturen darstellen kann.

    Die Firma Symmetry Corporation bietet die Modellierungskonstrukte als Schablone für Visio zum Download an. Zur Zeit liegt die Schablone in der Version 3 vor. Im Unterschied zu Version 1.1 gibt es keine unterschiedlichen Dimensionstypen mehr. Insgesamt wurde der Umfang der Symbole reduziert. Damit hat Bulos auf die Kritik an der Komplexität seiner Notation reagiert, die aus den zahlreichen Symbolen entstand. Ein Fallbeispiel für ADAPT findet man für die Automobilindustrie von Jaworski und Totok.

    Bulos, D. (1996): A New Dimension, in: Database Programming & Design: 6/1996, S. 33-37; nachgedruckt in: Chamoni, P.; Gluchowksi, P. (Hrsg.): Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 251-261

    Bulos, D.; Forsman, S. (1998): Getting Started with ADAPT, White Paper, San Rafael (Symmetry) 1998; Informationen bei Symmetry erhältlich

    Bulos, D.; Forsman, S. (2000): Olap Database Design: Delivering on the Promise of the Data Warehouse
  • Grafenbasiertes Modell
    HAHNE/SCHELP leiten ein semantisches grafenbasiertes Datenmodell her, das multidimensionale Elemente auf Konstrukte der Grafentheorie abbildet (Hahne/Schelp 1997, 25 ff). Dabei verallgemeinern die Autoren hierarchische Dimensionen zu knotenmarkierten Baumstrukturen, Heterarchien (Dimensionsstruktur mit unterschiedlichen Pfadlängen ) zu knotenmarkierten gerichteten Graphen mit genau einer Quelle sowie parallele Hierarchieny zu knoten- und kantenmarkierten Graphen mit genau einem Ursprung und genau einem Ziel. Die Gesamtsicht auf das Modell erfolgt in einer Kreisdarstellung, bei der alle Dimensionen einschließlich einer Kennzahlendimension rund um den Mittelpunkt angeordnet sind (Schelp 1998, S. 273). Die Autoren definieren weiterhin ein formales logisches Modell für mehrdimensionale Strukturen und Operationen. Eine genaue Beschreibung der Transformationsregeln vom semantischen in das logische Modell steht allerdings noch aus (Hahne/Schelp 1997, S. 48).

    Hahne, M.; Schelp, J. (1997): Semantische und logische Modellierung mehrdimensionaler Datenstrukturen, Arbeitsberichte des Lehrstuhls für Wirtschaftsinformatik, Ruhr-Universität Bochum, 1997

    Schelp, J. (1998): Konzeptionelle Modellierung mehrdimensionaler Datenstrukturen, in: Chamoni, P.; Gluchowksi, P. (Hrsg.): Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 263-276
  • Skalenähnliche Darstellung
    THOMSEN benutzt eine Notation, die an die Skalendarstellung von Flüssigkeitsständen erinnert. Kennzahlen werden horizontal nebeneinander in einer einzeiligen Tabelle angeordnet. Dimensionselemente werden auf einer vertikalen Skala eingetragen, wobei alle Verdichtungsebenen markiert werden. Für jede Ebene wird ergänzend die Anzahl Ausprägungen notiert, um die benötigte Größe der Datenbank abschätzen zu können (Thomsen 1997, S. 236 ff, S. 447 ff). Die Ebene, auf der Daten in das multidimensionale System importiert werden, wird mit einem Punkt versehen, so dass man erkennen kann, an welcher Stelle die Daten atomar sind. Der Datenimport erfolgt nach der Vorgehensweise nicht zwingend auf der untersten Ebene.

    Thomsen, E. (1997): OLAP Solutions – Building Multidimensional Information Systems, New York et al. (John Wiley & Sons) 1997
  • Dimensional Fact Model
    Ein anderer Ansatz, der neben einer Notation auch eine methodische Vorgehensweise zur Transformation in dritter Normalform befindlicher ERM in multidimensionale Strukturen umfasst, ist das Dimensional Fact (DF) Model von GOLFARELLI ET AL. Die Notation des DF Model besteht aus einer zentralen Kennzahlentabelle und baumartigen Dimensionsstrukturen. Einen Schwerpunkt bildet die Modellierung der Additivität von Kennzahlen. Die Aggregation von additiven Kennzahlen wird wie in anderen Notationen üblich durch die Verbindung von hierarchischen Dimensionselementen mit durchgezogenen Linien dargestellt. Hierarchien werden dabei durch eine graue Schattierung verdeutlicht. Semi-additiv sind Kennzahlen, die sich nicht entlang jeder Dimensionshierarchie summieren lassen. Nicht-additive Kennzahlen lassen sich bezüglich keiner Dimensionshierarchie addieren. Semi- oder nicht-additivitive Kennzahlen sind damit nur dem untersten Element jeder Dimension zuzuordnen. Markiert werden sie durch gestrichelte Linien von der Kennzahl hin zu der jeweiligen Dimensionshierarchie, über die sie nicht addiert werden können.

    Golfarelli, M.; Maio, D.; Rizzi, S. (1998): Conceptual Design of Data Warehouses from E/R Schemes, in: Proceedings of the Hawaii International Conference On System Sciences, 6.-9.1.1998, Kona, Hawai, o. S.

Ansätze auf Basis des objektorientierten Modells

  • Anwendung der Object-Oriented Analysis
    Eine durchgehend objektorientierte Modellierung und Implementierung von Data-Warehouse-Systemen wird von OHLENDORF vorgeschlagen. Neben den schon genannten Vorteilen einer objektorientierten Vorgehensweise weist OHLENDORF auf den Vorteil hin, auch unstrukturierte Daten sowie komplexe Datenstrukturen in objektorientierten Datenbanksystemen verwalten zu können. Dadurch wird Einbeziehung von externen, evtl. auch multimedialen Inhalten, in multidimensionale Analysen erleichtert. Für die Modellierung wird die Object-Oriented Analysis nach COAD/YOURDON benutzt. Die Klasse Würfelfeld ist das zentrale Element des Ansatzes, deren Instanzen mit den für sie relevanten Dimensionen in Verbindung stehen. Ausprägungen der Klasse Würfelfeld stehen mit Ausprägungen der Klasse Kenngröße über Objekte der Klasse Atom-Datum in Verbindung, so dass die semantische Objektidentifikation für jedes atomare multidimensionale Objekt gegeben ist (Ohlendorf 1997, S. 223). Verdichtungen werden in der Dimensionsklasse durch die Methode dim_falten angedeutet. Die Methode dim_falten wird an die verschiedenen Dimensionen vererbt, wo sie dann auch überschrieben werden kann.

    Ohlendorf, T. (1997): Objektorientierte Datenbanksysteme für den Einsatz im Data-Warehouse-Konzept, in: Mucksch, H.; Behme, W. (Hrsg.): Das Data-Warehouse-Konzept – Architektur – Datenmodelle – Anwendungen, 2. Aufl., Wiesbaden (Gabler) 1997, S. 211-233
  • Anwendung der Object Modeling Technique
    Die Evaluation von objektorientierten Konstrukten zur Abbildung multidimensionaler Elemente steht im Mittelpunkt einer Betrachtung von HOLTHUIS. Überprüft werden Klassen- und Zustandsdiagramme sowie funktionale Modelle für die Modellierung multidimensionaler Konstrukte nach der OMT von RUMBAUGH ET AL. Unterschieden wird grundsätzlich zwischen Makro- und Mikrosichten (Holthuis 1998, S. 135 ff). Analog zur Architektur integrierter Informationssysteme wird die Makrosicht in Daten-, Funktions-, Organisations- und Geschäftsprozeßsicht differenziert. Die Mikrosichten sind ein Unterpunkt der Datensicht und dienen zur Definition von statischen Strukturen, Funktionen und Verhalten. Benutzt werden Objektklassen und Klassenhierarchien zur Modellierung von Dimensionen mit Ebenen und Verdichtungsstufen, die sich direkt der Mikro-Modellierungssicht zuordnen lassen.

    Holthuis, J. (1998): Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher Universitäts Verlag) 1998
  • Anwendung der Unified Modeling Language
    TOTOK entwickelt einen objektorientierten Modellrahmen für die semantische Modellierung von multidimensionalen Informationssystemen. Als grafische Notation wird die UML benutzt, die sich als Standard durchgesetzt hat. Realisiert wird ein Klassenmodell für betriebswirtschaftliche Kennzahlen und Dimensionen jeweils mit den entsprechenden Methoden zur Verwaltung der später zu erzeugenden Objekte. Darauf aufbauend besteht die Möglichkeit, dynamische Aspekte zu berücksichtigen. Der Modellrahmen ist vor allem für die Anforderungsdefinition auf semantischer Ebene, also zur Erstellung eines Fachkonzeptes gedacht. Gesichtspunkte, wie z.B. die Versionierung werden implizit berücksichtigt, ohne allerdings auf die genaue Implementierung einzugehen.

    Totok, A. (2000): Modellierung von OLAP- und Data-Warehouse-Systemen, Wiesbaden (Gabler) 2000 (Download im PDF-Format)
  • Kombination von UML und ADAPT
    Einen interessanten Ansatz, der versucht, die Vorteile einer objektorientierten Modellierung mit der praxisorientierten Vorgehensweise von ADAPT in Einklang zu bringen, machten Priebe und Pernul 2001 mit der ADAPTed UML

Weitere Internetquellen zur Modellierung

  • Unified Modelling Language (UML)
    Die UML stellt eine Verschmelzung der objektorientierten Modellierungskonstrukte von Booch, Jacobsen und Rumbaugh dar. Sie wird inzwischen von der Object Management Group (OMG) gepflegt und weiterentwickelt