Modellierung

Links und Literatur zur
multidimensionalen Modellierung

Eine ausfĂŒhrliche Darstellung mit zahlreichen Abbildungen der folgenden AusfĂŒhrungen ist in Totok, A. (2000): Modellierung von OLAP- und Data-Warehouse-Systemen, Wiesbaden (Gabler) 2000 erschienen (nur noch als PDF-Download erhĂ€ltlich).

Einleitung

Durch die weite Verbreitung des ERM wird dieses von vielen Autoren auch fĂŒr die Modellierung multidimensionaler Informationssysteme prĂ€feriert. Die Meinungen ĂŒber die Anwendbarkeit differieren allerdings. Schwierigkeiten gibt es z.B. bei der Abbildung von Dimensionshierarchien (Gabriel/Gluchowski 1997, S. 30) oder von datenstrukturinhĂ€renten Regeln (Holthuis 1998, S. 136). Diskutiert werden muss weiterhin, inwieweit und in welcher Form auswertungsbezogene Methoden und Sichten in die Modellierung multidimensionaler Informationssysteme einbezogen werden sollten. Einige Autoren sehen keine Notwendigkeit, das ERM um neue Konstrukte zu erweitern, sondern modifizieren nur die Anordnung der Notationselemente. Ein andere Gruppe von Veröffentlichungen behandelt die Erweiterung des ERM um spezielle multidimensionale Notationselemente. Eine letzte Gruppe hĂ€lt das ERM fĂŒr nicht ausreichend und benutzt objektorientierte AnsĂ€tze oder generiert völlig neue Notationen. Im Folgenden wird eine Übersicht ĂŒber ausgewĂ€hlte AnsĂ€tze gegeben.

Die semantische Modellierung operativer Systeme wurde in der Vergangenheit umfassend thematisiert. In Theorie und Praxis hat sich das Entity-Relationship Model (ERM) von CHEN (Chen 1976, S. 9 ff) als Standard durchgesetzt. In den letzten Jahren wurde auch verstĂ€rkt der objektorientierte Ansatz behandelt, der durch die Unified Modeling Language (UML) eine Standardisierung erfahren hat. Im Bereich multidimensionaler Informationssysteme steht eine solche Standardisierung noch aus, vielmehr wird zur Zeit eine intensive Diskussion darĂŒber gefĂŒhrt, welche AnsĂ€tze sich besonders eignen.

  • Chen, P. P. (1976): The entitiy-relationship-model – towards a unified view of data, in ACM Transactions on Database Systems, 1/1976, S. 9-36
  • Gabriel, R.; Gluchowski, P. (1997): Semantische Modellierungstechniken fĂŒr multidimensionale Datenstrukturen, in: HMD – Theorie und Praxis der Wirtschaftsinformatik, 195/1997, S. 18-37
  • Holthuis, J. (1998): Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher UniversitĂ€ts Verlag) 1998

AnsÀtze auf Basis des ERM

  • Multidimensionales Entity-Relationship Model
    Das multidimensionale Entity-Relationship Model (ME/R Model) ist eine Modellierungsnotation, die von der Forschungsgruppe Wissensbasen des bayrischen Forschungszentrums fĂŒr wissensbasierte Systeme (Forwiss) im Rahmen des Projekts System 42 entwickelt wurde.

    FĂŒr die semantische Modellierung wird die ER-Notation um die drei neuen Elemente Faktenrelation, Dimensionsebene und hierarchische Beziehung ergĂ€nzt (Sapia et al. 1998). Bei Faktenrelation und hierarchischer Beziehung handelt es sich um spezialisierte Beziehungstypen. Dimensionsebenen sind eine besondere AusprĂ€gung von Entities. GrundsĂ€tzlich wurde fĂŒr die Notation das Prinzip der MinimalitĂ€t angewendet, so dass Notationselemente so sparsam wie möglich benutzt werden. Daher gibt es auch keine Elemente fĂŒr bestimmte Dimensionstypen oder -elemente. Ebenso werden normale und hierarchische Beziehungen nicht durch das traditionelle Rautensymbol dargestellt, sondern werden vom Verbindungselement impliziert.

    Sapia, C.; Blaschka, M. ; Höfling, G.; Dinter, B. (1998): Extending the E/R Model for the Multidimensional Paradigm, Proc. International Workshop on Data Warehouse and Data Mining (DWDM, in connection with ER’98), Nov 19-20, 1998, Singapore
  • Modifizierte Objekttypenmethode
    Bei der Objekttypenmethode (OTM) nach WEDEKIND und ORTNER (Wedekind 1981, Ortner 1983) handelt es sich keinesfalls um einen objektorientierten Ansatz, der Daten und Methoden eng miteinander verknĂŒpft und z.B. von BOOCH oder COAD/YOURDON verfolgt wird. Vielmehr ist die OTM eine methodische Vorgehensweise, die auf dem Objekttypenmodell basiert, dessen AusprĂ€gungen notationsmĂ€ĂŸig eng mit dem ERM verwandt sind. Das primĂ€re Ziel der OTM ist die formale Begriffsbildung, die durch eine Rekonstruktion der Fachbegriffe im Unternehmen erreicht wird (Ortner 1983, S. 18).

    Eine Modifikation der OTM fĂŒr die Modellierung von Data-Warehouse-Systemen stammt von RAUTENSTRAUCH. FĂŒr die multidimensionale Modellierung werden die Sprachkonstrukte Objekttyp, der synonym fĂŒr Entitytyp benutzt wird, Konnexion, also ein Beziehungstyp fĂŒr die Verbindung von Objekten sowie Aggregation verwendet. (Rautenstrauch 1997, S. 7 ff). Neu eingefĂŒhrt wird ein komplexer Objekttyp, der Dimensionselemente, die in einer hierarchischen Beziehung zueinander stehen, zusammenfasst. Ebenso wie beim ME/R Modell gibt es keine besonderen Symbole fĂŒr bestimmte Dimensionstypen; im Gegensatz dazu allerdings auch kein Symbol fĂŒr eine zentrale Faktentabelle. Der Aufbau der Modelle orientiert sich an Star, Snowflake und Galaxy Schema.

    Ortner, E. (1983): Aspekte einer Konstruktionssprache fĂŒr den Datenbankentwurf, Darmstadt (Toeche-Mittler) 1983

    Rautenstrauch, C. (1997): Modellierung und Implementierung von Data-Warehouse-Systemen, Arbeitspapier, Otto-von-Guericke-UniversitÀt, Magdeburg, 1997

    Wedekind, H. (1981): Datenbanksysteme I: Eine konstruktive EinfĂŒhrung in die Datenverarbeitung in Wirtschaft und Verwaltung, 2. Aufl., Mannheim ZĂŒrich (Bibliographisches Institut) 1981

    Datenmodellierung Data Warehouse – ein Lösungsvorschlag mittels ER-Modellierung
    Der Modellierungsansatz wurde von der Arbeitsgruppe Enterprise Modelling der IBM-Anwendergruppe Guide/Share Europe erstellt. ALTENPOHL ET AL. benutzen fĂŒr ihre Modelle ausschließlich Entity- und Beziehungstypen, wobei Ă€hnlich wie beim ME/R-Ansatz das Rautensymbol nicht verwendet wird, sondern Beziehungen zwischen Entities durch eine beidseitige Pfeilnotation impliziert werden (Altenpohl et al. 1997, S. 8 ff), Das Modell konzentriert sich auf die logischen Belange von Star und Snowflake Schema, wobei die Modellierung von Dimensionshierarchien und zentraler FaktenentitĂ€t im Vordergrund steht. Aussagen zu Dimensionstypen oder Formeln werden wie bei den vorher genannten AnsĂ€tzen nicht getroffen.

    Altenpohl, U.; Huhn, M.; Schwab, W.; Zeh, T. (1997): Datenmodellierung Data Warehouse – ein Lösungsvorschlag mittels ER-Modellierung, Arbeitspapier der Arbeitsgruppe Enterprise Modeling/Guide Share Europe 1997

    ER-Modellierung aggregierter Daten
    Bereits 1994 haben BECKER ET AL. eine Erweiterung des ER-Modells zur Modellierung von aggregierten Daten vorgestellt. Gefolgt wird dabei der Auffassung von RAUH, der eine Differenzierung im ERM zwischen originĂ€ren und abgeleiteten Daten fordert (Rauh 1992, S. 295). Ziel der Erweiterung soll es daher sein, in einem ERM zu erkennen, welche Daten atomar und welche verdichtet sind (Becker et al. 1994, S. 423). Dabei muß in der Darstellung deutlich werden, welche Informationen auf Entities und welche auf Beziehungen beruhen. Als zusĂ€tzliche Beschreibungselemente werden hierzu ein Verdichtungspfeil (Doppellinie durchgezogen und gestrichelt) sowie ein Verdichtungs-Entitytyp, der aufgrund verdichteter Daten entsteht (uminterpretierter Beziehungstyp mit zusĂ€tzlicher Strichelung) eingefĂŒhrt.

    Becker, J; Priemer, J.; Wild, R. G. (1994): Modellierung und Speicherung aggregierter Daten, in: Wirtschaftsinformatik, 5/1994, S. 422-433

    Rauh, O. (1992): Überlegungen zur Behandlung ableitbarer Daten im Entity-Relationship-Modell (ERM), in: Wirtschaftsinformatik, 3/1992, S. 294-306

AnsÀtze ohne direkten Bezug zu einem konventionellen Modell

  • Application Design for Analytical Processing Technologies (ADAPT)
    Das Application Design for Analytical Processing Technologies (ADAPT) ist eine von BULOS fĂŒr die multidimensionale Datenstrukturierung entwickelte grafische Modellierungsnotation, die ihren Ursprung in der Unternehmensberatungspraxis hat. ADAPT ist auf mehreren Modellierungsebenen einzuordnen, da es sowohl semantische, logische und physikalische Aspekte umfasst. Motiviert wird die Entwicklung einer neuen Notation durch die UnzulĂ€nglichkeit traditioneller Modellierungstechniken (Bulos 1996, S. 34). Hierzu wird angefĂŒhrt, dass in Entity-Relationship Models keine Möglichkeit besteht, die Verarbeitungslogik fĂŒr Analyseprozesse abzubilden. Mit Datenflußdiagrammen können zwar dynamische Aspekte berĂŒcksichtigt werden, sie reichen allerdings fĂŒr Darstellung von Berechnungen nicht aus. Benötigt wird eine Modellierungstechnik, welche die Verarbeitungslogik, die in Form von Ableitungsregeln im Datenbankserver angesiedelt ist, fĂŒr Analyseprozesse in Beziehung zu multidimensionalen Datenstrukturen darstellen kann.

    Die Firma Symmetry Corporation bietet die Modellierungskonstrukte als Schablone fĂŒr Visio zum Download an. Zur Zeit liegt die Schablone in der Version 3 vor. Im Unterschied zu Version 1.1 gibt es keine unterschiedlichen Dimensionstypen mehr. Insgesamt wurde der Umfang der Symbole reduziert. Damit hat Bulos auf die Kritik an der KomplexitĂ€t seiner Notation reagiert, die aus den zahlreichen Symbolen entstand. Ein Fallbeispiel fĂŒr ADAPT findet man fĂŒr die Automobilindustrie von Jaworski und Totok.

    Bulos, D. (1996): A New Dimension, in: Database Programming & Design: 6/1996, S. 33-37; nachgedruckt in: Chamoni, P.; Gluchowksi, P. (Hrsg.): Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 251-261

    Bulos, D.; Forsman, S. (1998): Getting Started with ADAPT, White Paper, San Rafael (Symmetry) 1998; Informationen bei Symmetry erhÀltlich

    Bulos, D.; Forsman, S. (2000): Olap Database Design: Delivering on the Promise of the Data Warehouse
  • Grafenbasiertes Modell
    HAHNE/SCHELP leiten ein semantisches grafenbasiertes Datenmodell her, das multidimensionale Elemente auf Konstrukte der Grafentheorie abbildet (Hahne/Schelp 1997, 25 ff). Dabei verallgemeinern die Autoren hierarchische Dimensionen zu knotenmarkierten Baumstrukturen, Heterarchien (Dimensionsstruktur mit unterschiedlichen PfadlĂ€ngen ) zu knotenmarkierten gerichteten Graphen mit genau einer Quelle sowie parallele Hierarchieny zu knoten- und kantenmarkierten Graphen mit genau einem Ursprung und genau einem Ziel. Die Gesamtsicht auf das Modell erfolgt in einer Kreisdarstellung, bei der alle Dimensionen einschließlich einer Kennzahlendimension rund um den Mittelpunkt angeordnet sind (Schelp 1998, S. 273). Die Autoren definieren weiterhin ein formales logisches Modell fĂŒr mehrdimensionale Strukturen und Operationen. Eine genaue Beschreibung der Transformationsregeln vom semantischen in das logische Modell steht allerdings noch aus (Hahne/Schelp 1997, S. 48).

    Hahne, M.; Schelp, J. (1997): Semantische und logische Modellierung mehrdimensionaler Datenstrukturen, Arbeitsberichte des Lehrstuhls fĂŒr Wirtschaftsinformatik, Ruhr-UniversitĂ€t Bochum, 1997

    Schelp, J. (1998): Konzeptionelle Modellierung mehrdimensionaler Datenstrukturen, in: Chamoni, P.; Gluchowksi, P. (Hrsg.): Analytische Informationssysteme, Berlin et al. (Springer) 1998, S. 263-276
  • SkalenĂ€hnliche Darstellung
    THOMSEN benutzt eine Notation, die an die Skalendarstellung von FlĂŒssigkeitsstĂ€nden erinnert. Kennzahlen werden horizontal nebeneinander in einer einzeiligen Tabelle angeordnet. Dimensionselemente werden auf einer vertikalen Skala eingetragen, wobei alle Verdichtungsebenen markiert werden. FĂŒr jede Ebene wird ergĂ€nzend die Anzahl AusprĂ€gungen notiert, um die benötigte GrĂ¶ĂŸe der Datenbank abschĂ€tzen zu können (Thomsen 1997, S. 236 ff, S. 447 ff). Die Ebene, auf der Daten in das multidimensionale System importiert werden, wird mit einem Punkt versehen, so dass man erkennen kann, an welcher Stelle die Daten atomar sind. Der Datenimport erfolgt nach der Vorgehensweise nicht zwingend auf der untersten Ebene.

    Thomsen, E. (1997): OLAP Solutions – Building Multidimensional Information Systems, New York et al. (John Wiley & Sons) 1997
  • Dimensional Fact Model
    Ein anderer Ansatz, der neben einer Notation auch eine methodische Vorgehensweise zur Transformation in dritter Normalform befindlicher ERM in multidimensionale Strukturen umfasst, ist das Dimensional Fact (DF) Model von GOLFARELLI ET AL. Die Notation des DF Model besteht aus einer zentralen Kennzahlentabelle und baumartigen Dimensionsstrukturen. Einen Schwerpunkt bildet die Modellierung der AdditivitĂ€t von Kennzahlen. Die Aggregation von additiven Kennzahlen wird wie in anderen Notationen ĂŒblich durch die Verbindung von hierarchischen Dimensionselementen mit durchgezogenen Linien dargestellt. Hierarchien werden dabei durch eine graue Schattierung verdeutlicht. Semi-additiv sind Kennzahlen, die sich nicht entlang jeder Dimensionshierarchie summieren lassen. Nicht-additive Kennzahlen lassen sich bezĂŒglich keiner Dimensionshierarchie addieren. Semi- oder nicht-additivitive Kennzahlen sind damit nur dem untersten Element jeder Dimension zuzuordnen. Markiert werden sie durch gestrichelte Linien von der Kennzahl hin zu der jeweiligen Dimensionshierarchie, ĂŒber die sie nicht addiert werden können.

    Golfarelli, M.; Maio, D.; Rizzi, S. (1998): Conceptual Design of Data Warehouses from E/R Schemes, in: Proceedings of the Hawaii International Conference On System Sciences, 6.-9.1.1998, Kona, Hawai, o. S.

AnsÀtze auf Basis des objektorientierten Modells

  • Anwendung der Object-Oriented Analysis
    Eine durchgehend objektorientierte Modellierung und Implementierung von Data-Warehouse-Systemen wird von OHLENDORF vorgeschlagen. Neben den schon genannten Vorteilen einer objektorientierten Vorgehensweise weist OHLENDORF auf den Vorteil hin, auch unstrukturierte Daten sowie komplexe Datenstrukturen in objektorientierten Datenbanksystemen verwalten zu können. Dadurch wird Einbeziehung von externen, evtl. auch multimedialen Inhalten, in multidimensionale Analysen erleichtert. FĂŒr die Modellierung wird die Object-Oriented Analysis nach COAD/YOURDON benutzt. Die Klasse WĂŒrfelfeld ist das zentrale Element des Ansatzes, deren Instanzen mit den fĂŒr sie relevanten Dimensionen in Verbindung stehen. AusprĂ€gungen der Klasse WĂŒrfelfeld stehen mit AusprĂ€gungen der Klasse KenngrĂ¶ĂŸe ĂŒber Objekte der Klasse Atom-Datum in Verbindung, so dass die semantische Objektidentifikation fĂŒr jedes atomare multidimensionale Objekt gegeben ist (Ohlendorf 1997, S. 223). Verdichtungen werden in der Dimensionsklasse durch die Methode dim_falten angedeutet. Die Methode dim_falten wird an die verschiedenen Dimensionen vererbt, wo sie dann auch ĂŒberschrieben werden kann.

    Ohlendorf, T. (1997): Objektorientierte Datenbanksysteme fĂŒr den Einsatz im Data-Warehouse-Konzept, in: Mucksch, H.; Behme, W. (Hrsg.): Das Data-Warehouse-Konzept – Architektur – Datenmodelle – Anwendungen, 2. Aufl., Wiesbaden (Gabler) 1997, S. 211-233
  • Anwendung der Object Modeling Technique
    Die Evaluation von objektorientierten Konstrukten zur Abbildung multidimensionaler Elemente steht im Mittelpunkt einer Betrachtung von HOLTHUIS. ÜberprĂŒft werden Klassen- und Zustandsdiagramme sowie funktionale Modelle fĂŒr die Modellierung multidimensionaler Konstrukte nach der OMT von RUMBAUGH ET AL. Unterschieden wird grundsĂ€tzlich zwischen Makro- und Mikrosichten (Holthuis 1998, S. 135 ff). Analog zur Architektur integrierter Informationssysteme wird die Makrosicht in Daten-, Funktions-, Organisations- und GeschĂ€ftsprozeßsicht differenziert. Die Mikrosichten sind ein Unterpunkt der Datensicht und dienen zur Definition von statischen Strukturen, Funktionen und Verhalten. Benutzt werden Objektklassen und Klassenhierarchien zur Modellierung von Dimensionen mit Ebenen und Verdichtungsstufen, die sich direkt der Mikro-Modellierungssicht zuordnen lassen.

    Holthuis, J. (1998): Der Aufbau von Data Warehouse-Systemen, Wiesbaden (Deutscher UniversitÀts Verlag) 1998
  • Anwendung der Unified Modeling Language
    TOTOK entwickelt einen objektorientierten Modellrahmen fĂŒr die semantische Modellierung von multidimensionalen Informationssystemen. Als grafische Notation wird die UML benutzt, die sich als Standard durchgesetzt hat. Realisiert wird ein Klassenmodell fĂŒr betriebswirtschaftliche Kennzahlen und Dimensionen jeweils mit den entsprechenden Methoden zur Verwaltung der spĂ€ter zu erzeugenden Objekte. Darauf aufbauend besteht die Möglichkeit, dynamische Aspekte zu berĂŒcksichtigen. Der Modellrahmen ist vor allem fĂŒr die Anforderungsdefinition auf semantischer Ebene, also zur Erstellung eines Fachkonzeptes gedacht. Gesichtspunkte, wie z.B. die Versionierung werden implizit berĂŒcksichtigt, ohne allerdings auf die genaue Implementierung einzugehen.

    Totok, A. (2000): Modellierung von OLAP- und Data-Warehouse-Systemen, Wiesbaden (Gabler) 2000 (Download im PDF-Format)
  • Kombination von UML und ADAPT
    Einen interessanten Ansatz, der versucht, die Vorteile einer objektorientierten Modellierung mit der praxisorientierten Vorgehensweise von ADAPT in Einklang zu bringen, machten Priebe und Pernul 2001 mit der ADAPTed UML

Weitere Internetquellen zur Modellierung

  • Unified Modelling Language (UML)
    Die UML stellt eine Verschmelzung der objektorientierten Modellierungskonstrukte von Booch, Jacobsen und Rumbaugh dar. Sie wird inzwischen von der Object Management Group (OMG) gepflegt und weiterentwickelt