• Keine Ergebnisse gefunden

Projekt zur Lehrveranstaltung “Informationssysteme“

N/A
N/A
Protected

Academic year: 2022

Aktie "Projekt zur Lehrveranstaltung “Informationssysteme“"

Copied!
5
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Prof. Dr.-Ing. Thomas Kudraß Dipl.-Math. Dörte König HTWK Leipzig, F IMN

Projekt zur Lehrveranstaltung “Informationssysteme“

Das Projekt ist in drei Teile aufgeteilt, die den Phasen eines Data-Warehouse-Projekts entsprechen. Die Bewertung des Projekts geht zu 50% in die Gesamtnote des Faches

„Informationssysteme“ ein.

1. Teil: Datenextraktion aus dem Web und Datenimport

Import der Rohdaten aus dem Web mit Hilfe der Browser-Erweiterung Chickenfoot zum automatisierten Browsen in ausgewählten Webseiten

Optional: Nutzung von Webservice-Technologien zum Zugriff auf externe Datendienste (z.B. Google, Amazon)

Umwandlung der Daten in ein XML-Format (z.B. mittels JavaScript, XPath, FireBug PlugIn) und Import in die relationale Datenbank

Extraktion der für die Analyse benötigten relevanten Merkmale

2. Teil: Data Cleaning / Laden

Data Cleaning, d.h. Objektkonsolidierung, Datennormalisierung, Ableitung neuer Attribute

Beispiele für mögliche Bereinigungen: Angleichung unterschiedlicher Schreibweisen von Namen, Erkennung von Duplikaten, Inkonsistenzen

Ausführung und Diskussion der Data-Cleaning-Schritte hinsichtlich Performanz und Datenqualität

Laden des ODS bzw. des Data Warehouse

3. Teil: OLAP und Business Intelligence

Definition und Erstellung eines Data Cubes, inklusive OLAP-Analysen und mehrdimensionaler Abfragen

Nutzung von Oracle-OLAP-Technologien

Modellierung von hierarchischen Dimensionen

Ergebnisse:

o Aufbau des Data-Warehouse-Schemas (Dimensions- und Faktentabellen mit allen Attributen)

o Füllen der Dimensions- und Faktentabellen im Analytic Workspace

o Erstellung der Data Cubes

o Ausführung interaktiver OLAP-Queries basierend auf Cubes

o Visualisierung der Anfrageergebnisse (Diagramme)

Der ETL-Prozess kann mit dem Oracle Warehouse Builder modelliert werden.

(2)

Zum Projekt ist eine kleine Dokumentation zu erstellen. Diese sollte folgende Bestandteile beinhalten:

Teil 1:

Kurze Beschreibung der gewählten Data-Warehouse-Anwendung (Weltausschnitt). Dazu zählen die wichtigsten Informationsobjekte sowie die geplanten Auswertungen.

Konzeptionelle Modellierung der Datenquellen (als Datenbank oder Dokument) Aspekte der Datenqualität (Diskussion)

Teil 2:

Konzeptionelles Modell des Operational Data Store (ERD)

Logisches Modell des Operational Data Store ( Relationenschema) Teil 3:

Data-Warehouse-Modell als multidimensionales Datenmodell Definition von mindestens 3 unterschiedlichen OLAP-Queries

Darüber hinaus relevante Metadaten sind jeweils in den einzelnen Teilen anzugeben.

Teil 1 und Teil 2 zusammen werden in schriftlicher Form als Meilenstein I abgenommen (Termin KW 22). Meilenstein II bildet die Endabnahme am Rechner (Termin KW 26)

Das Projekt ist in Zweiergruppen zu bearbeiten.

(3)

Mögliche Anwendungs-Szenarien für den Aufbau eines Data Warehouse:

Fallstudie 1: Leipzig-Event--Data Warehouse

Aufbau eines Data Warehouse über Veranstaltungen und Events in Leipzig, Kapazitäten von Hotels und Gaststätten und anderen Serviceanbietern mit dem Ziel einer besseren Abstim- mung und Ressourcenplanung zwischen den Beteiligten.

Öffentlich zugängliche Datenquellen:

• Veranstaltungen (Events):

o Veranstaltungsdatenbank von Zeitschriften, Magazinen und Portalen (Leipzig live, LVZ, Kreuzer, meinestadt.de, port01)

o offizielles Portal der Stadt Leipzig o Veranstaltungskalender der Stadt Leipzig

• Locations:

o Locationagent o livegigs.de

• Unterkünfte:

o hrs.de, hotel.de, diverse regionale Portale

• Gastronomie:

o Webauftritte von Restaurants und Catering-Firmen

• Sonstige Serviceanbieter:

o Security-, Escort- und Carservice

Informationsbedarf:

• Veranstaltungen (Events):

o Name, Veranstaltungstyp (z.B. Konferenz, Party, Konzert,…) o Veranstaltungszeitraum, Veranstaltungszeit

o Veranstaltungsort (Adresse oder Location) o Kontaktdaten Anbieter

o Eintrittspreis

• Locations:

o Name

o Adresse (einschl. Stadtteil)

o Kontaktdaten (Telefon, Fax, E-Mail, Web) o Erreichbarkeit

• Unterkünfte:

o Name des Hotels

o Adresse (einschl. Stadtteil)

o Kontaktdaten (Telefon, Fax, E-Mail, Web) o Bettenkapazität

(4)

o Erreichbarkeit

• Gastronomie:

o Name der Einrichtung o Adresse (einschl. Stadtteil)

o Kontaktdaten (Telefon, Fax, E-Mail, Web) o verfügbare Plätze

o Angebot (Speisen, Getränke)

• Sonstige Serviceanbieter:

o Name der Einrichtung o Adresse

o Kontaktdaten (Telefon, Fax, E-Mail, Web) o Verfügbarer Service

Mögliche Auswertungen

• Ressourcen- und Kapazitätsvergleich

• langfristige Übersicht über Events (Aufdeckung von Spitzenlasten und Konkurrenz- situationen in der Zukunft)

• Auswertungen in verschiedenen Dimensionen:

o Veranstaltungstyp o zeitbezogen

o ortsbezogene Auswertungen (Locations, Stadtteile ..) o Teilnehmerzahl

Auswertungen der Datenqualität der Quelldaten im Netz

• Unvollständige bzw. fehlende Informationen (z.B. bei Adressen von Anbietern)

• Veraltete Informationen (z.B. nicht-existente oder umbenannte Gaststätten)

• Inkonsistente (widersprüchliche) Informationen (z.B. widersprüchliche Veranstaltungs- bezeichnungen aus verschiedenen Quellen)

• Offenkundige Fehler in den Einträgen

(5)

Fallstudie 2: HTWK-Data Warehouse

Aufbau eines Data Warehouse mit öffentlich zugänglichen Informationen über die HTWK Leipzig. Im Data Warehouse sollten Informationen zu finden sein über Professoren &

Mitarbeiter der Hochschule, deren Lehrangebote und Forschungsergebnisse:

• Professoren und Mitarbeiter

o Adressinformationen (z.B. E-Mail, Homepage, FB, Telefon, Büro, Sprechzeiten)

o Berufungsgebiet / Lehrgebiete o Funktionen an FB / Hochschule

• Lehrveranstaltungen

o Persönlicher Stundenplan (Lehrveranstaltungen und Termine) o Studentische Bewertungen (meinprof.de)

• Forschung

o Forschungsthemen

o Bisher betreute Diplomarbeiten o Veröffentlichungen

Mögliche Auswertungen

• Anzahl und Art der Veröffentlichungen (Google Scholar, für Informatik: DBLP Trier)

• Statistik über Lehrauslastung

o Bedienbeziehungen (z.B. Welcher FB bedient welchen anderen FB?) o Auswertungen pro Professor / Fachbereich u.a.

• Statistik über Lehrangebote

• Statistik über betreute Diplomarbeiten (sofern Informationen online)

• Mögliche Auswertedimensionen: Fachbereich, Fachgebiet, Professor

Auswertungen der Datenqualität der Quelldaten im Netz

• Unvollständige bzw. fehlende Informationen (z.B. bei Diplomthemen)

• Veraltete Informationen (z.B. ausgeschiedene Professoren)

• Inkonsistente (Widersprüchliche) Informationen (z.B. Zugehörigkeit zu FB, akademischer Grad)

• Fehler in den Einträgen (z.B. bei Büro-Adresse)

.

Es können auf besonderen Wunsch auch andere Fallbeispiele bearbeitet werden. Diese müssen jedoch zu Beginn des Projekts abgesprochen werden.

Referenzen

ÄHNLICHE DOKUMENTE

Advantages of a Layered Architecture for Enterprise Data Warehouse Systems1. Enterprise Data

Kimball, R.; Caserta, J.:The Data Warehouse ETL Toolkit, Indianapolis: John Wiley & Sons (2004). Kimball, R.; Ross, M.; Thornthwaite, W.: The Data Warehouse Lifecycle

Un- ter den gleichen Gegebenheiten wie bei einer verbundpfadoptimierten Verteilung k¨onnen die an einem Pfad beteiligten Tabellen auf m¨oglichst viele Rechner verteilt werden, um

Die temporale Algebra T IA [Har03, Har04] stellt eine Menge relationaler Integrations- operatoren bereit, die in Integrationsprozessen eingesetzt werden k¨onnen, um Daten

Das von der Object Management Group verabschiedete Common Warehouse Metamo- del (CWM) hat sich inzwischen als industrieweiter Standard zur Modellierung von Metadaten in

In this paper we pursue schema design for data warehouses in the spirit of classical database design, organized as a sequence of requirement analysis and specification to collect

dem Data Warehouse und dem Data Mining stellen sich Unternehmen auch darauf ein, Informationen über bereits gewonnene oder potentiell künftige Kunden zu sammeln und nach

A data warehouse is a subject-oriented, integrated, time- variant, nonvolatile collection of data in support of management’s decision-making process (Immon 1996). Ein Data-Warehouse