• Keine Ergebnisse gefunden

Übung „Netzbasierte Informationssysteme“

N/A
N/A
Protected

Academic year: 2022

Aktie "Übung „Netzbasierte Informationssysteme“"

Copied!
2
0
0

Wird geladen.... (Jetzt Volltext ansehen)

Volltext

(1)

Arbeitsgruppe Corporate Semantic Web, Free University Berlin

Leitung: Prof. Dr. Adrian Paschke

Übung „Netzbasierte Informationssysteme“

WS 2008/2009

König-Luisen-Str. 24-26 1495 Berlin Prof. Dr. Adrian Paschke paschke@inf.fu-

berlin.de

Übungsblatt 6

Ausgabe am 16.12.2008

Abgabe bis spätestens 6.1.2009, 16.00 Uhr

Aufgabe Kurzbeschreibung

F r die zweite Aufgabe werden Sie eine Websuche in Ihrer Website z.B. aus Übungsblatt 2 , Aufgabe 7 oder Webseite ihrer Wahl einbauen - die Webseite soll HTML Daten, XML Daten und mind. fünf Bilder enthalten.

Daf r nutzen Sie das Tool "Lucene" (http://lucene.apache.org/). Sie können damit Ihre Website indexieren lassen: HTML Dokumente, XML Daten und Ihre Bilder. Danach f hren Sie selber ein paar eigene Abfragen auf Ihrer Website durch und bekommen hoffentlich relevante Ergebnisse.

Aufgabe 22: Website indexieren (15 Punkte)

Um Ihre Website indexieren zu lassen, brauchen Sie ein Indexing Tool. Daf r geeignet ist Lucene von Apache.

Sie können Lucene Java von http://www.apache.org/dyn/closer.cgi/lucene/java/ herunterladen. Momentan ist Version 2.4.0 verf gbar.

Damit Sie einen n tzlichen Index bekommen, sollten Sie aufpassen, dass gen gend Text auf der Website zu finden ist (am besten wäre es, wenn Sie einige Artikel aus Wikipedia kopieren). Sie sollten sich auch

Gedanken machen, wie Sie Ihren Index verbessern können, indem Sie z.B. HTML Markup und Metadata passend verwenden. Sie m ssen auch ber cksichtigen, dass Ihre XML Daten und Ihre Bilder irgendwie durchsucht werden können.

Deswegen sollen Sie die Code f r die Indexierung in Lucene entsprechend erweitern/ändern. Als Ergebnis sollen sie dann drei Lucene Indexes erhalten, in dem man durch Eingabe eines Suchtextes Ihre HTML Daten, XML Daten und (f nf) Bilder finden kann.

Aufgabe 23: Websuche implementieren (10 Punkte)

Sie können die Demo Web Anwendung von Lucene so erweitern, dass ber Tomcat eine Website mit Suchfunktion realisiert wird. Diese Suche soll dann folgende drei Optionen anbieten: HTML, XML, Bilder.

Die Suchfunktion soll auch durch HTML Markup und/oder Metadata die Suchergebnisse besser ranken können.

Durch Texteingabe sollen Ergebnisse gerankt zur ckgeliefert werden. Dieses Ranking sollte zudem auf der Ergebnisseite beschrieben werden: Wenn beispielsweise HTML Markup benutzt wird, und man Text in <TITLE>

Elementen besser rankt als Text in <P> Elementen, sollte diese Vorgehensweise auch im Ergebnis angegeben werden.

Aufgabe 24: Website nach Inhalt abfragen (5 Punkte)

Die Website kann jetzt durchsucht werden. In Lucene, kann man 6 weitere Typen von Abfragen unterst tzen (neben der Standardtextsuche): Field, Wildcard, Fuzzy, Proximity, Range, Boolean.

Formulieren Sie f r jeden der Abfragetypen eine Beispielabfrage. Wenden Sie die Beispielanfragen auf Ihrer Website an (d.h. am besten suchen Sie nach Inhalten, die auf Ihrer Website zu finden sind) und merken Sie sich die Ergebnisse. Mindestens eine Abfrage soll Ihre XML Daten durchsuchen, und mindestens eine Abfrage soll Ihre Bilder durchsuchen.

Abgabe

Abgabe per E-Mail:

(2)

- CSW, Netzbasierte Informationssysteme - Übungsblatt 4, Seite 2 - Schicken Sie drei bzw. vier Dateien:

Als ZIP Ihre Lucene Demo Java Dateien (modifiziert f r die Aufgabe, eine bessere HTML Suche, eine XML Suche und eine Bildsuche zu realisieren)

Als WAR Ihre Lucene Web Anwendung, daß Sie f r die Website Suche geändert haben.

Als WAR Ihre Website, falls Sie hier etwas geändert haben (z.B. mehr Inhalt, mehr Markup und/oder Metadata)

Als Text, Ihre sieben Musterfragen und der jeweils erste Treffer von der Suche. Erklären Sie die Antworte (z.B. weil Text in HTML TITLE war, oder wegen IMG ALT usw.)

Abgabe Mail an: paschke@inf.fu-berlin.de (gepackt)

Betreff: [CSW-NBI] Übung 6, <Name1>, <Matrikelnummer1>, <Name2>, <Matrikelnummer2>

Hinweis:

http://lucene.apache.org/

Viel Erfolg!

Referenzen

ÄHNLICHE DOKUMENTE

• Wenn das Suchen in einer Zeile zweimal verwendet wird und das zweite Mal das Feld „Nur ganze Wörter“ aktiviert ist, dann wird die zweite Suche das Ganze von jeder ausgewählten

Universal Description, Discovery, and Integration (UDDI) Business Process Execution.

§ Zur Entscheidung, ob eine IP-Adresse zu einem Netzwerk gehört, wird sie mit der Netzmaske bitweise

§ enthält alle nachfolgenden Geschwister des Kontextknotens; falls der Kontextknoten ein Attribut- oder Namensraumknoten ist, ist diese Achse leer.

 Benennen Sie anhand der vorgestellten Anwendungen des Semantic Web, wo Mehrwert durch diese Technologien entsteht, den man nicht mehr. herkömmlichen Informationssystemen

Ein externer Partner schickt für die Durchführung einer Marketingkampagne ein XML-Dokument premiumCustomers.xml (siehe NBI-Homepage), welches eine Reihe von Kundendaten enthält.

Write a rule program in Prova syntax (http://prova.ws; ISO Prolog synax) to compute the entrance price, The program should implement the following rules:.. • Couples receives

Nehmen Sie den Text BNegativ1.xml aus dem Korpus vom 8.Übungsblatt und erstellen Sie für den Artikelinhalt eine Textaufschlüsselung ähnlich zu OpenCalais unter Verwendung von