DogitaLS1

Ein digitales Bibliothekssystem auf der Basis von Hyper-G

DogitaLS1
A Digital Library System Based on Hyper-G

Klaus Tochtermann
Center for the Study of Digital Libraries
Department of Computer Science
Texas A&M University
College Station, TX 77843-3112 (USA)
[email protected]

Thomas Alders
Lehrstuhl Informatik 1 - LS1
Universität Dortmund
44221 Dortmund
[email protected]

D-Lib Magazine, October 1996

ISSN 1082-9873

1 Einleitung

Das Internet und World Wide Web (WWW) ermöglicht Bibliotheken neue Arten der Verbreitung von Informationen. Viele Bibliotheken bieten beispielsweise schon öffentlich zugängliche Kataloge (Online Public Access Catalog, OPAC), FTP-Server oder Sammlungen von Internet-Ressourcen an. In naher Zukunft werden auch digitale Dokumente zum Dokumentbestand einer Bibliothek gehören. Da dies zu Veränderungen der Definition einer konventionellen Bibliothek führt, haben sich mittlerweile die Begriffe "virtuelle Bibliothek" (virtual library) und "digitale Bibliothek" (digital library) etabliert. In diesem Artikel wird jedoch nur der Begriff "digitale Bibliothek" verwendet.

In Übereinstimmung mit Gladney, Fox et al. 1994 erweitert eine digitale Bibliothek den Bestand einer konventionellen Bibliothek auf digitale Dokumente und Internet-Ressourcen. Internet-Ressourcen sind Verweise auf digitale Dokumente, die an anderen Stellen im Internet gespeichert sind. So stehen also nur die Verweise unter der Kontrolle der Bibliothek, nicht aber die Dokumente, auf die verwiesen wird. Zusätzlich bietet eine digitale Bibliothek Kataloge, die Metadaten zum Bestand der Bibliothek (z.B. digitale Dokumente, Internet-Ressourcen und materielle Dokumente wie Bücher, Zeitschriften, etc.) enthalten. Schließlich muß eine digitale Bibliothek soweit wie möglich alle notwendigen Dienstleistungen konventioneller Bibliotheken bereithalten und die Vorteile der verwendeten Technologie ausnutzen. Nach Nürnberg, Furuta et al. 1995 besteht ein "digitales Bibliothekssystem" (digital library system) aus mehreren Komponenten: Der Aufbau und die Nutzung einer digitalen Bibliothek erfordern ein Klient/Server-System sowie Werkzeuge, die Interaktion zwischen Nutzern des Systems sowohl untereinander als auch mit dem Server und Klienten ermöglichen.

Im Normalfall basieren digitale Bibliotheken auf der WWW-Server-Technologie. Dies ermöglicht es Benutzern, auf die Bibliothek mit einem WWW-Klienten (WWW-Browser) wie Netscape Navigator oder dem Internet Explorer von Microsoft zuzugreifen. Es sind zur Zeit viele unterschiedliche WWW-Server vorhanden (z.B. httpd der NCSA oder verschiedene Server von Netscape). In mehreren Projekten zeigten diese Server sich zum Aufbau digitaler Bibliotheken geeignet. Darüberhinaus existiert ein Internet-Informationssystem der zweiten Generation mit dem Namen Hyper-G oder HyperWave (in diesem Artikel wird durchgehend der Begriff "Hyper-G" verwendet). Wegen der mittlerweile recht guten Anerkennung von Hyper-G entschied unsere Forschungsgruppe an der Dortmunder Universität, Hyper-G für den Aufbau eines digitalen Bibliothekssystems mit dem Namen DogitaLS1 zu nutzen. DogitaLS1 ist ein Akronym für "The Dortmund Digital Library System of LS1" (LS1 ist die Abkürzung für Lehrstuhl Informatik 1 der Universität Dortmund). LIBERATION ist ein weiteres europäisches Projekt, in dem Hyper-G zum Aufbau einer digitalen Bibliothek verwendet wird. Hauptziel dieses Projekts ist die Versorgung von Bibliotheken mit schon in elektronischer Form existierender Information (z.B. über CD-ROM, LAN oder WAN). Da dieses Projekt gerade begonnen wurde, sind zu diesem Zeitpunkt noch keine Ergebnisse verfügbar.

In diesem Artikel schildern wir nun unsere Erfahrungen mit Hyper-G als zugrundeliegender Server-Technologie für unser digitales Bibliothekssystem. Der Artikel ist im weiteren wie folgt aufgebaut:

Abschnitt 2 gibt einen kurzen Überblick über Hyper-G. In Abschnitt 3 wird die Struktur von DogitaLS1 beschrieben. Weiterhin wird die Anwendung der von Hyper-G angebotenen Konzepte zur Organisation des Dokumentbestands von DogitaLS1 gezeigt. Im Abschnitt 4 werden unsere Erfahrungen beim Einsatz von Hyper-G geschildert. Dies beinhaltet eine Liste von Anforderungen für zukünftige Internet-Informationssysteme, die zur Verwendung für digitale Bibliothekssysteme gedacht sein sollen. Schließlich enthält Abschnitt 5 eine kurze Zusammenfassung.

Anmerkung zu den angegebenen Referenzen:
Referenzen auf Dokumente, die über das Internet erreichbar sind, werden durch Verweise realisiert. Alle Verweise enthalten die im September 1996 gültigen Informationen (URLs). Nach der Veröffentlichung des Artikels werden von den Autoren keine Berichtigungen aufgrund eventueller Veränderungen der URLs vorgenommen. Daher können undefinierte Verweise in Zukunft die Folge sein.


2 Hyper-G auf einen Blick

Hyper-G ist ein Internet-Informationssystem der zweiten Generation, das unter Leitung von Hermann Maurer und Frank Kappe am Institute for Information Processing and Computer Supported New Media (IICM) der Universität Graz (Österreich) entwickelt wird. Hyper-G enthält Klient- und Server-Programme. Das Server-Programm ist für verschiedene Betriebssysteme (einschließlich SUN Sparc und IBM AIX) verfügbar. Die Klienten-Programme laufen unter Microsoft Windows (Amadeus) und Unix (Harmony). Hyper-G ist WWW-kompatibel in dem Sinne, daß mit weit verbreiteten WWW-Browsern wie Netscape Navigator auf Hyper-G Server zugegriffen werden kann. Ebenso können Hyper-G Klienten zum Zugriff auf WWW Server wie NSCA's httpd genutzt werden.

Wichtige Eigenschaften von Hyper-G sind:

Ausführliche Informationen über Hyper-G können dem gerade vom Entwicklungsteam von Hyper-G/HyperWave veröffentlichten Buch "HyperWave - The Next Generation Web Solution" entnommen werden.


3 DogitaLS1

Ein Ziel unserer Forschungsarbeiten ist die Untersuchung der Eignung von Hyper-G zur Definition organisatorischer Strukturen für digitale Bibliotheken. Zu diesem Zweck wurde eine digitale Forschungsbibliothek für unseren Lehrstuhl aufgebaut, die einen heterogenen Dokumentenbestand folgender Art enthält:

Zusätzlich wurde besonderer Wert auf Dienste für unterschiedliche Nutzertypen (z.B. Bibliothekare und Benutzer) und Kommunikationsdienste gelegt. Eine weitergehende Beschreibung der Kommunikationsdienste sowie anderer Dienste wird an dieser Stelle ausgeklammert. Eine erste Besprechung unserer Kommunikationsdienste ist in dem Forschungsbericht "A First Step Toward Communication In Virtual Libraries" zu finden. Eine umfassende Darstellung von DogitaLS1 inklusive Beschreibungen aller wesentlichen Dienste erscheint im Januar 1997 unter dem Titel "DogitaLS1: The Dortmund Digital Library System" in einem Special Issue "Digital Libraries" des Journal for Network and Computer Applications (Academic Press).

3.1 Organisatorische Struktur von DogitaLS1

Auf der Hauptebene von DogitaLS1 werden sechs Kollektionen angeboten. Die Kollektionen "Catalogs" (Kataloge), "Digital Documents" (digitale Dokumente) und "Internet Resources" (Internet-Ressourcen) dienen zur Speicherung von Metadaten zu materiellen Dokumenten, digitalen Dokumenten einschließlich der Metadaten und Internet-Ressourcen (in dieser Reihenfolge). Die Kollektionen "Services" (Dienste) und "Workspaces" (Arbeitsbereiche) werden für allgemeine Dienste und Benutzerdaten genutzt. Schließlich werden in der Kollektion "On-line Help" einführende Hilfstexte für die verschiedenen Nutzertypen bereitgestellt (vgl. Abb. 3.1). In den nächsten Abschnitten beschreiben wir den Einsatz der von Hyper-G angebotenen Konzepte zur Integration der Dokumente in den unterschiedlichen Kollektionen.

Bemerkung: Alle Abbildungen sind Bildschirmdarstellungen des Hyper-G-Klienten Harmony.

Hauptebene von DogitaLS1

Abbildung 3.1: Hauptebene der Kollektionenhierarchie von DogitaLS1

Die Kollektion "Catalogs" (Kataloge)

Die Kollektion "Catalogs" enthält einen alphabetisch sortierten Katalog, in dem Metadaten zu allen Büchern, Zeitschriften etc. unserer Lehrstuhlbibliothek gespeichert sind. Eine Frage war die Modellierung der Dokumente in Hyper-G im Hinblick auf die Ausnutzung der Möglichkeiten der in Hyper-G integrierten Suchmaschine. Eine mögliche Lösung besteht in der Nutzung der Attribute, die Metainformationen zu Hyper-G Dokumenten beinhalten können. Jedoch beziehen sich alle vordefinierten Attribute (mit Ausnahme des "keyword"-Attributs) auf ein Hyper-G Dokument und nicht auf das Buch oder die Zeitschrift, über die das Hyper-G Dokument Informationen enthält. Angenommen, der Nutzer alders erstellt beispielsweise ein Hyper-G Dokument, das Metainformationen zu einem von den Autoren Aho und Ullman geschriebenen Buch enthält, dann enthält das Attribut "Author" des Hyper-G Dokuments den Namen alders und kann so nicht zur Speicherung der beiden Autorennamen Aho und Ullman genutzt werden. Aus diesem und anderen Gründen entschieden wir, für wichtige Informationen (Autoren, Titel und Erscheinungsjahr) zu Büchern, Zeitschriften etc. den Titel des dazugehörigen Hyper-G Dokuments zu nutzen (vgl. Abb. 3.2). Andere nützliche Informationen (etwa Stichworte) werden im Attribut "keyword" gespeichert. (Anmerkung: Das Hyper-G Dokument selbst enthält viel mehr Metainformationen zum katalogisierten Buch.) Es folgt, daß mit einer Titel-Suche (der Hyper-G Dokumente) Bücher nach dem Namen des Autors, nach dem Titel (des Buchs) oder nach dem Erscheinungsjahr gesucht werden können. Zusätzlich kann mit einer "keyword"-Suche nach Stichworten gesucht werden.

Dokumenttitel in Kollektion Catalogs

Abbildung 3.2: Beispiel eines Dokumenttitels in der Kollektion "Catalogs"

Die Kollektion "Digital Documents" (Digitale Dokumente)

Digitale Dokumente (z.B. Forschungsberichte und andere Publikationen, die am Lehrstuhl erstellt wurden) werden in dieser Kollektion gespeichert. Zur Vereinfachung des Zugriffs wurde eine knappe systematische Unterteilung erstellt, die die unterschiedlichen Forschungsbereiche des Lehrstuhls abdeckt. Bei der Modellierung der digitalen Dokumente in Hyper-G waren folgende drei Vorgaben zu bedenken:

Für diese Anforderungen erweist sich das Konzept der von Kahn und Wilensky eingeführten digitalen Objekte als geeignet. In ihrer Betrachtungsweise kann ein digitales Objekt als ein vom Inhalt unabhängiger Behälter ("content-independent package") gesehen werden. Die prinzipiellen Komponenten sind ein eindeutiger Identifikator für das digitale Objekt ("handle") und ein Datum ("data"). Das Datum des digitalen Objekts ist selbst wiederum ein Behälter für Bitfolgen unterschiedlicher Art (z.B. die Textformate Postscript oder HTML).

In DogitaLS1 modellieren wir digitale Objekte unter Zuhilfenahme von Kollektionen. Daraus ergeben sich nun zwei Betrachtungsweisen für Kollektionen: 1. Wir nutzen sie zur Definition der allgemeinen Struktur von DogitaLS1, also als Behälter für Dokumente; 2. wir nutzen sie zur Modellierung digitaler Objekte. Aus konzeptioneller Sicht mag dies irritierend erscheinen. Auf der anderen Seite existiert in Hyper-G keine andere Möglichkeit zur Repräsentation digitaler Objekte. Abbildung 3.3 skizziert drei digitale Objekte im Teilbereich "Information Systems" des Klassifikationsschemas für digitale Dokumente.

Digitale Objekte

Abbildung 3.3: Digitale Objekte im Teilbereich "Information Systems" des Klassifikationsschemas für "Digitale Dokumente"

Bei der Erstellung einer Kollektion vergibt Hyper-G dafür einen auf dem Server eindeutigen Identifikator. Jedes digitale Dokument ist in einer Kollektion enthalten, die ausserdem über Metadaten zu diesem Dokument und über verschiedene Textformate (normalerweise HTML und Postscript) dieses Dokuments verfügt. Die Metadaten werden als "collection head" gespeichert. Ein "collection head" in Hyper-G ist ein spezielles Dokument, das direkt angezeigt wird, wenn ein Nutzer (z.B. Bibliothekar oder Benutzer) auf eine Kollektion zugreift. Auf diese Weise bekommt ein Nutzer, der auf ein digitales Objekt zugreift, sofort Informationen über die Daten, die in diesem digitalen Objekt gespeichert sind. Die folgende Abbildung zeigt ein digitales Objekt, das in Hyper-G durch die Kollektion "Tochtermann, Klaus: Kommunikation in virtuellen Bibliotheken, 1996" repräsentiert wird. Das Dokument "Abstract: Kommunikation in virtuellen Bibliotheken" in vom Typ "collection head" und enthält sowohl einen Überblick als auch Metadaten zum Dokument. Das Dokument selbst ist in zwei unterschiedlichen Textformaten (HTML and Postscript) verfügbar.

Digitales Objekt

Abbildung 3.4: Beispiel eines digitalen Objekts in DogitaLS1

Die Kollektion "Internet Resources" (Internet-Ressourcen)

In dieser Kollektion werden Verweise auf interessante Ressourcen, die im Internet verfügbar sind, gesammelt. Jeder Verweis wird durch ein Hyper-G Dokument repräsentiert. In diesem Fall können Metainformationen zu jedem Verweis im "keyword"-Attribute des Hyper-G Dokuments gespeichert werden. Dadurch ist eine "keyword"-Suche nach Verweisen auf Internet- Ressourcen in DogitaLS1 möglich.

Verweise auf Ressourcen in anderen Hyper-G Servern werden auf die gleiche Weise dargestellt wie die Ressourcen, die in DogitaLS1 gespeichert sind. Dies ist ein großer Vorteil beim Aufbau verteilter digitaler Bibliotheken mit Hyper-G. In diesen verteilten digitalen Bibliotheken brauchen Nutzer also nicht zu wissen, wo die Dokumente gespeichert sind - lokal oder auf entfernten Servern. Unter anderem zeigt die folgende Abbildung einen Verweis auf das "Journal of Universal Computer Science", das auf einem Server in Graz (Österrreich) gespeichert ist. Die Benutzungsschnittstelle stellt diesen Verweis jedoch wie eine Kollektion in DogitaLS1 dar.

Verweise auf Internet-Ressourcen

Abbildung 3.5: Verweise auf Ressourcen im Internet

Die Kollektionen "Services" (Dienste) und "Workspaces" (Arbeitsbereiche)

Die derzeitige Version von DogitaLS1 stellt verschiedenste Dienste (Programme in der Programmiersprache PERL) zur Verfügung, die die unterschiedlichen Anforderungen von Bibliothekaren und Benutzern erfüllen. Diese Dienste sind alle in der Kollektion "Services" gespeichert. Über die CGI-Schnittstelle (Common Gateway Interface) wird Interaktion zwischen Nutzern untereinander und zwischen Nutzern und DogitaLS1 ermöglicht.

In der Kollektion "Workspaces" haben Bibliothekare und Benutzer ihre eigenen Arbeitsbereiche, in denen sie private Dokumente, Verweise etc. speichern können. Neben privaten Dokumenten können auch logische Kopien aller von den entsprechenden Nutzern benötigten Dienste an dieser Stelle erstellt werden. Dazu wird die copy document Funktion von Hyper-G angewendet. Der Vorteil dieser Vorgehensweise ist, daß alle Dienste an einer zentralen Stelle in DogitaLS1 gespeichert sind. Besonders wenn neue Bibliothekare oder Benutzer zum System hinzugefügt oder aus dem System herausgenommen werden, vereinfacht dies die Handhabung. Beim Hinzufügen neuer Nutzer müssen nur ein neuer Arbeitsbereich angelegt und die entsprechenden Dienste dort hinein kopiert werden. Wird ein Benutzer aus dem System entfernt, kann einfach dessen Arbeitsbereich ohne Rücksicht auf dort vorhandene Dokumente und Dienste gelöscht werden.


4 Erfahrungen

In diesem Abschnitt werden zuerst unsere Erfahrungen mit Hyper-G beschrieben. Außerdem führen wir einige Punkte an, die nicht in Hyper-G enthalten sind, aber für unser digitales Bibliothekssystem von Nutzen wären.


4.1 Bewertung der momentan von Hyper-G zur Verfügung gestellten Konzepte

Sowohl der Server als auch die Klienten laufen im allgemeinen Betrieb ohne Probleme. Außerdem sind wir den Entwicklern in Graz dankbar, die uns bei technischen Problemen direkt unterstützt haben. Eine Usenet-Newsgroup (comp.infosystems.hyperg) kann ebenfalls für Fragen zu Hyper-G genutzt werden. Es existiert also genügend technische Unterstützung für Hyper-G. Neben diesen allgemeineren Anmerkungen bewerten wir nun die Konzepte, die Hyper-G zur Verfügung stellt, in Bezug auf digitale Bibliotheken.

Kollektionen

Kollektionen in Hyper-G lassen sich sehr nutzbringend zur Definition einer Struktur für den Bestand einer digitalen Bibliothek einsetzen. Komplexere Strukturen zur Organisation des Dokumentbestandes können durch Kollektionen, die wiederum in anderen Kollektionen enthalten sind, aufgebaut werden.

Verweiskonsistenz

Normalerweise ist mehr als ein Anlauf nötig, um die organisatorische Struktur einer digitalen Bibliothek zu definieren. Neue Anforderungen entstehen, wenn Dokumente bereits in der digitalen Bibliothek gespeichert sind. Zu diesem Zeitpunkt sind jedoch häufig schon Verweise zwischen den Dokumenten erstellt worden. Da nun die Neuorganisation des Dokumentbestandes in einer digitalen Bibliothek eine Umstellung des Bestandes erfordert, sind in der Regel auch die Verweise davon betroffen. Im Gegensatz zu "traditionellen" WWW-Servern, in denen ein Verweis einen Pfad zu einer Datei im Dateisystem des Servers angibt, sind Verweise in Hyper-G eigenständige Objekte, die unabhängig von Dokumenten existieren. Einer der Vorteile dieses Konzepts ist, daß Dokumente zwischen Kollektionen verschoben werden können, ohne hängende, also undefinierte Verweise zu erzeugen. Dies war eine besondere Erleichterung bei dem Entwurf unterschiedlicher Prototypen verschiedener Kollektionenhierarchien in DogitaLS1.

Zugriffsrechte

Verschiedene Teile einer Kollektion können unterschiedlichen Nutzertypen durch die Vergabe von Zugriffsrechten zugänglich gemacht werden. Ein Vorteil des Konzepts der Nutzerkennungen in Hyper-G ist, daß diese unabhängig von Nutzerkennungen des Betriebssystems des Servers sind. So ist es nicht notwendig, daß Benutzer von DogitaLS1 eine Nutzerkennung für andere Systeme außer Hyper-G haben. Ein weiterer Vorteil ist, daß sogar Verweise mit Zugriffsrechten versehen werden können. So kann Verweisen nur von bestimmten Benutzern gefolgt werden.

Externe Werkzeuge

Hyper-G stellt verschiedene externe Werkzeuge zur Verfügung (z.B. hginstext (zum Einfügen von Text-Dokumenten), hginscoll (zum Einfügen von Kollektionen) und hggetdata (zur Ausgabe von Dokumenten des Servers)). Diese Werkzeuge konnten in verschiedenen CGI-Programmen genutzt werden, z.B. zum Einfügen schon existierender Daten der Lehrstuhlbibliothek in DogitaLS1.

Aspekte verteilter digitaler Bibliotheken

In naher Zukunft wird der Bestand von digitalen Bibliotheken nicht nur auf einem Server, sondern auf mehreren Servern verteilt gespeichert sein. Hyper-G unterstützt schon Aspekte verteilter digitaler Bibliotheken auf drei Arten:

4.2 Anforderungen an zukünftige Systeme

Dieser Abschnitt enthält eine Zusammenstellung von Punkten, die uns in der aktuellen Version von Hyper-G gefehlt haben. Aus unserer Sicht sind sie jedoch hilfreich, wenn zukünftige Internet-Informationssysteme, für digitale Bibliothekssysteme genutzt werden sollen.


5 Zusammenfassung

Wir haben auf der Basis von Hyper-G ein digitales Bibliothekssystem erstellt. Es besteht aus Server, Klienten und zahlreichen Diensten, die zusätzlich von uns entwickelt wurden (diese Dienste wurden in diesem Artikel nicht näher beschrieben). Die Dokumentsammlung von DogitaLS1 besteht hauptsächlich aus Dokumenten, die von den Mitgliedern des Lehrstuhl in der täglichen Arbeit gebraucht werden. Obwohl dieser Dokumentbestand eher klein ist, zeigt Hyper-G ebenso die Fähigkeit zur Verwaltung extrem vieler Dokumente. Die Bibliothek der Universität Graz betreibt beispielsweise einen Hyper-G Server zur Speicherung von Metadaten zu ihren Dokumenten. Im Oktober 1995 enthielt dieser Server mehr als 300.000 Dokumente.

Aus unserer Sicht bietet Hyper-G viele Möglichkeiten, die zur Zeit nicht in anderen Internet-Informationssystemen enthalten sind. Wir haben in diesem Artikel gezeigt, wie viele dieser Möglichkeiten für die Erfordernisse digitaler Bibliotheken genutzt werden können. Da wir von den Fähigkeiten von Hyper-G überzeugt sind, neigen wir dazu, es auch in einem gemeinsamen Projekt mit der Universitätsbibliothek Dortmund einsetzen. Das Ziel dieses Projektes ist der Aufbau eines elektronischen Archivs für Diplom- und Doktorarbeiten.


Danksagung

Der erste Autor bedankt sich bei der Max Kade Foundation, New York (USA), die seine Forschung am Center for the Study of Digital Libraries der Texas A&M University finanziell unterstützt.

Copyright © 1996 Klaus Tochtermann and Thomas Alders

D-Lib Magazine |  Current Issue | Comments
Previous Story | Next Story

hdl:cnri.dlib/october96-tochtermann