Aschenbrenner/Rauber: Webarchivierung

Information on the Internet is fading away, and along with it part of our cultural heritage is being lost. This article develops a strategy for acquiring digital material from the Internet and presents issues on preserving this data over the long-term. This strategy is based on findings from numerous projects addressing issues on the preservation of material from the World Wide Web, as well as on experiences from a pilot study performed by the Vienna University of Technology in cooperation with the Austrian National Library.

Les informations sur Internet se perdent peu à peu, ce qui affecte une partie de notre patrimoine culturel et conduit à sa disparition. Cet article présente une stratégie permettant d'acquérir des données numériques d'Internet et propose des solutions afin de conserver ces données à long terme. Cette stratégie est basée sur les résultats des différents projets qui se focalisaient sur les problèmes de conservation des données sur Internet et sur une étude pilote menée par l'Université des technologies de Vienne, en collaboration avec la Bibliothèque nationale d'Autriche.

Hintergrund

Im Auftrag der Öffentlichkeit haben Nationalbibliotheken die Aufgabe übernommen, kulturelles Erbe für zukünftige Generationen zu bewahren.1 Es findet sich immer mehr Material im Internet, das man zu unserem kulturellen Erbe zählen muß. Als Konsequenz daraus müssen Strukturen geschaffen werden, welche die Archivierung digitaler Dokumente (offline wie online) für die Zukunft ermöglichen.2 Mit der Ausweitung des Sammelauftrags auf online publizierte Inhalte stellt sich die Frage, welche Inhalte archiviert werden sollen. Prinzipiell können drei Zielsetzungen unterschieden werden, die kombiniert dem digitalen Archiv ein Profil verleihen, das mehreren Anforderungen gerecht wird: (1) eine Zielsetzung sollte sein, einen möglichst breiten Überblick über das World Wide Web in seiner Gesamtheit zu bewahren; (2) fokussierende Sammlungen sollten definierte Themen umfassend dokumentieren; und schließlich sollten (3) für bestimmte Dokumente bzw. Dokumentarten mit den Autoren bzw. Herausgebern Vereinbarungen über eine direkte digitale Übermittlung an das Archiv getroffen werden.

(1) Ein integraler Aufgabenbereich für ein Webarchiv liegt in der Zielsetzung, einen möglichst guten Überblick über das Internet bzw. die Navigation im WWW zu verschiedenen Zeitabschnitten zu vermitteln. Durch diese sehr breite Ausrichtung wird neben den einzelnen Dokumenten die Gesamtstruktur des Internet eingefangen, also etwa, wie unterschiedliche Webseiten zueinander in Beziehung stehen. Zur Vermittlung dieses Überblicks wird ohne Einschränkung und weitestgehend automatisiert Material gesammelt, das Teil des (nationalen) Webspace ist. Eine Kontaktaufnahme mit den Autoren bzw. Herausgebern ist nicht erforderlich, da nur Dokumente archiviert werden, die im WWW frei zugänglich sind. Es ist für diesen Aspekt der Webarchivierung nicht notwendig, beispielsweise jeden einzelnen Artikel der Online-Fassung der Tageszeitung »Der Standard« (http://derstandard.at/), oder etwa jede erdenkbare Anfrage an die Suchmaschine »Austronaut« (http://www.austronaut.at/) zu erfassen. Es reicht aus, jeweils Beispieldokumente in das Archiv aufzunehmen. (2) In einem weiteren Ansatz werden spezifische Archivierungsprojekte durchgeführt, die jeweils auf ein bestimmtes Thema fokussieren. Alle auffindbaren Dokumente zu diesem Thema werden gesammelt und somit wird ein ausführliches Bild darüber vermittelt. Diese Sammlungen finden zu bestimmten Themen fortlaufend statt oder aber sind auf punktuelle Ereignisse ausgerichtet, die von breitem öffentlichen Interesse sind (z. B. die Seiten politischer Parteien in Wahlzeiten oder die Websites zu großen Veranstaltungen). (3) Einzelne Objekte verdienen per se besonderes Augenmerk. Hier geht es nicht um das Erfassen des generellen Eindrucks, sondern um eine möglichst vollständige Aufnahme einer Website in das Archiv. Für diese ausgewählten Dokumente von besonderem Interesse (wie Online-Kunst, Homepages von Autoren oder anderen bekannten Personen, Online-Zeitschriften) wird mit dem Autor oder Herausgeber eine Vereinbarung getroffen, die es erlaubt, eine komplette, konsistente und authentische Kopie des Originals in das Archiv aufzunehmen und dadurch die Qualität des archivierten Materials sicherzustellen.

Eine Kombination dieser drei Sammlungsstrategien würde es einer Nationalbibliothek ermöglichen, einer Ausweitung ihres Sammlungsauftrags auf den Bereich des WWW gerecht zu werden. Weitere Szenarien, wie etwa die Dokumentation und Archivierung von Websites, die ein hohes Maß an Benutzerinteraktion voraussetzen (z. B. Online-Spiele oder Chat-Rooms), sowie die Aufzeichnung von Interaktionsmustern und der von Benutzern eingeschlagenen Wege im WWW (das sogenannte »User Session Monitoring«) sind vorstellbar.

Die neuen Aufgaben, die in Angriff genommen werden müssen, betreffen allerdings nicht nur die Selektion und Archivierung der digitalen Dokumente, sondern natürlich auch den Aufbau und die Verwaltung des Archivs selbst (siehe Abschnitt »Langzeitarchivierung digitaler Werke«). Es ist unerheblich, daß gegenwärtig noch nicht zu jedem einzelnen Problem eine vollständige Lösung existiert. Eine endgültige Lösung wird es bei einer derart umfangreichen Aufgabenstellung niemals geben; das Archiv muß mit den immer wieder neuen Herausforderungen des dynamischen Mediums Internet mitwachsen.

Exkurs: Nationaler Webspace

Ein nationales Webarchiv muß seinen Tätigkeitsbereich nicht auf das gesamte Internet ausdehnen. Der Verantwortungsbereich eines nationalen Webarchivs kann analog den Sammelrichtlinien beispielsweise der Österreichischen Nationalbibliothek3 abgesteckt werden. Einen nationalen Webspace zu definieren, ist jedoch nicht ganz trivial. Man kann auf jeden Fall Dokumente innerhalb der nationalen Internetdomäne hinzurechnen. Im Fall von Österreich betrifft das alle Webserver mit der Endung ›.at‹, also etwa http://www.onb.ac.at/. Weiters sind jene Webserver Teil des österreichischen nationalen Webspace, die zwar in Österreich stehen, aber unter einer anderen Domäne registriert sind, wie z. B. ›.com‹, ›.org‹, ›.net‹, ›.cc‹. Exemplarisch sei dazu die Website http://www.austria.com/ genannt. Schließlich müssen noch Websites und Dokumente aus dem Ausland beachtet werden, die das österreichische Kulturleben betreffen. Eines dieser sogenannten ›Auslands-Austriaca‹ ist z. B. die Website des österreichischen Kulturforums in New York (http://www.acfny.org/).

Methoden zur Sammlung

Die oben erwähnten unterschiedlichen Ansätze zur Sammlung der Dokumente, die in ein Archiv eingehen sollen, bedingen unterschiedliche Aufgabenstellungen zur Organisation des Archivs. Die Sammlungsart hat in Folge auch Einfluß darauf, wer die zukünftigen Nutzer des Archivs sein werden und wie diese auf die Bestände zugreifen werden können.

Die unterschiedlichen Methoden zur Sammlung der Dokumente schließen einander nicht aus. Im Gegenteil, um die verschiedenen Aufgaben zu erfüllen, müssen die Ansätze miteinander kombiniert werden. Zunächst jedoch sollen die unterschiedlichen Methoden einzeln vorgestellt werden.

Ablieferung digitaler Werke

Für traditionelle Medien wird der Sammelauftrag von Nationalbibliotheken meist durch Pflichtexemplar-Regelungen (legal deposit / dépôt légal) gestützt. Eine solche gesetzliche Regelung für Online-Dokumente würde den Aufbau eines nationalen Archivs des digitalen kulturellen Erbes vereinfachen. Die Bibliothek müßte sich dann ›nur‹ mit der Entgegennahme, Archivierung und Zurverfügungstellung der Dokumente auseinandersetzen, ein Prozeß, der mit Hilfe spezieller Abgaberichtlinien weitgehend automatisiert werden könnte. Die Sicherung der Konsistenz und Funktionalität der einzelnen Dokumente fiele in Folge nicht in den Verantwortungsbereich des Archivs, sondern des Ablieferungspflichtigen.

Es stellt sich allerdings die Frage, welche Dokumente durch eine solche Ablieferungsregelung erfaßt werden könnten, und wer dieses Material abzuliefern hat. Da es die Vermittlungsinstanz der Verlage für das Medium Internet in weiten Bereichen nicht gibt, müssen die jeweiligen Autoren oder Herausgeber selbst angesprochen werden. Nachdem uneingeschränkt jeder die Möglichkeit hat, im Internet zu veröffentlichen, ist die komplette Durchsetzung einer derartigen Strategie praktisch unmöglich.

Statt einer Verpflichtung könnte man die Ablieferung von Werken auf eine freiwillige Basis stellen. Es ist allerdings davon auszugehen, daß mit einer freiwilligen Ablieferung nur ein sehr kleiner Ausschnitt der tatsächlich vorhandenen Vielfalt an Online-Dokumenten erfaßt würde.

Die Ablieferung - sei sie freiwillig oder gesetzlich festgelegt - ist daher nur für wenige, ausgewählte Objekte als Sammlungsmethode geeignet. Für die abzuliefernden Dokumente sollte es idealerweise Ansprechpersonen geben, um den organisatorischen Aufwand möglichst gering zu halten. Zusätzlich zu längerfristigen Abkommen mit Organisationen, Verlagen, Vereinen, usw. könnten vorübergehende Vereinbarungen eingegangen werden, um auch Einzelwerken Rechnung zu tragen, ohne aber den dafür erforderlichen Mehraufwand außer Acht zu lassen.

Aktive Sammlung - manuell

Um repräsentative Sammlungen zu erzeugen, muß das Webarchiv aktiv Sammlungsaktivitäten setzen. Zu diesem Zweck muß im Internet kontinuierlich manuell nach Material recherchiert werden, das den vereinbarten Sammelrichtlinien entspricht. Die jeweiligen Dokumente können entweder direkt oder nach Kontaktaufnahme mit dem Autor oder Herausgeber in das Archiv aufgenommen werden. Ein solches Prozedere generiert ein gut sortiertes und konsistentes Archiv. Allerdings ist dieser Ansatz relativ personalintensiv. Unzureichende Personalressourcen könnten in unvollständigen Sammlungen und dem Verlust wertvoller Daten resultieren. Abgesehen davon birgt eine intellektuelle Selektion die Gefahr, daß Daten herausgefiltert werden, für die sich erst im nachhinein herausstellt, daß sie wichtig gewesen wären.

Der Ansatz der manuellen Selektion und Bewertung von Inhalten im Internet wird von einigen großen Webportalen wie z. B. »Yahoo!«4 mit Erfolg betrieben. Webseiten werden durch ein Team ausgewählt, annotiert und in einen Themenkatalog eingeordnet.

Aktive Sammlung - automatisch

Durch automatisierte Webarchivierung kann ein großes Datenvolumen aufgenommen werden, gleichzeitig ist der Personalaufwand wesentlich geringer und wächst nicht proportional zur Größe der Sammlung, wie das bei manuellen Methoden der Fall ist. Die Eingrenzung des nationalen Webspace kann weitgehend automatisch erfolgen. Nur die Identifikation relevanter Websites, die unter anderen Domänen registriert sind (siehe dazu den Exkurs »Nationaler Webspace«), bedarf einer gewissen inhaltlichen, thematischen Interpretation und muß daher manuell durchgeführt werden, betrifft aber nur einen relativ geringen Anteil am jeweiligen nationalen Webspace.

Mit Hilfe von Webcrawlern (siehe Abschnitt »Praktische Schritte«) kann ein erheblicher Teil des Webspace automatisiert in ein nationales Webarchiv aufgenommen werden, ohne daß Ansprechpersonen für die zu archivierenden Dokumente benötigt werden (siehe Abschnitt »Praktische Schritte«). Allerdings wird das Material bei der Aufnahme in das Archiv nicht tiefergehend geprüft. Dadurch könnten technische Probleme unerkannt bleiben. Sind Online-Dokumente nicht ihren jeweiligen Spezifikationen entsprechend programmiert, kann dies durch die verwendeten Werkzeuge unter Umständen nicht kompensiert werden. Oftmals ist z. B. HTML-Code nicht spezifikationsgemäß ›wohlgeformt‹: Während moderne Webbrowser meist kulant sind und über HTML-Fehler hinwegsehen, müssen die gegenwärtigen Webcrawler erst lernen, fehlerhafte Dokumente angemessen zu verarbeiten.

Probleme können auch ›exotische‹ Datenformate bereiten: ist ein Format den automatischen Tools unbekannt, besteht die Gefahr, daß Webseiten unvollständig aufgenommen werden, oder keine Software zu ihrer Darstellung vorhanden ist. Analog können neue Datenformate den Crawlern noch unbekannt sein; bei der rasanten Weiterentwicklung der Technologien müssen die Werkzeuge ständig an Neuerungen angepaßt werden (neue Plugins wie »Flash« usw.).

Technische Probleme werden auch durch sogenannte dynamische Seiten verursacht. Diese Seiten werden erst nach der Interaktion mit einem Benutzer automatisch generiert und sind speziell auf dessen Anfragen abgestimmt. Noch gibt es keine zuverlässigen Verfahren, diese Interaktionen automatisiert durchzuführen.

Erreichen des Ziels Wie bereits festgestellt, wird der für ein nationales Webarchiv optimale Weg in der Verknüpfung manueller und automatischer Verfahren bestehen, um die Vorteile beider zu vereinen. Somit kann jeder der drei beschriebenen Zielsetzungen eine Methode zugeordnet werden: (1) Zu einem Teil wird eine automatische Sammlung durchgeführt. Ziel kann es hier nicht sein, jede Datei in all ihren einzelnen Versionen archivieren zu wollen. Statt dessen wird in periodischen Abständen (z. B. jährlich oder halbjährlich) eine Momentaufnahme des aktuellen nationalen Webspace gemacht. Bei einer solchen umfassenden Aufnahme fallen sehr große Datenmengen an; es ist anzunehmen, daß der österreichische Webspace gegenwärtig mehr als ein Terabyte5 an Daten umfaßt. Bedingt durch dieses Datenvolumen kann eine Sammlung der Daten zur Archivierung jeweils nur über einen Zeitraum von mehreren Monaten durchgeführt werden. (Durch diese Momentaufnahme mit »Langzeitbelichtung« stellt sich die Frage der Authentizität der gesammelten Dokumente, ein Problem, das weitergehend behandelt werden muß.) (2) Parallel dazu werden fokussierte Projekte initiiert, die sich auf ein Thema, ein Ereignis, eine Veranstaltung oder eine Person konzentrieren. Die Anzahl der zu archivierenden Dokumente in einem solchen Projekt ist vergleichsweise geringer, diese Daten werden aber gegebenenfalls häufiger gesichert. Während eines Wahlkampfs z. B. wird es notwendig sein, die Seiten der politischen Parteien täglich aufzunehmen. Welche Seiten in ein solches spezialisiertes Projekt aufgenommen werden, wird intellektuell (bzw. teilweise automatisch) ausgewählt. (3) Für einzelne, spezielle Websites und Dokumente wird Kontakt mit dem Autor, Herausgeber oder einem anderen Ansprechpartner hergestellt. Wird das Werk speziell für das Archiv aufbereitet, reduziert das die technischen Probleme, wie sie z. B. bei Online-Kunst auftreten könnten, wenn diese die technischen Machbarkeiten ausreizt. Bei dieser Sammlungsmethode muß ausgelotet werden, wie oft ein Dokument in das Archiv aufgenommen wird. Während z. B. ein Artikel einer statischen Ausgabe eines Online-Journals nur einmal aufgenommen werden muß, kann bei Webdokumenten, die sich mit der Zeit verändern (etwa eine persönliche Homepage), der Entwicklungsprozeß des Dokuments als wichtig erachtet werden. Es kann mit dem jeweiligen Ansprechpartner vereinbart werden, in welchem zeitlichen Abstand eine Momentaufnahme des Werks gemacht wird, d. h., ob es einmalig, jährlich, monatlich oder sogar täglich in seiner jeweils aktuellen Fassung aufgenommen werden soll.

Für die unterschiedlichen Sammlungsarten sollten dieselben Tools verwendet werden. Dadurch können Problemlösungen für die manuell verwalteten, kleineren Projekte auch der großen Aufnahme zugute kommen, womit das Archiv technisch stabiler wird und mit der Entwicklung des Mediums Internet mitwachsen kann.

Langzeitarchivierung digitaler Werke

Bei der Archivierung unseres digitalen kulturellen Erbes ist die Auswahl und Sammlung der Werke zwar ein entscheidender Punkt, bei weitem aber nicht die einzige Herausforderung, die bewältigt werden muß. Weitere wichtige Punkte betreffen die langfristige Speicherung der enormen Datenmengen, die Wartung und Erhaltung des Archivs sowie auch dessen Zugänglichmachung.

Eine direkte Konsequenz der Webarchivierung ist das Anfallen enormer Datenmengen. Ein Datenarchiv von solchen Ausmaßen bedarf einer sorgfältigen Planung. Es muß skalierbar sein, d. h. so konzipiert sein, daß es problemlos vergrößert werden kann, um es mit den Anforderungen mitwachsen zu lassen. Zugute kommt dabei, daß nicht nur das vorhandene Datenvolumen wächst, sondern auch immer leistungsfähigere Speichertechnologien entwickelt werden. Ständig neue Technologien integrieren zu können, wird eine Herausforderung und gleichzeitig die Chance sein, um die Basis für ein gut organisiertes Archiv zu schaffen. Es gibt international bereits zahlreiche Initiativen, die diese Herausforderung erfolgreich angenommen haben (siehe Abschnitt »Andere Initiativen«, neben diversen digitalen Archiven in anderen Bereichen).

Wenn garantiert werden soll, daß die digitalen Bestände in Zukunft erhalten bleiben, muß allerdings mehr getan werden. Eine notwendige Arbeitsaufgabe ist die Erhaltung der Medien, sodaß die physischen Daten - also die Bits und Bytes - lesbar bleiben. Bekanntlich haben elektronische Datenträger keine lange garantierte Lebenszeit (magnetische Bänder z. B. nur etwa zehn Jahre). Daher müssen die Daten in regelmäßigen Abständen auf neue Datenträger transferiert werden.

Der zweite wichtige Punkt zur Erhaltung der Daten betrifft die Software. Digitale Dokumente müssen von einer Softwareapplikation interpretiert werden, bevor sie von Menschen eingesehen werden können, und sind daher im Format der jeweiligen Software abgespeichert. Mit der rasanten Weiterentwicklung der Technologien ändern sich auch diese Formate. Dadurch kann es passieren, daß innerhalb weniger Jahre Formate veralten und die Dokumente nicht mehr lesbar sind. Um dies zu verhindern, müssen aktiv Gegenmaßnahmen getroffen werden.6 Nach dem derzeitigen Stand der Forschung ist die beste Strategie zur digitalen Langzeitarchivierung eine Kombination verschiedener Methoden. Dabei soll die für ein Dokument gewählte Methode dessen ›Signifikante Eigenschaften‹ bestmöglich erhalten. Die zwei meistgenannten Ansätze sind das (wiederholte) Konvertieren der Dokumente in aktuelle Formate (sog. »Migration«) und das Emulieren alter Computersysteme auf neuen. Alle Methoden, die derzeit erforscht werden, bewegen sich in einem Spektrum von der Erhaltung der originalen Technologie bis hin zur Bewahrung der konzeptionellen Eigenschaften des Dokuments.7

Jede Strategie zur digitalen Langzeitarchivierung setzt voraus, daß zu den Dokumenten Metadaten vorhanden sind. Diese Daten über das eigentliche Dokument beziehen sich einerseits auf dessen Struktur, den Inhalt und den Kontext (wann wurde es von wem wo gesammelt, wie ist das Dokument aufgebaut usw.). Andererseits beinhalten Metadaten Informationen zur Verwaltung der Dokumente im Archiv (Identifikation, Rechteverwaltung usw.). Zu den notwendigen Metadaten zählen auch Informationen, die für die Durchführung der digitalen Archivierung notwendig sind - man spricht von ›preservation metadata‹. Wichtige Elemente dieser speziellen Metadaten sind u. a. Informationen über das Datenformat, die Angabe der ›Signifikanten Eigenschaften‹ und die Dokumentation der bisher angewendeten Mittel zur Langzeitarchivierung (z. B. Konvertieren eines Dokumentes in ein Standarddatenformat).8 Anzahl, Art und Umfang von Metadaten werden für die Organisation von digitalen Archiven als essentiell erachtet und bilden die Grundvoraussetzung, daß die Sammlungen langfristig authentisch aufbewahrt werden können. Metadatensysteme sind im Fokus der Forschung; die Nationalbibliotheken von Australien9 und Neuseeland,10 das Cedars Projekt (CURL Exemplars in Digital Archives, 1998-200211), eine Arbeitsgruppe von OCLC und RLG12 und andere Initiativen haben wichtige Beiträge dazu geleistet.

Auch wenn zum Thema der Langzeitarchivierungsstrategien noch weitere Forschungsarbeit notwendig ist, müssen die jeweiligen Metadaten dennoch sofort erstellt werden. Nur mit Hilfe dieser Daten wird für die nächste Zukunft die Erhaltung der Dokumente und eine darauf folgende Archivierungsstrategie ermöglicht.

Sobald die Archivierung der Dokumente sichergestellt ist, muß, als ein weiterer essentieller Schritt, das Archiv für Benutzer zugänglich gemacht werden. Wenn die Daten über automatisches Webcrawling gesammelt wurden, kann es den Benutzern ermöglicht werden, in den Sammlungen zu navigieren wie im Internet, mit einer zusätzlichen zeitlichen Dimension. So können Webseiten zu verschiedenen Zeitabschnitten betrachtet und so ihre Entwicklung verfolgt werden. Speziell für manuell archivierte Dokumente bietet sich an, sie ausgewählten Themengebieten zuzuordnen und über Themenkataloge zugänglich zu machen. Neben verschiedenen Zugriffsmethoden können auch digitale Tools integriert werden, die eine weitere Analyse der vorhandenen Dokumente ermöglichen (Statistikmodule, Linguistikmodule usw.). Auch sollte es speziellen Forschungsprojekten ermöglicht werden, eigene Methoden und Werkzeuge anzuwenden.

Der breiten Öffentlichkeit kann bei den aktuellen gesetzlichen Regelungen in Österreich allerdings derzeit noch kein Zugriff auf die gesammelten Dokumente gewährt werden. In den Gesetzestexten wurde noch nicht der dezidierte Auftrag erteilt, digitale Dokumente aus dem Internet in den Sammelauftrag einzubeziehen. Derzeit werden in mehreren Ländern die gesetzlichen Rahmenbedingungen adaptiert; unter anderem in Finnland und Schweden wurden bereits Gesetzesänderungen durchgeführt.

Neben der Untersuchung der rechtlichen Rahmenbedingungen scheint auch eine ethische Analyse erforderlich, welche den verschiedenen subjektiven Wahrnehmungen der »Publikation« von Informationen im Internet und dem Interesse am Schutz der Privatsphäre im Zusammenhang mit privaten Homepages Rechnung trägt.

Neben diesen ethischen Bedenken bedeutet der noch fehlende gesetzliche Rahmen allerdings nicht, daß Webarchivierung in Österreich ungesetzlich ist, da das Material, das in das Archiv aufgenommen wird, öffentlich zugänglich ist. Obwohl dieser Bereich derzeit noch nicht gesetzlich geregelt ist, sollte dennoch ehebaldigst mit der systematischen Archivierung des österreichischen Webspace begonnen werden, um unser digitales Kulturerbe aufzubewahren und in Zukunft - unter Berücksichtigung der ethischen Aspekte - allgemein zugänglich zu machen.

Praktische Schritte ...

Für die ÖNB wurde eine Pilotstudie unternommen, durchgeführt vom Institut für Softwaretechnik und Interaktive Systeme der Technischen Universität Wien.13 Im Rahmen dieser Machbarkeitsstudie - »Austrian On-Line Archive« (AOLA)14 - wurden Techniken getestet, um Dokumente aus dem Internet möglichst automatisch zu erfassen; ein wichtiger Schritt, um ein zukünftiges Archiv effizient aufbauen zu können.

Prinzipiell werden zur automatischen Archivierung der Daten Webcrawler verwendet, die das WWW nach Dokumenten absuchen. Dazu benötigen sie zu Beginn einige Internet-Adressen (URLs). Von diesen ausgehend folgen sie den Referenzen (Links), die sie finden können, immer weiter. Es ist dadurch möglich, die Daten eines großen Teils des WWW zu sammeln. Auch Internet-Suchmaschinen basieren auf dieser Technik.

Im Rahmen des Pilotprojekts, in dem zwei verschiedene Webcrawler getestet wurden, konnte bereits ein Archiv mit einer Datenmenge von annähernd 0,5 Terabyte aufgebaut werden. Darin enthalten sind Dokumente, wie sie von 2001 bis Anfang 2002 im Internet zu finden waren. Der Rahmen der Archivierung wurde auf den österreichischen Webspace festgelegt. Die Phase der Pilotstudie ist nunmehr abgeschlossen, die ersten Schritte sind getan. Durch diese Initiative beherbergte die ÖNB vorübergehend das zweitgrößte Webharvestingprojekt Europas, das aufgrund fehlender Finanzierung allerdings derzeit nicht weitergeführt werden kann. Zahlreiche Nationalbibliotheken verfolgen das Ziel, ein permanentes Archiv für digitale Publikationen aufzubauen, mit Nachdruck. In mehreren europäischen Ländern wurden mit dieser Aufgabe jeweils eine eigene Abteilung der Nationalbibliothek betraut. Aber gerade auch außerhalb Europas sind derzeit zahlreiche Fortschritte in diesem Gebiet zu verzeichnen (siehe Abschnitt »Andere Initiativen«).

Konkrete Ergebnisse

Die technische Basis für der Pilotstudie15 bildet ein Server mit drei Festplatten à achtzig Gigabyte. Dieser Speicherplatz fungiert als Puffer. Ist dieser Pufferspeicher mit Daten aus dem Internet aufgefüllt, werden diese mittels eines Sechsfach-Taperekorders auf Magnetbänder geschrieben und so der Puffer wieder geleert. Auf dem Rechner ist das offene Betriebssystem Linux installiert. Generell ist es in einem Projekt dieser Art wichtig, soweit wie möglich auf freie bzw. mit Quellcode verfügbare Software zurückzugreifen. Auch bei der Auswahl der eigentlichen Crawler-Software wurde auf dieses Erfordernis achtgegeben. Mit dieser Entscheidung vermeidet man die Abhängigkeit von kommerziellen Anbietern, was in einem Langzeitprojekt essentiell ist. Zusätzlich wird dadurch die enge Kooperation mit anderen Projekten in diesem Gebiet ermöglicht.

Der erste Webcrawler, der getestet wurde, war der ›NEDLIB‹-Crawler,16 der von den finnischen Partnern des europäischen NEDLIB-Projektes (Networked European Deposit Library, 1997-200017) entwickelt wurde. Er ist in der Programmiersprache C geschrieben und verwendet die Datenbank MySQL. Leider mußte festgestellt werden, daß die Entwicklung dieses Crawlers zum Zeitpunkt des Projekts noch nicht weit genug fortgeschritten war, um die Anforderungen einer derart umfangreichen Aufgabenstellung zu meistern. Er konnte zwar an das System angepaßt und in den Arbeitsablauf eingefügt werden, und es wurden auch kleinere Fehler ausgebessert. Es gab aber im Softwaredesign Fehler, die dazu gezwungen haben, diese Testserie abzubrechen. Nach einer Vorbereitungsphase, in der die notwendigen Adaptionen durchgeführt wurden, konnten in der Zeit vom 7. bis 16. Mai 2001 insgesamt 666.000 Dateien aus dem Internet gesammelt werden. Das entspricht 8,3 Gigabyte Datenvolumen von 1.210 Webservern. Nach den in dieser Testserie gewonnenen Erfahrungen scheint es besonders wichtig, daß ein Crawler sehr flexibel und modular aufgebaut ist, wenn er der Aufgabenstellung gerecht werden will. Dadurch ist das System einerseits robuster und kann andererseits mit der sich ständig ändernden Umgebung des Internet weiterentwickelt werden. Hier gibt es für den ›NEDLIB‹-Crawler noch einiges Verbesserungspotential. Dennoch kann sich die Verwendung dieses Crawlers, wenn seine Entwicklung weiter fortgeschritten ist, als sinnvoll herausstellen, da er als Produkt des europäischen Projektes NEDLIB in Zukunft von mehreren Initiativen Unterstützung erhalten und wichtige Synergien erzeugen könnte.

Für weitere Tests wurde der ›Combine‹-Crawler herangezogen. Diese Software wurde ursprünglich als Indexer18 im Rahmen des europäischen Projektes DESIRE (Development of a European Service for Information on Research and Education, 1998-200019) entwickelt.20 Die Schwedische Nationalbibliothek adaptierte diesen Roboter für Webarchivierungszwecke im Rahmen ihres Projekts »Kulturarw3«. Da die offen verfügbare Software, die in den Programmiersprachen Perl5 und C++ geschrieben ist und die Datenbank Berkeley-DB verwendet, sehr modular aufgebaut ist, konnte diese neue Funktionalität gut integriert werden.

Zwischen 4. und 21. Juni 2001 wurden mit diesem Crawler im Rahmen von AOLA Daten aus dem Internet gesammelt. Mit einer Downloadrate von etwa sieben Gigabyte pro Tag wurde eine Sammlung von 115 Gigabyte (2,8 Millionen Dateien von 45.000 Servern) aufgebaut. Da die Systemvoraussetzungen nicht ausreichten, mußte dieser Lauf unterbrochen werden, andernfalls wäre eine vollständige Aufnahme des österreichischen Webspace zu diesem Zeitpunkt möglich gewesen.

Obwohl die Ausrüstung für die Anforderungen zu klein dimensioniert ist, wurden nach Umbauarbeiten bis in den Anfang des Jahres 2002 weitere Sammlungen durchgeführt. Diese ergaben ein Datenvolumen von 370 Gigabyte in etwa 8,2 Millionen Dateien. Somit konnte das AOLA-Projekt ein Archiv von nahezu einem halben Terabyte an Daten aufbauen, die für Analysen weiterverwendet werden konnten.21 Im Vordergrund stehen jedoch die gesammelten Erfahrungen und die wichtigen Verbindungen zu anderen internationalen Projekten auf diesem Gebiet.

... und andere Initiativen

Das Archivierungsprojekt »Kulturarw3«22 der Schwedischen Nationalbibliothek ist schon seit 1996 aktiv. Es hat sich das Ziel gesetzt, möglichst viele schwedische elektronische Dokumente zu sammeln, für die Zukunft zu bewahren und öffentlichen Zugriff zu diesen Sammlungen zu gewährleisten. Dabei wurden bereits mehr als 3,4 Terabyte an Daten in acht Aufnahmen (»Snapshots«) des schwedischen Webspace gesammelt. Am 8. Mai 2002 wurden in Schweden auch die rechtlichen Rahmenbedingungen angepaßt. Somit hat das Kulturarw3-Projekt nunmehr auch die rechtliche Basis, um Dokumente aus dem Internet für die Zukunft zu bewahren und öffentlich zugänglich zu machen.23

Das ›NEDLIB‹-Projekt24 war eine Kooperation von acht europäischen Nationalbibliotheken von 1998 bis 2000 und wurde durch die Europäische Kommission gefördert. Es wurden Strategien und Modelle entwickelt, die eine Erweiterung der Sammlungspolitik auf elektronische Medien (offline wie auch online) erlauben. Aufbauend auf den Ergebnissen dieses Projekts baut derzeit die Koninklijke Bibliotheek (Niederländische Nationalbibliothek) gemeinsam mit IBM ein System zur Langzeitarchivierung25 freiwillig abgegebener digitaler Dokumente auf. Ein sogar weitergehendes System plant Die Deutsche Bibliothek,26 um ihrem Sammlungsauftrag nachzukommen.

»PANDORA«27 heißt eine Initiative der Australischen Nationalbibliothek, die 1996 ins Leben gerufen wurde. Sie verfolgt einen sehr selektiven, manuellen Ansatz der Webarchivierung. Es erfolgt eine aktive Recherche nach Dokumenten im Internet und eine manuelle Selektion, mit dem jeweiligen Autor bzw. Herausgeber wird Kontakt aufgenommen. Den exakt vorgeschriebenen Auswahlkriterien folgend konnten bis dato Daten im Umfang von mehr als 134 Gigabyte gesammelt und zu einem gut sortierten, konsistenten Archiv aufgebaut werden. Derzeit wird überlegt, PANDORA durch automatisierte Crawls des australischen Webspace zu ergänzen.

Das »Internet Archive«28 in San Francisco wurde ebenfalls 1996 gegründet. Es hat sich die Aufgabe gesetzt, Dokumente, die digital geschaffen wurden (›born-digital‹), für die Zukunft zu bewahren. Durch seine langjährige Aktivität kann das Archiv auf Sammlungen verweisen, die inzwischen mehr als einhundert Terabyte an Daten einnehmen. Gespeichert auf einem Cluster aus billigen Computern sind die Dokumente jederzeit verfügbar. Auf der Homepage des Internet Archive wurde die »Wayback-Machine« installiert, die jedem online Zugriff auf das Archiv gewährt. Die Dokumente, besonders die Spezialsammlungen, stoßen in den verschiedensten Forschergemeinden auf reges Interesse.

Neben diesen wohl bekanntesten Webarchivierungsprojekten gibt es weltweit zahlreiche weitere erfolgreiche Initiativen. In Island konnte bereits eine komplette Aufnahme des nationalen Webspace durchgeführt werden. Die Tschechische Nationalbibliothek29 und die Bibliothèque nationale de France30 führen Projekte zur Webarchivierung durch. Die Library of Congress (USA) strebt eine sehr umfangreiche Lösung mit einem Gesamtinvestitionsvolumen von erwarteten 175 Millionen US Dollar über die nächsten Jahre an.31 In Tasmanien (Australien) werden schon seit mehreren Jahren durch die State Library Online-Publikationen zur Archivierung ausgewählt.32 Die British Library in Großbritannien investiert in ein Webarchivierungsprojekt,33 ebenso die Bibliothèque nationale du Québec, die neben manueller Sammlung nun eine Kombination mit automatischem Webcrawling installieren will.34

Mehr und mehr wird den in der Webarchivierung aktiven Initiativen bewußt, daß nur enge Zusammenarbeit erfolgreich sein kann, und erste Ansätze zur Kooperation sind vielversprechend.35

Andreas Aschenbrenner / Andreas Rauber

Anmerkungen 1

Der Sammelauftrag der Österreichischen Nationalbibliothek (ÖNB) ist in § 28 Abs. 3 Z. 1. bis 5. sowie in Abs. 7 des Bundesgesetzes vom 1. Juli 1981 (BGBl. Nr. 341/1981 in der Fassung des BGBl. Nr. 102/1993) geregelt. Die entsprechenden Teile daraus können im WWW unter http://www.onb.ac.at/about/sammrl/sammrl_frs.htm eingesehen werden.

So setzt sich auch die ÖNB mit der Langzeitarchivierung elektronischer Medien auseinander; vgl. Max Kaiser und Alfred Schmidt: Langzeitarchivierung elektronischer Medien. Ein Statusbericht aus der Österreichischen Nationalbibliothek. In: TRANS. Dokumentation eines kulturwissenschaftlichen Polylogversuchs im WWW (1997-2002). Hg. von Herbert Arlt u. a. St. Ingbert: Röhrig 2002 (= Österreichische und internationale Literaturprozesse 17), S. 191-222.

Alfred Schmidt: Bibliotheken und Internet - das Informationsangebot der Österreichischen Nationalbibliothek via Internet im europäischen Kontext (September 1998). In: TRANS. Internet-Zeitschrift für Kulturwissenschaften, Nr. 6; http://www.inst.at/trans/6Nr/schmidt.htm.

http://www.yahoo.com/.

1 Terabyte = 1.000 Gigabyte = 1.000.000 Megabyte.

Eine Einführung zum Forschungsgebiet ›Digitale Archivierung‹ (›Digital Preservation‹) findet sich in: Seamus Ross: Changing Trains at Wigan: Digital Preservation and the Future of Scholarship. London: National Preservation Office 2000 (= NPO Preservation Guidance: Occasional Papers); http://www.bl.uk/services/preservation/occpaper.pdf.

Einen guten Überblick über die Methoden der digitalen Archivierung, die derzeit erforscht werden und in wissenschaftlicher Diskussion sind, bietet: Kenneth Thibodeau: Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years. In: The State of Digital Preservation: An International Perspective. Conference Proceedings Documentation Abstracts, Inc. / Institutes for Information Science, Washington, D.C., April 24-25, 2002. Washington, D.C.: Council on Library and Information Resources 2002 (= CLIR Reports 107), S. 4-31; http://www.clir.org/pubs/reports/pub107/pub107.pdf und http://www.clir.org/pubs/reports/pub107/thibodeau.html.

Vgl. Michael Day: Metadata for Digital Preservation: A Review of Recent Developments. In: Research and Advanced Technology for Digital Libraries. 5th European Conference, ECDL 2001, Darmstadt, Germany, September 4-9, 2001. Ed. by Panos Constantopoulos and Ingeborg Sølvberg. Berlin: Springer 2001 (= Lecture Notes in Computer Science 2163), S. 161-172; auch zugänglich unter http://www.ukoln.ac.uk/metadata/presentations/ecdl2001-day/paper.html.

National Library of Australia: Preservation Metadata for Digital Collections. Exposure Draft, 15. Oktober 1999; http://www.nla.gov.au/preserve/pmeta.html.

National Library of New Zealand: Metadata Standards Framework - Preservation Metadata, November 2002; http://www.natlib.govt.nz/files/4initiatives_metaschema.pdf.

http://www.leeds.ac.uk/cedars/.

OCLC/RLG Preservation Metadata Working Group, http://www.oclc.org/research/pmwg/.

http://www.ifs.tuwien.ac.at/.

Homepage: http://www.ifs.tuwien.ac.at/~aola/; Beschreibung in: Andreas Rauber und Andreas Aschenbrenner: Part of Our Culture is Born Digital. On Efforts to Preserve it for Future Generations (Juli 2001). In: TRANS. Internet-Zeitschrift für Kulturwissenschaften, Nr. 10; http://www.inst.at/trans/10Nr/rauber10.htm.

Andreas Aschenbrenner: Long-Term Preservation of Digital Material. Building an Archive to Preserve Digital Cultural Heritage from the Internet. Diplomarbeit, Technische Universität Wien 2001; http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/.

Juha Hakala: Collecting and Preserving the Web: Developing and Testing the NEDLIB Harvester. In: RLG DigiNews 5 (2001), Nr. 2; http://www.rlg.org/preserv/diginews/diginews5-2.html#feature2.

http://www.kb.nl/coop/nedlib/.

Ein Indexer sammelt Stichwörter aus allen Dokumenten, die er (in einem abgesteckten Bereich) finden kann. Diese werden in eine Datenbank eingespeist, gemeinsam mit einer Referenz auf das Dokument, aus dem das Stichwort stammt. Diese Datenbank bildet die Basis für eine Suchmaschine.

http://www.desire.org/.

Das Programm mit Quellcode und einer genauen Beschreibung ist unter http://www.lub.lu.se/combine/ frei verfügbar.

Daten, die für das ›Austrian On-Line Archive‹ gesammelt wurden, wurden mit Hilfe eines Datawarehouse analysiert. Eine Beschreibung dieses Projektes findet sich in: Andreas Rauber et al.: Uncovering Information Hidden in Web Archives. A Glimpse at Web Analysis Building on Data Warehouses. In: D-Lib Magazine 8 (2002), Nr. 12; http://www.dlib.org/dlib/december02/rauber/12rauber.html.

Kulturarw3, http://www.kb.se/kw3/ENG/Default.htm; Beschreibung in: Johan Mannerheim, Allan Arvidson, and Krister Persson: The Kulturarw3 project - The Royal Swedish Web Archiw3e. An Example of »Complete« Collection of Web Pages. In: 66th IFLA Council and General Conference, Jerusalem, Israel, 13-18 August 2000, Conference Proceedings; http://www.ifla.org/IV/ifla66/papers/154-157e.htm.

Mitteilung: Royal Library of Sweden in the Clear. In: Cultivate Interactive, Nr. 7 (Juli 2002): News and Events; http://www.cultivate-int.org/issue7/mag-news/.

Beschreibung in: Titia van der Werf-Davelaar: NEDLIB - Networked European Deposit Library. In: Exploit Interactive, 4 (Januar 2000); http://www.exploit-lib.org/issue4/nedlib/.

Dieses System der Nationalbibliothek der Niederlande wurde in Den Haag am 13. Dezember 2002 in einem internationalen Workshop vorgestellt. Folien der Vortragenden und eine Dokumentation des Systems sind verfügbar unter http://www.kb.nl/kb/resources/frameset_kb.html?/kb/ict/dea/workshop2002/workshop.html.

Archivserver Der Deutschen Bibliothek für Netzpublikationen und retrodigitalisierte Veröffentlichungen, http://deposit.ddb.de/.

PANDORA - Preserving and Accessing Networked Documentary Resources of Australia, http://pandora.nla.gov.au/; Beschreibung in: Colin Webb and Lydia Preiss: Who will Save the Olympics? The Pandora Archive and other Digital Preservation Case Studies at the National Library of Australia. In: Digital Past, Digital Future - An Introduction to Digital Preservation. OCLC / Preservation Resources Symposium, June 15, 2001, http://www.oclc.org/events/presentations/symposium/preisswebb.shtm; sowie Pam Gatenby: Legal Deposit, Electronic Publications and Digital Archiving. The National Library of Australia's Experience. In: 68th IFLA General Conference and Council, Glasgow, August 2002; http://www.nla.gov.au/nla/staffpaper/2002/gatenby1.html.

Internet Archive, http://www.archive.org/; Beschreibung in: Brewster Kahle: Preserving the Internet. In: Scientific American 276 (1997), Nr. 3, S. 82f.

WebArchiv; http://webarchiv.nkp.cz/index-e.html.

Beschreibung in: Serge Abiteboul et al.: A First Experience in Archiving the French Web. In: Research and Advanced Technology for Digital Technology. 6th European Conference, ECDL 2002, Rome, Italy, September 16-18, 2002, Proceedings. Ed. by Maristella Agosti and Costantino Thanos (= Lecture Notes in Computer Science 2458), S. 1-15; Julien Masanès: Towards Continuous Web Archiving. First Results and an Agenda for the Future. In: D-Lib Magazine 8 (2002), Nr. 12; http://www.dlib.org/dlib/december02/masanes/12masanes.html.

National Digital Information Infrastructure and Preservation Program (NDIIP) der Library of Congress (USA). Beschreibung in: Amy Friedlander: The National Digital Information Infrastructure Preservation Program. Expectations, Realities, Choices and Progress to Date. In: D-Lib Magazine 8 (2002), Nr. 4; http://www.dlib.org/dlib/april02/friedlander/04friedlander.html.

Our Digital Island; http://www.statelibrary.tas.gov.au/odi/.

Vgl. die Reportage über die Aktivitäten der British Library im Bereich Webarchivierung in: Jim McCue: Can You Archive the Net? In: Times Online (29. April 2002); http://www.timesonline.co.uk/article/0,,7-281852,00.html.

Beschreibung in: Danielle Léger: Legal Deposit and the Internet - Reconciling Two Worlds. In: What's next for Digital Deposit Libraries? Preserving Online Content for Future Generation. ECDL Workshop, September 8, 2001, 5th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001), Darmstadt, Germany; http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm.

Vgl. 2nd ECDL Workshop on Web Archiving in Conjunction with the European Conference on Digital Libraries (ECDL 2002), September 19, 2002, Rome, Italy; http://listes.cru.fr/wws/d_read/web-archive/pgr_ECDL2002.html.