<?xml version="1.0"?>
<!-- edited with XML Spy v4.1 U (http://www.xmlspy.com) by Max Kaiser (Österreichische Nationalbibliothek) -->
<!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN"
"../xml/dtds/tei/teixlite.dtd">
<TEI.2>
	<teiHeader id="sichtungen_content" status="update" creator="mka" date.created="2001-07-10" date.updated="2001-10-20" n="0.7">
		<fileDesc>
			<titleStmt>
				<!-- Kurztitel -->
				<title type="short">Aschenbrenner/Rauber: Webarchivierung</title>
				<!-- Haupttitel - obligatorisch, bei Rezensionen komplettes
    Zitat des rez. Werkes, fuer jedes rezensierte Werk eigenen
    Hauptitel  -->
				<title type="main">Die Bewahrung unserer Online-Kultur</title>
				<!-- Untertitel, bei Rezensionen "Rezension" -->
				<title type="sub">Vorschl&#x00E4;ge zu Strategien der Webarchivierung</title>
				<!-- Verfasser/Rezensent; bei Berichten von Institutionen ohne
    Verfasser: name type="organisation" -->
				<author n="creator" id="aut1">
					<name type="person" key="Aschenbrenner, Andreas">Andreas Aschenbrenner</name>
					<address>
						<addrLine>
							<date>2003</date>
						</addrLine>
						<addrLine>
							<name type="organisation">Nationaal Archief</name>
						</addrLine>
						<addrLine>
							<name type="organisation">ERPANET</name>
						</addrLine>
						<addrLine>
							<name type="street">Prins Willem-Alexanderhof 20</name>
						</addrLine>
						<addrLine>
							<name type="PB"/>
						</addrLine>
						<addrLine>
							<name type="ZIP">NL-2509</name>
						</addrLine>
						<addrLine>
							<name type="place"> LM - Den Haag</name>
						</addrLine>
						<addrLine>
							<name type="country">NL</name>
						</addrLine>
						<addrLine>
							<name type="tel" key=""/>
						</addrLine>
						<addrLine>
							<name type="fax" key=""/>
						</addrLine>
						<addrLine>
							<name type="URL" key=""/>
						</addrLine>
						<addrLine>
							<name type="email" key="">andreas.aschenbrenner@nationaalarchief.nl</name>
						</addrLine>
						<addrLine>
							<name type="infotext"/>
						</addrLine>
					</address>
				</author>
				<author n="creator" id="aut2">
					<name type="person" key="Rauber, Andreas">Andreas Rauber</name>
					<address>
						<addrLine>
							<date>2003</date>
						</addrLine>
						<addrLine>
							<name type="organisation">Technische Universit&#x00E4;t Wien</name>
						</addrLine>
						<addrLine>
							<name type="organisation">Institut f&#x00FC;r Softwaretechnik und Interaktive Systeme</name>
						</addrLine>
						<addrLine>
							<name type="street">Favoritenstr. 9-11/188</name>
						</addrLine>
						<addrLine>
							<name type="PB"/>
						</addrLine>
						<addrLine>
							<name type="ZIP">A-1040</name>
						</addrLine>
						<addrLine>
							<name type="place">Wien</name>
						</addrLine>
						<addrLine>
							<name type="country">AT</name>
						</addrLine>
						<addrLine>
							<name type="tel" key=""/>
						</addrLine>
						<addrLine>
							<name type="fax" key=""/>
						</addrLine>
						<addrLine>
							<name type="URL" key="">http://www.ifs.tuwien.ac.at/~andi</name>
						</addrLine>
						<addrLine>
							<name type="email" key="">rauber@ifs.tuwien.ac.at</name>
						</addrLine>
					</address>
				</author>
			</titleStmt>
			<publicationStmt>
				<!-- Identifier: PURL der Datei -->
				<idno type="PURL">http://purl.org/sichtungen/aschenbrenner-a-1a.xml</idno>
				<availability>
					<p>Copyright (C) 2003 by Sichtungen online</p>
				</availability>
				<!-- Herausgeber, NICHT AENDERN -->
				<publisher id="p1">
					<name key="OeLA" type="organisation">&#x00D6;sterreichisches Literaturarchiv der &#x00D6;sterreichischen Nationalbibliothek</name>
					<address>
						<addrLine>
							<name type="street">Josefsplatz 1</name>
						</addrLine>
						<addrLine>
							<name type="ZIP">A-1015</name>
						</addrLine>
						<addrLine>
							<name type="place">Wien</name>
						</addrLine>
						<addrLine>
							<name type="country">AT</name>
						</addrLine>
					</address>
				</publisher>
				<publisher id="p2">
					<name key="WStLB" type="organisation">Handschriftensammlung der
      Wiener Stadt- und Landesbibliothek</name>
					<address>
						<addrLine>
							<name type="street">Rathaus</name>
						</addrLine>
						<addrLine>
							<name type="ZIP">A-1080</name>
						</addrLine>
						<addrLine>
							<name type="place">Wien</name>
						</addrLine>
						<addrLine>
							<name type="country">AT</name>
						</addrLine>
					</address>
				</publisher>
				<authority>
					<name type="editor" id="ed1">
						<name type="person" key="Brandtner, Andreas">Andreas Brandtner</name>
						<address>
							<addrLine>
								<name type="organisation">Handschriftensammlung der
      Wiener Stadt- und Landesbibliothek</name>
							</addrLine>
							<addrLine>
								<name type="email">bra@m09.magwien.gv.at</name>
							</addrLine>
						</address>
					</name>
					<name type="editor" id="ed2">
						<name type="person" key="Kaiser, Max">Max Kaiser</name>
						<address>
							<addrLine>
								<name type="organisation">&#x00D6;sterreichisches Literaturarchiv der &#x00D6;sterreichischen Nationalbibliothek</name>
							</addrLine>
							<addrLine>
								<name type="email">max.kaiser@onb.ac.at</name>
							</addrLine>
						</address>
					</name>
					<name type="editor" id="ed3">
						<name type="person" key="Kaukoreit, Volker">Volker Kaukoreit</name>
						<address>
							<addrLine>
								<name type="organisation">&#x00D6;sterreichisches Literaturarchiv der &#x00D6;sterreichischen Nationalbibliothek</name>
							</addrLine>
							<addrLine>
								<name type="email">volker.kaukoreit@onb.ac.at</name>
							</addrLine>
						</address>
					</name>
				</authority>
			</publicationStmt>
			<seriesStmt>
				<title type="short">Sichtungen online</title>
				<idno type="PURL">http://purl.org/sichtungen/</idno>
				<idno type="ISSN">1680-8975</idno>
			</seriesStmt>
			<sourceDesc>
				<!-- Quelle: Erstveroeffentlichung,  bei Berichten aus
    Institutionen wird in title angegeben: n="Mitteilungen 1998" usw.-->
				<bibl id="s1" n="preprint">
					<title type="short" n="">Preprint</title>
				</bibl>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<classDecl>
				<taxonomy id="sichtungen">
					<category id="s.0">
						<catDesc>Paratext</catDesc>
					</category>
					<category id="s.1.1">
						<catDesc>Beitrag: Aufsatz</catDesc>
					</category>
					<category id="s.1.2">
						<catDesc>Beitrag: Fundst&#x00FC;cke</catDesc>
					</category>
					<category id="s.1.3">
						<catDesc>Beitrag: Agora</catDesc>
					</category>
					<category id="s.2">
						<catDesc>Rezension</catDesc>
					</category>
					<category id="s.4.1">
						<catDesc>Bericht: Institution</catDesc>
					</category>
					<category id="s.4.2">
						<catDesc>Bericht: Forschungsprojekt</catDesc>
					</category>
					<category id="s.4.3">
						<catDesc>Bericht: Edition</catDesc>
					</category>
					<category id="s.4.4">
						<catDesc>Bericht: Kommission</catDesc>
					</category>
					<category id="s.4.5">
						<catDesc>Bericht: Tagung</catDesc>
					</category>
					<category id="s.4.6">
						<catDesc>Bericht: Nachla&#x00E4;sse</catDesc>
					</category>
					<category id="s.4.7">
						<catDesc>Bericht: Archivpraxis</catDesc>
					</category>
					<category id="s.4.8">
						<catDesc>Bericht: Ausstellungen</catDesc>
					</category>
				</taxonomy>
			</classDecl>
		</encodingDesc>
		<profileDesc>
			<langUsage>
				<language>de</language>
			</langUsage>
			<textClass>
				<classCode scheme="sichtungen">s.1.1</classCode>
				<keywords>
					<list>
						<item>
							<!-- Schlagwoerter -->
						</item>
					</list>
				</keywords>
			</textClass>
		</profileDesc>
		<revisionDesc>
			<change id="ch1">
				<date>2003-02-26</date>
				<respStmt>
					<name type="markup">
						<name type="person" key="Putz, Michaela">Michaela Putz</name>
						<name type="short">mp</name>
						<address>
							<addrLine>
								<name type="organisation">&#x00D6;sterreichisches Literaturarchiv der &#x00D6;sterreichischen Nationalbibliothek</name>
							</addrLine>
							<addrLine>
								<name type="street">Josefsplatz 1</name>
							</addrLine>
							<addrLine>
								<name type="ZIP">A-1015</name>
							</addrLine>
							<addrLine>
								<name type="place">Wien</name>
							</addrLine>
							<addrLine>
								<name type="country">AT</name>
							</addrLine>
							<addrLine>
								<name type="tel">+43-1-53410-370</name>
							</addrLine>
							<addrLine>
								<name type="fax">+43-1-53410-340</name>
							</addrLine>
							<addrLine>
								<name type="URL">http://www.onb.ac.at/sammlungen/litarchiv/</name>
							</addrLine>
							<addrLine>
								<name type="email">sichtungen@onb.ac.at</name>
							</addrLine>
						</address>
					</name>
					<resp>markup</resp>
				</respStmt>
				<item>TEI XML Markup</item>
			</change>
		</revisionDesc>
	</teiHeader>
	<text>
		<body>
			<div type="abstract">
				<p>Information on the Internet is fading away, and along with it part of our cultural heritage is being lost. This article develops a strategy for acquiring digital material from the Internet and presents issues on preserving this data over the long-term. This strategy is based on findings from numerous projects addressing issues on the preservation of material from the World Wide Web, as well as on experiences from a pilot study performed by the Vienna University of Technology in cooperation with the Austrian National Library.</p>
			</div>
			<div type="abstract">
				<p>Les informations sur Internet se perdent peu &#x00E0; peu, ce qui affecte une partie de notre patrimoine culturel et conduit &#x00E0; sa disparition. Cet article pr&#x00E9;sente une strat&#x00E9;gie permettant d&#x0027;acqu&#x00E9;rir des donn&#x00E9;es num&#x00E9;riques d&#x0027;Internet et propose des solutions afin de conserver ces donn&#x00E9;es &#x00E0; long terme. Cette strat&#x00E9;gie est bas&#x00E9;e sur les r&#x00E9;sultats des diff&#x00E9;rents projets qui se focalisaient sur les probl&#x00E8;mes de conservation des donn&#x00E9;es sur Internet et sur une &#x00E9;tude pilote men&#x00E9;e par l&#x0027;Universit&#x00E9; des technologies de Vienne, en collaboration avec la Biblioth&#x00E8;que nationale d&#x0027;Autriche.</p>
			</div>
			<div>
				<head type="h2">Hintergrund</head>
				<p>Im Auftrag der &#x00D6;ffentlichkeit haben Nationalbibliotheken die Aufgabe &#x00FC;bernommen, kulturelles Erbe f&#x00FC;r zuk&#x00FC;nftige Generationen zu bewahren.<ref target="en1">1</ref> Es findet sich immer mehr Material im Internet, das man zu unserem kulturellen Erbe z&#x00E4;hlen mu&#x00DF;. Als Konsequenz daraus m&#x00FC;ssen Strukturen geschaffen werden, welche die Archivierung digitaler Dokumente (offline wie online) f&#x00FC;r die Zukunft erm&#x00F6;glichen.<ref target="en2">2</ref> Mit der Ausweitung des Sammelauftrags auf online publizierte Inhalte stellt sich die Frage, welche Inhalte archiviert werden sollen. Prinzipiell k&#x00F6;nnen drei Zielsetzungen unterschieden werden, die kombiniert dem digitalen Archiv ein Profil verleihen, das mehreren Anforderungen gerecht wird: (1) eine Zielsetzung sollte sein, einen m&#x00F6;glichst breiten &#x00DC;berblick &#x00FC;ber das World Wide Web in seiner Gesamtheit zu bewahren; (2) fokussierende Sammlungen sollten definierte Themen umfassend dokumentieren; und schlie&#x00DF;lich sollten (3) f&#x00FC;r bestimmte Dokumente bzw. Dokumentarten mit den Autoren bzw. Herausgebern Vereinbarungen &#x00FC;ber eine direkte digitale &#x00DC;bermittlung an das Archiv getroffen werden.</p>
				<list type="simple">
					<item>(1) Ein integraler Aufgabenbereich f&#x00FC;r ein Webarchiv liegt in der Zielsetzung, einen m&#x00F6;glichst guten &#x00DC;berblick &#x00FC;ber das Internet bzw. die Navigation im WWW zu verschiedenen Zeitabschnitten zu vermitteln. Durch diese sehr breite Ausrichtung wird neben den einzelnen Dokumenten die Gesamtstruktur des Internet eingefangen, also etwa, wie unterschiedliche Webseiten zueinander in Beziehung stehen. Zur Vermittlung dieses &#x00DC;berblicks wird ohne Einschr&#x00E4;nkung und weitestgehend automatisiert Material gesammelt, das Teil des (nationalen) Webspace ist. Eine Kontaktaufnahme mit den Autoren bzw. Herausgebern ist nicht erforderlich, da nur Dokumente archiviert werden, die im WWW frei zug&#x00E4;nglich sind. Es ist f&#x00FC;r diesen Aspekt der Webarchivierung nicht notwendig, beispielsweise jeden einzelnen Artikel der Online-Fassung der Tageszeitung &#x00BB;Der Standard&#x00AB; (<xref type="url" n="http://derstandard.at/" crdate="2003-07-15" resp="mp">http://derstandard.at/</xref>), oder etwa jede erdenkbare Anfrage an die Suchmaschine &#x00BB;Austronaut&#x00AB; (<xref type="url" n="http://www.austronaut.at/" crdate="2003-07-15" resp="mp">http://www.austronaut.at/</xref>) zu erfassen. Es reicht aus, jeweils Beispieldokumente in das Archiv aufzunehmen.</item>
					<item>(2) In einem weiteren Ansatz werden spezifische Archivierungsprojekte durchgef&#x00FC;hrt, die jeweils auf ein bestimmtes Thema fokussieren. Alle auffindbaren Dokumente zu diesem Thema werden gesammelt und somit wird ein ausf&#x00FC;hrliches Bild dar&#x00FC;ber vermittelt. Diese Sammlungen finden zu bestimmten Themen fortlaufend statt oder aber sind auf punktuelle Ereignisse ausgerichtet, die von breitem &#x00F6;ffentlichen Interesse sind (z. B. die Seiten politischer Parteien in Wahlzeiten oder die Websites zu gro&#x00DF;en Veranstaltungen).</item>
					<item>(3) Einzelne Objekte verdienen per se besonderes Augenmerk. Hier geht es nicht um das Erfassen des generellen Eindrucks, sondern um eine m&#x00F6;glichst vollst&#x00E4;ndige Aufnahme einer Website in das Archiv. F&#x00FC;r diese ausgew&#x00E4;hlten Dokumente von besonderem Interesse (wie Online-Kunst, Homepages von Autoren oder anderen bekannten Personen, Online-Zeitschriften) wird mit dem Autor oder Herausgeber eine Vereinbarung getroffen, die es erlaubt, eine komplette, konsistente und authentische Kopie des Originals in das Archiv aufzunehmen und dadurch die Qualit&#x00E4;t des archivierten Materials sicherzustellen.</item>
				</list>
				<p>Eine Kombination dieser drei Sammlungsstrategien w&#x00FC;rde es einer Nationalbibliothek erm&#x00F6;glichen, einer Ausweitung ihres Sammlungsauftrags auf den Bereich des WWW gerecht zu werden. Weitere Szenarien, wie etwa die Dokumentation und Archivierung von Websites, die ein hohes Ma&#x00DF; an Benutzerinteraktion voraussetzen (z. B. Online-Spiele oder Chat-Rooms), sowie die Aufzeichnung von Interaktionsmustern und der von Benutzern eingeschlagenen Wege im WWW (das sogenannte &#x00BB;User Session Monitoring&#x00AB;) sind vorstellbar.</p>
				<p>Die neuen Aufgaben, die in Angriff genommen werden m&#x00FC;ssen, betreffen allerdings nicht nur die Selektion und Archivierung der digitalen Dokumente, sondern nat&#x00FC;rlich auch den Aufbau und die Verwaltung des Archivs selbst (siehe Abschnitt &#x00BB;Langzeitarchivierung digitaler Werke&#x00AB;). Es ist unerheblich, da&#x00DF; gegenw&#x00E4;rtig noch nicht zu jedem einzelnen Problem eine vollst&#x00E4;ndige L&#x00F6;sung existiert. Eine endg&#x00FC;ltige L&#x00F6;sung wird es bei einer derart umfangreichen Aufgabenstellung niemals geben; das Archiv mu&#x00DF; mit den immer wieder neuen Herausforderungen des dynamischen Mediums Internet mitwachsen.</p>
				<div>
					<head type="h3">Exkurs: Nationaler Webspace</head>
					<p>Ein nationales Webarchiv mu&#x00DF; seinen T&#x00E4;tigkeitsbereich nicht auf das gesamte Internet ausdehnen. Der Verantwortungsbereich eines nationalen Webarchivs kann analog den Sammelrichtlinien beispielsweise der &#x00D6;sterreichischen Nationalbibliothek<ref target="en3">3</ref> abgesteckt werden. Einen nationalen Webspace zu definieren, ist jedoch nicht ganz trivial. Man kann auf jeden Fall Dokumente innerhalb der nationalen Internetdom&#x00E4;ne hinzurechnen. Im Fall von &#x00D6;sterreich betrifft das alle Webserver mit der Endung &#x203A;.at&#x2039;, also etwa <xref type="url" n="http://www.onb.ac.at/" crdate="2003-07-15" resp="mp">http://www.onb.ac.at/</xref>. Weiters sind jene Webserver Teil des &#x00F6;sterreichischen nationalen Webspace, die zwar in &#x00D6;sterreich stehen, aber unter einer anderen Dom&#x00E4;ne registriert sind, wie z. B. &#x203A;.com&#x2039;, &#x203A;.org&#x2039;, &#x203A;.net&#x2039;, &#x203A;.cc&#x2039;. Exemplarisch sei dazu die Website <xref type="url" n="http://www.austria.com/" crdate="2003-07-15" resp="mp">http://www.austria.com/</xref> genannt. Schlie&#x00DF;lich m&#x00FC;ssen noch Websites und Dokumente aus dem Ausland beachtet werden, die das &#x00F6;sterreichische Kulturleben betreffen. Eines dieser sogenannten &#x203A;Auslands-Austriaca&#x2039; ist z. B. die Website des &#x00F6;sterreichischen Kulturforums in New York (<xref type="url" n="http://www.acfny.org/" crdate="2003-07-15" resp="mp">http://www.acfny.org/</xref>).</p>
				</div>
				<div>
					<head type="h2">Methoden zur Sammlung</head>
					<p>Die oben erw&#x00E4;hnten unterschiedlichen Ans&#x00E4;tze zur Sammlung der Dokumente, die in ein Archiv eingehen sollen, bedingen unterschiedliche Aufgabenstellungen zur Organisation des Archivs. Die Sammlungsart hat in Folge auch Einflu&#x00DF; darauf, wer die zuk&#x00FC;nftigen Nutzer des Archivs sein werden und wie diese auf die Best&#x00E4;nde zugreifen werden k&#x00F6;nnen.</p>
					<p>Die unterschiedlichen Methoden zur Sammlung der Dokumente schlie&#x00DF;en einander nicht aus. Im Gegenteil, um die verschiedenen Aufgaben zu erf&#x00FC;llen, m&#x00FC;ssen die Ans&#x00E4;tze miteinander kombiniert werden. Zun&#x00E4;chst jedoch sollen die unterschiedlichen Methoden einzeln vorgestellt werden.</p>
				</div>
				<div>
					<head type="h3">Ablieferung digitaler Werke</head>
					<p>F&#x00FC;r traditionelle Medien wird der Sammelauftrag von Nationalbibliotheken meist durch Pflichtexemplar-Regelungen (legal deposit / d&#x00E9;p&#x00F4;t l&#x00E9;gal) gest&#x00FC;tzt. Eine solche gesetzliche Regelung f&#x00FC;r Online-Dokumente w&#x00FC;rde den Aufbau eines nationalen Archivs des digitalen kulturellen Erbes vereinfachen. Die Bibliothek m&#x00FC;&#x00DF;te sich dann &#x203A;nur&#x2039; mit der Entgegennahme, Archivierung und Zurverf&#x00FC;gungstellung der Dokumente auseinandersetzen, ein Proze&#x00DF;, der mit Hilfe spezieller Abgaberichtlinien weitgehend automatisiert werden k&#x00F6;nnte. Die Sicherung der Konsistenz und Funktionalit&#x00E4;t der einzelnen Dokumente fiele in Folge nicht in den Verantwortungsbereich des Archivs, sondern des Ablieferungspflichtigen.</p>
					<p>Es stellt sich allerdings die Frage, welche Dokumente durch eine solche Ablieferungsregelung erfa&#x00DF;t werden k&#x00F6;nnten, und wer dieses Material abzuliefern hat. Da es die Vermittlungsinstanz der Verlage f&#x00FC;r das Medium Internet in weiten Bereichen nicht gibt, m&#x00FC;ssen die jeweiligen Autoren oder Herausgeber selbst angesprochen werden. Nachdem uneingeschr&#x00E4;nkt jeder die M&#x00F6;glichkeit hat, im Internet zu ver&#x00F6;ffentlichen, ist die komplette Durchsetzung einer derartigen Strategie praktisch unm&#x00F6;glich.</p>
					<p>Statt einer Verpflichtung k&#x00F6;nnte man die Ablieferung von Werken auf eine freiwillige Basis stellen. Es ist allerdings davon auszugehen, da&#x00DF; mit einer freiwilligen Ablieferung nur ein sehr kleiner Ausschnitt der tats&#x00E4;chlich vorhandenen Vielfalt an Online-Dokumenten erfa&#x00DF;t w&#x00FC;rde.</p>
					<p>Die Ablieferung - sei sie freiwillig oder gesetzlich festgelegt - ist daher nur f&#x00FC;r wenige, ausgew&#x00E4;hlte Objekte als Sammlungsmethode geeignet. F&#x00FC;r die abzuliefernden Dokumente sollte es idealerweise Ansprechpersonen geben, um den organisatorischen Aufwand m&#x00F6;glichst gering zu halten. Zus&#x00E4;tzlich zu l&#x00E4;ngerfristigen Abkommen mit Organisationen, Verlagen, Vereinen, usw. k&#x00F6;nnten vor&#x00FC;bergehende Vereinbarungen eingegangen werden, um auch Einzelwerken Rechnung zu tragen, ohne aber den daf&#x00FC;r erforderlichen Mehraufwand au&#x00DF;er Acht zu lassen.</p>
				</div>
				<div>
					<head type="h3">Aktive Sammlung - manuell</head>
					<p>Um repr&#x00E4;sentative Sammlungen zu erzeugen, mu&#x00DF; das Webarchiv aktiv Sammlungsaktivit&#x00E4;ten setzen. Zu diesem Zweck mu&#x00DF; im Internet kontinuierlich manuell nach Material recherchiert werden, das den vereinbarten Sammelrichtlinien entspricht. Die jeweiligen Dokumente k&#x00F6;nnen entweder direkt oder nach Kontaktaufnahme mit dem Autor oder Herausgeber in das Archiv aufgenommen werden. Ein solches Prozedere generiert ein gut sortiertes und konsistentes Archiv. Allerdings ist dieser Ansatz relativ personalintensiv. Unzureichende Personalressourcen k&#x00F6;nnten in unvollst&#x00E4;ndigen Sammlungen und dem Verlust wertvoller Daten resultieren. Abgesehen davon birgt eine intellektuelle Selektion die Gefahr, da&#x00DF; Daten herausgefiltert werden, f&#x00FC;r die sich erst im nachhinein herausstellt, da&#x00DF; sie wichtig gewesen w&#x00E4;ren.</p>
					<p>Der Ansatz der manuellen Selektion und Bewertung von Inhalten im Internet wird von einigen gro&#x00DF;en Webportalen wie z. B. &#x00BB;Yahoo!&#x00AB;<ref target="en4">4</ref> mit Erfolg betrieben. Webseiten werden durch ein Team ausgew&#x00E4;hlt, annotiert und in einen Themenkatalog eingeordnet.</p>
				</div>
				<div>
					<head type="h3">Aktive Sammlung - automatisch</head>
					<p>Durch automatisierte Webarchivierung kann ein gro&#x00DF;es Datenvolumen aufgenommen werden, gleichzeitig ist der Personalaufwand wesentlich geringer und w&#x00E4;chst nicht proportional zur Gr&#x00F6;&#x00DF;e der Sammlung, wie das bei manuellen Methoden der Fall ist. Die Eingrenzung des nationalen Webspace kann weitgehend automatisch erfolgen. Nur die Identifikation relevanter Websites, die unter anderen Dom&#x00E4;nen registriert sind (siehe dazu den Exkurs &#x00BB;Nationaler Webspace&#x00AB;), bedarf einer gewissen inhaltlichen, thematischen Interpretation und mu&#x00DF; daher manuell durchgef&#x00FC;hrt werden, betrifft aber nur einen relativ geringen Anteil am jeweiligen nationalen Webspace.</p>
					<p>Mit Hilfe von Webcrawlern (siehe Abschnitt &#x00BB;Praktische Schritte&#x00AB;) kann ein erheblicher Teil des Webspace automatisiert in ein nationales Webarchiv aufgenommen werden, ohne da&#x00DF; Ansprechpersonen f&#x00FC;r die zu archivierenden Dokumente ben&#x00F6;tigt werden (siehe Abschnitt &#x00BB;Praktische Schritte&#x00AB;). Allerdings wird das Material bei der Aufnahme in das Archiv nicht tiefergehend gepr&#x00FC;ft. Dadurch k&#x00F6;nnten technische Probleme unerkannt bleiben. Sind Online-Dokumente nicht ihren jeweiligen Spezifikationen entsprechend programmiert, kann dies durch die verwendeten Werkzeuge unter Umst&#x00E4;nden nicht kompensiert werden. Oftmals ist z. B. HTML-Code nicht spezifikationsgem&#x00E4;&#x00DF; &#x203A;wohlgeformt&#x2039;: W&#x00E4;hrend moderne Webbrowser meist kulant sind und &#x00FC;ber HTML-Fehler hinwegsehen, m&#x00FC;ssen die gegenw&#x00E4;rtigen Webcrawler erst lernen, fehlerhafte Dokumente angemessen zu verarbeiten.</p>
					<p>Probleme k&#x00F6;nnen auch &#x203A;exotische&#x2039; Datenformate bereiten: ist ein Format den automatischen Tools unbekannt, besteht die Gefahr, da&#x00DF; Webseiten unvollst&#x00E4;ndig aufgenommen werden, oder keine Software zu ihrer Darstellung vorhanden ist. Analog k&#x00F6;nnen neue Datenformate den Crawlern noch unbekannt sein; bei der rasanten Weiterentwicklung der Technologien m&#x00FC;ssen die Werkzeuge st&#x00E4;ndig an Neuerungen angepa&#x00DF;t werden (neue Plugins wie &#x00BB;Flash&#x00AB; usw.).</p>
					<p>Technische Probleme werden auch durch sogenannte dynamische Seiten verursacht. Diese Seiten werden erst nach der Interaktion mit einem Benutzer automatisch generiert und sind speziell auf dessen Anfragen abgestimmt. Noch gibt es keine zuverl&#x00E4;ssigen Verfahren, diese Interaktionen automatisiert durchzuf&#x00FC;hren.</p>
				</div>
				<div>
					<head type="h3">Erreichen des Ziels</head>
					<list type="simple">
						<head>Wie bereits festgestellt, wird der f&#x00FC;r ein nationales Webarchiv optimale Weg in der Verkn&#x00FC;pfung manueller und automatischer Verfahren bestehen, um die Vorteile beider zu vereinen. Somit kann jeder der drei beschriebenen Zielsetzungen eine Methode zugeordnet werden:</head>
						<item>(1) Zu einem Teil wird eine automatische Sammlung durchgef&#x00FC;hrt. Ziel kann es hier nicht sein, jede Datei in all ihren einzelnen Versionen archivieren zu wollen. Statt dessen wird in periodischen Abst&#x00E4;nden (z. B. j&#x00E4;hrlich oder halbj&#x00E4;hrlich) eine Momentaufnahme des aktuellen nationalen Webspace gemacht. Bei einer solchen umfassenden Aufnahme fallen sehr gro&#x00DF;e Datenmengen an; es ist anzunehmen, da&#x00DF; der &#x00F6;sterreichische Webspace gegenw&#x00E4;rtig mehr als ein Terabyte<ref target="en5">5</ref> an Daten umfa&#x00DF;t. Bedingt durch dieses Datenvolumen kann eine Sammlung der Daten zur Archivierung jeweils nur &#x00FC;ber einen Zeitraum von mehreren Monaten durchgef&#x00FC;hrt werden. (Durch diese Momentaufnahme mit &#x00BB;Langzeitbelichtung&#x00AB; stellt sich die Frage der Authentizit&#x00E4;t der gesammelten Dokumente, ein Problem, das weitergehend behandelt werden mu&#x00DF;.)</item>
						<item>(2) Parallel dazu werden fokussierte Projekte initiiert, die sich auf ein Thema, ein Ereignis, eine Veranstaltung oder eine Person konzentrieren. Die Anzahl der zu archivierenden Dokumente in einem solchen Projekt ist vergleichsweise geringer, diese Daten werden aber gegebenenfalls h&#x00E4;ufiger gesichert. W&#x00E4;hrend eines Wahlkampfs z. B. wird es notwendig sein, die Seiten der politischen Parteien t&#x00E4;glich aufzunehmen. Welche Seiten in ein solches spezialisiertes Projekt aufgenommen werden, wird intellektuell (bzw. teilweise automatisch) ausgew&#x00E4;hlt.</item>
						<item>(3) F&#x00FC;r einzelne, spezielle Websites und Dokumente wird Kontakt mit dem Autor, Herausgeber oder einem anderen Ansprechpartner hergestellt. Wird das Werk speziell f&#x00FC;r das Archiv aufbereitet, reduziert das die technischen Probleme, wie sie z. B. bei Online-Kunst auftreten k&#x00F6;nnten, wenn diese die technischen Machbarkeiten ausreizt. Bei dieser Sammlungsmethode mu&#x00DF; ausgelotet werden, wie oft ein Dokument in das Archiv aufgenommen wird. W&#x00E4;hrend z. B. ein Artikel einer statischen Ausgabe eines Online-Journals nur einmal aufgenommen werden mu&#x00DF;, kann bei Webdokumenten, die sich mit der Zeit ver&#x00E4;ndern (etwa eine pers&#x00F6;nliche Homepage), der Entwicklungsproze&#x00DF; des Dokuments als wichtig erachtet werden. Es kann mit dem jeweiligen Ansprechpartner vereinbart werden, in welchem zeitlichen Abstand eine Momentaufnahme des Werks gemacht wird, d. h., ob es einmalig, j&#x00E4;hrlich, monatlich oder sogar t&#x00E4;glich in seiner jeweils aktuellen Fassung aufgenommen werden soll.</item>
					</list>
					<p>F&#x00FC;r die unterschiedlichen Sammlungsarten sollten dieselben Tools verwendet werden. Dadurch k&#x00F6;nnen Probleml&#x00F6;sungen f&#x00FC;r die manuell verwalteten, kleineren Projekte auch der gro&#x00DF;en Aufnahme zugute kommen, womit das Archiv technisch stabiler wird und mit der Entwicklung des Mediums Internet mitwachsen kann.</p>
				</div>
			</div>
			<div>
				<head type="h2">Langzeitarchivierung digitaler Werke</head>
				<p>Bei der Archivierung unseres digitalen kulturellen Erbes ist die Auswahl und Sammlung der Werke zwar ein entscheidender Punkt, bei weitem aber nicht die einzige Herausforderung, die bew&#x00E4;ltigt werden mu&#x00DF;. Weitere wichtige Punkte betreffen die langfristige Speicherung der enormen Datenmengen, die Wartung und Erhaltung des Archivs sowie auch dessen Zug&#x00E4;nglichmachung.</p>
				<p>Eine direkte Konsequenz der Webarchivierung ist das Anfallen enormer Datenmengen. Ein Datenarchiv von solchen Ausma&#x00DF;en bedarf einer sorgf&#x00E4;ltigen Planung. Es mu&#x00DF; skalierbar sein, d. h. so konzipiert sein, da&#x00DF; es problemlos vergr&#x00F6;&#x00DF;ert werden kann, um es mit den Anforderungen mitwachsen zu lassen. Zugute kommt dabei, da&#x00DF; nicht nur das vorhandene Datenvolumen w&#x00E4;chst, sondern auch immer leistungsf&#x00E4;higere Speichertechnologien entwickelt werden. St&#x00E4;ndig neue Technologien integrieren zu k&#x00F6;nnen, wird eine Herausforderung und gleichzeitig die Chance sein, um die Basis f&#x00FC;r ein gut organisiertes Archiv zu schaffen. Es gibt international bereits zahlreiche Initiativen, die diese Herausforderung erfolgreich angenommen haben (siehe Abschnitt &#x00BB;Andere Initiativen&#x00AB;, neben diversen digitalen Archiven in anderen Bereichen).</p>
				<p>Wenn garantiert werden soll, da&#x00DF; die digitalen Best&#x00E4;nde in Zukunft erhalten bleiben, mu&#x00DF; allerdings mehr getan werden. Eine notwendige Arbeitsaufgabe ist die Erhaltung der Medien, soda&#x00DF; die physischen Daten - also die Bits und Bytes - lesbar bleiben. Bekanntlich haben elektronische Datentr&#x00E4;ger keine lange garantierte Lebenszeit (magnetische B&#x00E4;nder z. B. nur etwa zehn Jahre). Daher m&#x00FC;ssen die Daten in regelm&#x00E4;&#x00DF;igen Abst&#x00E4;nden auf neue Datentr&#x00E4;ger transferiert werden.</p>
				<p>Der zweite wichtige Punkt zur Erhaltung der Daten betrifft die Software. Digitale Dokumente m&#x00FC;ssen von einer Softwareapplikation interpretiert werden, bevor sie von Menschen eingesehen werden k&#x00F6;nnen, und sind daher im Format der jeweiligen Software abgespeichert. Mit der rasanten Weiterentwicklung der Technologien &#x00E4;ndern sich auch diese Formate. Dadurch kann es passieren, da&#x00DF; innerhalb weniger Jahre Formate veralten und die Dokumente nicht mehr lesbar sind. Um dies zu verhindern, m&#x00FC;ssen aktiv Gegenma&#x00DF;nahmen getroffen werden.<ref target="en6">6</ref> Nach dem derzeitigen Stand der Forschung ist die beste Strategie zur digitalen Langzeitarchivierung eine Kombination verschiedener Methoden. Dabei soll die f&#x00FC;r ein Dokument gew&#x00E4;hlte Methode dessen &#x203A;Signifikante Eigenschaften&#x2039; bestm&#x00F6;glich erhalten. Die zwei meistgenannten Ans&#x00E4;tze sind das (wiederholte) Konvertieren der Dokumente in aktuelle Formate (sog. &#x00BB;Migration&#x00AB;) und das Emulieren alter Computersysteme auf neuen. Alle Methoden, die derzeit erforscht werden, bewegen sich in einem Spektrum von der Erhaltung der originalen Technologie bis hin zur Bewahrung der konzeptionellen Eigenschaften des Dokuments.<ref target="en7">7</ref>
				</p>
				<p>Jede Strategie zur digitalen Langzeitarchivierung setzt voraus, da&#x00DF; zu den Dokumenten Metadaten vorhanden sind. Diese Daten &#x00FC;ber das eigentliche Dokument beziehen sich einerseits auf dessen Struktur, den Inhalt und den Kontext (wann wurde es von wem wo gesammelt, wie ist das Dokument aufgebaut usw.). Andererseits beinhalten Metadaten Informationen zur Verwaltung der Dokumente im Archiv (Identifikation, Rechteverwaltung usw.). Zu den notwendigen Metadaten z&#x00E4;hlen auch Informationen, die f&#x00FC;r die Durchf&#x00FC;hrung der digitalen Archivierung notwendig sind - man spricht von &#x203A;preservation metadata&#x2039;. Wichtige Elemente dieser speziellen Metadaten sind u. a. Informationen &#x00FC;ber das Datenformat, die Angabe der &#x203A;Signifikanten Eigenschaften&#x2039; und die Dokumentation der bisher angewendeten Mittel zur Langzeitarchivierung (z. B. Konvertieren eines Dokumentes in ein Standarddatenformat).<ref target="en8">8</ref> Anzahl, Art und Umfang von Metadaten werden f&#x00FC;r die Organisation von digitalen Archiven als essentiell erachtet und bilden die Grundvoraussetzung, da&#x00DF; die Sammlungen langfristig authentisch aufbewahrt werden k&#x00F6;nnen. Metadatensysteme sind im Fokus der Forschung; die Nationalbibliotheken von Australien<ref target="en9">9</ref> und Neuseeland,<ref target="en10">10</ref> das Cedars Projekt (CURL Exemplars in Digital Archives, 1998-2002<ref target="en11">11</ref>), eine Arbeitsgruppe von OCLC und RLG<ref target="en12">12</ref> und andere Initiativen haben wichtige Beitr&#x00E4;ge dazu geleistet.</p>
				<p>Auch wenn zum Thema der Langzeitarchivierungsstrategien noch weitere Forschungsarbeit notwendig ist, m&#x00FC;ssen die jeweiligen Metadaten dennoch sofort erstellt werden. Nur mit Hilfe dieser Daten wird f&#x00FC;r die n&#x00E4;chste Zukunft die Erhaltung der Dokumente und eine darauf folgende Archivierungsstrategie erm&#x00F6;glicht.</p>
				<p>Sobald die Archivierung der Dokumente sichergestellt ist, mu&#x00DF;, als ein weiterer essentieller Schritt, das Archiv f&#x00FC;r Benutzer zug&#x00E4;nglich gemacht werden. Wenn die Daten &#x00FC;ber automatisches Webcrawling gesammelt wurden, kann es den Benutzern erm&#x00F6;glicht werden, in den Sammlungen zu navigieren wie im Internet, mit einer zus&#x00E4;tzlichen zeitlichen Dimension. So k&#x00F6;nnen Webseiten zu verschiedenen Zeitabschnitten betrachtet und so ihre Entwicklung verfolgt werden. Speziell f&#x00FC;r manuell archivierte Dokumente bietet sich an, sie ausgew&#x00E4;hlten Themengebieten zuzuordnen und &#x00FC;ber Themenkataloge zug&#x00E4;nglich zu machen. Neben verschiedenen Zugriffsmethoden k&#x00F6;nnen auch digitale Tools integriert werden, die eine weitere Analyse der vorhandenen Dokumente erm&#x00F6;glichen (Statistikmodule, Linguistikmodule usw.). Auch sollte es speziellen Forschungsprojekten erm&#x00F6;glicht werden, eigene Methoden und Werkzeuge anzuwenden.</p>
				<p>Der breiten &#x00D6;ffentlichkeit kann bei den aktuellen gesetzlichen Regelungen in &#x00D6;sterreich allerdings derzeit noch kein Zugriff auf die gesammelten Dokumente gew&#x00E4;hrt werden. In den Gesetzestexten wurde noch nicht der dezidierte Auftrag erteilt, digitale Dokumente aus dem Internet in den Sammelauftrag einzubeziehen. Derzeit werden in mehreren L&#x00E4;ndern die gesetzlichen Rahmenbedingungen adaptiert; unter anderem in Finnland und Schweden wurden bereits Gesetzes&#x00E4;nderungen durchgef&#x00FC;hrt.</p>
				<p>Neben der Untersuchung der rechtlichen Rahmenbedingungen scheint auch eine ethische Analyse erforderlich, welche den verschiedenen subjektiven Wahrnehmungen der &#x00BB;Publikation&#x00AB; von Informationen im Internet und dem Interesse am Schutz der Privatsph&#x00E4;re im Zusammenhang mit privaten Homepages Rechnung tr&#x00E4;gt.</p>
				<p>Neben diesen ethischen Bedenken bedeutet der noch fehlende gesetzliche Rahmen allerdings nicht, da&#x00DF; Webarchivierung in &#x00D6;sterreich ungesetzlich ist, da das Material, das in das Archiv aufgenommen wird, &#x00F6;ffentlich zug&#x00E4;nglich ist. Obwohl dieser Bereich derzeit noch nicht gesetzlich geregelt ist, sollte dennoch ehebaldigst mit der systematischen Archivierung des &#x00F6;sterreichischen Webspace begonnen werden, um unser digitales Kulturerbe aufzubewahren und in Zukunft - unter Ber&#x00FC;cksichtigung der ethischen Aspekte - allgemein zug&#x00E4;nglich zu machen.</p>
			</div>
			<div>
				<head type="h2">Praktische Schritte ...</head>
				<p>F&#x00FC;r die &#x00D6;NB wurde eine Pilotstudie unternommen, durchgef&#x00FC;hrt vom Institut f&#x00FC;r Softwaretechnik und Interaktive Systeme der Technischen Universit&#x00E4;t Wien.<ref target="en13">13</ref> Im Rahmen dieser Machbarkeitsstudie - &#x00BB;Austrian On-Line Archive&#x00AB; (AOLA)<ref target="en14">14</ref> - wurden Techniken getestet, um Dokumente aus dem Internet m&#x00F6;glichst automatisch zu erfassen; ein wichtiger Schritt, um ein zuk&#x00FC;nftiges Archiv effizient aufbauen zu k&#x00F6;nnen. </p>
				<p>Prinzipiell werden zur automatischen Archivierung der Daten Webcrawler verwendet, die das WWW nach Dokumenten absuchen. Dazu ben&#x00F6;tigen sie zu Beginn einige Internet-Adressen (URLs). Von diesen ausgehend folgen sie den Referenzen (Links), die sie finden k&#x00F6;nnen, immer weiter. Es ist dadurch m&#x00F6;glich, die Daten eines gro&#x00DF;en Teils des WWW zu sammeln. Auch Internet-Suchmaschinen basieren auf dieser Technik.</p>
				<p>Im Rahmen des Pilotprojekts, in dem zwei verschiedene Webcrawler getestet wurden, konnte bereits ein Archiv mit einer Datenmenge von ann&#x00E4;hernd 0,5 Terabyte aufgebaut werden. Darin enthalten sind Dokumente, wie sie von 2001 bis Anfang 2002 im Internet zu finden waren. Der Rahmen der Archivierung wurde auf den &#x00F6;sterreichischen Webspace festgelegt. Die Phase der Pilotstudie ist nunmehr abgeschlossen, die ersten Schritte sind getan. Durch diese Initiative beherbergte die &#x00D6;NB vor&#x00FC;bergehend das zweitgr&#x00F6;&#x00DF;te Webharvestingprojekt Europas, das aufgrund fehlender Finanzierung allerdings derzeit nicht weitergef&#x00FC;hrt werden kann. Zahlreiche Nationalbibliotheken verfolgen das Ziel, ein permanentes Archiv f&#x00FC;r digitale Publikationen aufzubauen, mit Nachdruck. In mehreren europ&#x00E4;ischen L&#x00E4;ndern wurden mit dieser Aufgabe jeweils eine eigene Abteilung der Nationalbibliothek betraut. Aber gerade auch au&#x00DF;erhalb Europas sind derzeit zahlreiche Fortschritte in diesem Gebiet zu verzeichnen (siehe Abschnitt &#x00BB;Andere Initiativen&#x00AB;).</p>
				<div>
					<head type="h3">Konkrete Ergebnisse</head>
					<p>Die technische Basis f&#x00FC;r der Pilotstudie<ref target="en15">15</ref> bildet ein Server mit drei Festplatten &#x00E0; achtzig Gigabyte. Dieser Speicherplatz fungiert als Puffer. Ist dieser Pufferspeicher mit Daten aus dem Internet aufgef&#x00FC;llt, werden diese mittels eines Sechsfach-Taperekorders auf Magnetb&#x00E4;nder geschrieben und so der Puffer wieder geleert. Auf dem Rechner ist das offene Betriebssystem Linux installiert. Generell ist es in einem Projekt dieser Art wichtig, soweit wie m&#x00F6;glich auf freie bzw. mit Quellcode verf&#x00FC;gbare Software zur&#x00FC;ckzugreifen. Auch bei der Auswahl der eigentlichen Crawler-Software wurde auf dieses Erfordernis achtgegeben. Mit dieser Entscheidung vermeidet man die Abh&#x00E4;ngigkeit von kommerziellen Anbietern, was in einem Langzeitprojekt essentiell ist. Zus&#x00E4;tzlich wird dadurch die enge Kooperation mit anderen Projekten in diesem Gebiet erm&#x00F6;glicht.</p>
					<p>Der erste Webcrawler, der getestet wurde, war der &#x203A;NEDLIB&#x2039;-Crawler,<ref target="en16">16</ref> der von den finnischen Partnern des europ&#x00E4;ischen NEDLIB-Projektes (Networked European Deposit Library, 1997-2000<ref target="en17">17</ref>) entwickelt wurde. Er ist in der Programmiersprache C geschrieben und verwendet die Datenbank MySQL. Leider mu&#x00DF;te festgestellt werden, da&#x00DF; die Entwicklung dieses Crawlers zum Zeitpunkt des Projekts noch nicht weit genug fortgeschritten war, um die Anforderungen einer derart umfangreichen Aufgabenstellung zu meistern. Er konnte zwar an das System angepa&#x00DF;t und in den Arbeitsablauf eingef&#x00FC;gt werden, und es wurden auch kleinere Fehler ausgebessert. Es gab aber im Softwaredesign Fehler, die dazu gezwungen haben, diese Testserie abzubrechen. Nach einer Vorbereitungsphase, in der die notwendigen Adaptionen durchgef&#x00FC;hrt wurden, konnten in der Zeit vom 7. bis 16. Mai 2001 insgesamt 666.000 Dateien aus dem Internet gesammelt werden. Das entspricht 8,3 Gigabyte Datenvolumen von 1.210 Webservern. Nach den in dieser Testserie gewonnenen Erfahrungen scheint es besonders wichtig, da&#x00DF; ein Crawler sehr flexibel und modular aufgebaut ist, wenn er der Aufgabenstellung gerecht werden will. Dadurch ist das System einerseits robuster und kann andererseits mit der sich st&#x00E4;ndig &#x00E4;ndernden Umgebung des Internet weiterentwickelt werden. Hier gibt es f&#x00FC;r den &#x203A;NEDLIB&#x2039;-Crawler noch einiges Verbesserungspotential. Dennoch kann sich die Verwendung dieses Crawlers, wenn seine Entwicklung weiter fortgeschritten ist, als sinnvoll herausstellen, da er als Produkt des europ&#x00E4;ischen Projektes NEDLIB in Zukunft von mehreren Initiativen Unterst&#x00FC;tzung erhalten und wichtige Synergien erzeugen k&#x00F6;nnte.</p>
					<p>F&#x00FC;r weitere Tests wurde der &#x203A;Combine&#x2039;-Crawler herangezogen. Diese Software wurde urspr&#x00FC;nglich als Indexer<ref target="en18">18</ref> im Rahmen des europ&#x00E4;ischen Projektes DESIRE (Development of a European Service for Information on Research and Education, 1998-2000<ref target="en19">19</ref>) entwickelt.<ref target="en20">20</ref> Die Schwedische Nationalbibliothek adaptierte diesen Roboter f&#x00FC;r Webarchivierungszwecke im Rahmen ihres Projekts &#x00BB;Kulturarw3&#x00AB;. Da die offen verf&#x00FC;gbare Software, die in den Programmiersprachen Perl5 und C++ geschrieben ist und die Datenbank Berkeley-DB verwendet, sehr modular aufgebaut ist, konnte diese neue Funktionalit&#x00E4;t gut integriert werden.</p>
					<p>Zwischen 4. und 21. Juni 2001 wurden mit diesem Crawler im Rahmen von AOLA Daten aus dem Internet gesammelt. Mit einer Downloadrate von etwa sieben Gigabyte pro Tag wurde eine Sammlung von 115 Gigabyte (2,8 Millionen Dateien von 45.000 Servern) aufgebaut. Da die Systemvoraussetzungen nicht ausreichten, mu&#x00DF;te dieser Lauf unterbrochen werden, andernfalls w&#x00E4;re eine vollst&#x00E4;ndige Aufnahme des &#x00F6;sterreichischen Webspace zu diesem Zeitpunkt m&#x00F6;glich gewesen.</p>
					<p>Obwohl die Ausr&#x00FC;stung f&#x00FC;r die Anforderungen zu klein dimensioniert ist, wurden nach Umbauarbeiten bis in den Anfang des Jahres 2002 weitere Sammlungen durchgef&#x00FC;hrt. Diese ergaben ein Datenvolumen von 370 Gigabyte in etwa 8,2 Millionen Dateien. Somit konnte das AOLA-Projekt ein Archiv von nahezu einem halben Terabyte an Daten aufbauen, die f&#x00FC;r Analysen weiterverwendet werden konnten.<ref target="en21">21</ref> Im Vordergrund stehen jedoch die gesammelten Erfahrungen und die wichtigen Verbindungen zu anderen internationalen Projekten auf diesem Gebiet.</p>
				</div>
			</div>
			<div>
				<head type="h2">... und andere Initiativen</head>
				<p>Das Archivierungsprojekt &#x00BB;Kulturarw3&#x00AB;<ref target="en22">22</ref> der Schwedischen Nationalbibliothek ist schon seit 1996 aktiv. Es hat sich das Ziel gesetzt, m&#x00F6;glichst viele schwedische elektronische Dokumente zu sammeln, f&#x00FC;r die Zukunft zu bewahren und &#x00F6;ffentlichen Zugriff zu diesen Sammlungen zu gew&#x00E4;hrleisten. Dabei wurden bereits mehr als 3,4 Terabyte an Daten in acht Aufnahmen (&#x00BB;Snapshots&#x00AB;) des schwedischen Webspace gesammelt. Am 8. Mai 2002 wurden in Schweden auch die rechtlichen Rahmenbedingungen angepa&#x00DF;t. Somit hat das Kulturarw3-Projekt nunmehr auch die rechtliche Basis, um Dokumente aus dem Internet f&#x00FC;r die Zukunft zu bewahren und &#x00F6;ffentlich zug&#x00E4;nglich zu machen.<ref target="en23">23</ref>
				</p>
				<p>Das &#x203A;NEDLIB&#x2039;-Projekt<ref target="en24">24</ref> war eine Kooperation von acht europ&#x00E4;ischen Nationalbibliotheken von 1998 bis 2000 und wurde durch die Europ&#x00E4;ische Kommission gef&#x00F6;rdert. Es wurden Strategien und Modelle entwickelt, die eine Erweiterung der Sammlungspolitik auf elektronische Medien (offline wie auch online) erlauben. Aufbauend auf den Ergebnissen dieses Projekts baut derzeit die Koninklijke Bibliotheek (Niederl&#x00E4;ndische Nationalbibliothek) gemeinsam mit IBM ein System zur Langzeitarchivierung<ref target="en25">25</ref> freiwillig abgegebener digitaler Dokumente auf. Ein sogar weitergehendes System plant Die Deutsche Bibliothek,<ref target="en26">26</ref> um ihrem Sammlungsauftrag nachzukommen.</p>
				<p>&#x00BB;PANDORA&#x00AB;<ref target="en27">27</ref> hei&#x00DF;t eine Initiative der Australischen Nationalbibliothek, die 1996 ins Leben gerufen wurde. Sie verfolgt einen sehr selektiven, manuellen Ansatz der Webarchivierung. Es erfolgt eine aktive Recherche nach Dokumenten im Internet und eine manuelle Selektion, mit dem jeweiligen Autor bzw. Herausgeber wird Kontakt aufgenommen. Den exakt vorgeschriebenen Auswahlkriterien folgend konnten bis dato Daten im Umfang von mehr als 134 Gigabyte gesammelt und zu einem gut sortierten, konsistenten Archiv aufgebaut werden. Derzeit wird &#x00FC;berlegt, PANDORA durch automatisierte Crawls des australischen Webspace zu erg&#x00E4;nzen.</p>
				<p>Das &#x00BB;Internet Archive&#x00AB;<ref target="en28">28</ref> in San Francisco wurde ebenfalls 1996 gegr&#x00FC;ndet. Es hat sich die Aufgabe gesetzt, Dokumente, die digital geschaffen wurden (&#x203A;born-digital&#x2039;), f&#x00FC;r die Zukunft zu bewahren. Durch seine langj&#x00E4;hrige Aktivit&#x00E4;t kann das Archiv auf Sammlungen verweisen, die inzwischen mehr als einhundert Terabyte an Daten einnehmen. Gespeichert auf einem Cluster aus billigen Computern sind die Dokumente jederzeit verf&#x00FC;gbar. Auf der Homepage des Internet Archive wurde die &#x00BB;Wayback-Machine&#x00AB; installiert, die jedem online Zugriff auf das Archiv gew&#x00E4;hrt. Die Dokumente, besonders die Spezialsammlungen, sto&#x00DF;en in den verschiedensten Forschergemeinden auf reges Interesse.</p>
				<p>Neben diesen wohl bekanntesten Webarchivierungsprojekten gibt es weltweit zahlreiche weitere erfolgreiche Initiativen. In Island konnte bereits eine komplette Aufnahme des nationalen Webspace durchgef&#x00FC;hrt werden. Die Tschechische Nationalbibliothek<ref target="en29">29</ref> und die Biblioth&#x00E8;que nationale de France<ref target="en30">30</ref> f&#x00FC;hren Projekte zur Webarchivierung durch. Die Library of Congress (USA) strebt eine sehr umfangreiche L&#x00F6;sung mit einem Gesamtinvestitionsvolumen von erwarteten 175 Millionen US Dollar &#x00FC;ber die n&#x00E4;chsten Jahre an.<ref target="en31">31</ref> In Tasmanien (Australien) werden schon seit mehreren Jahren durch die State Library Online-Publikationen zur Archivierung ausgew&#x00E4;hlt.<ref target="en32">32</ref> Die British Library in Gro&#x00DF;britannien investiert in ein Webarchivierungsprojekt,<ref target="en33">33</ref> ebenso die Biblioth&#x00E8;que nationale du Qu&#x00E9;bec, die neben manueller Sammlung nun eine Kombination mit automatischem Webcrawling installieren will.<ref target="en34">34</ref>
				</p>
				<p>Mehr und mehr wird den in der Webarchivierung aktiven Initiativen bewu&#x00DF;t, da&#x00DF; nur enge Zusammenarbeit erfolgreich sein kann, und erste Ans&#x00E4;tze zur Kooperation sind vielversprechend.<ref target="en35">35</ref>
				</p>
			</div>
			<div>
				<p rend="right">
					<hi rend="i">Andreas Aschenbrenner / Andreas Rauber</hi>
				</p>
			</div>
			<div>
				<head type="h2">Anmerkungen</head>
				<note place="end" id="en1">
					<seg>1</seg>
					<p>  Der Sammelauftrag der &#x00D6;sterreichischen Nationalbibliothek (&#x00D6;NB) ist in &#x00A7; 28 Abs. 3 Z. 1. bis 5. sowie in Abs. 7 des Bundesgesetzes vom 1. Juli 1981 (BGBl. Nr. 341/1981 in der Fassung des BGBl. Nr. 102/1993) geregelt. Die entsprechenden Teile daraus k&#x00F6;nnen im WWW unter <xref type="url" n="http://www.onb.ac.at/about/sammrl/sammrl_frs.htm" crdate="2003-07-15" resp="mp">http://www.onb.ac.at/about/sammrl/sammrl_frs.htm</xref> eingesehen werden.</p>
				</note>
				<note place="end" id="en2">
					<seg>2</seg>
					<p>So setzt sich auch die &#x00D6;NB mit der Langzeitarchivierung elektronischer Medien auseinander; vgl. Max Kaiser und Alfred Schmidt: Langzeitarchivierung elektronischer Medien. Ein Statusbericht aus der &#x00D6;sterreichischen Nationalbibliothek. In: TRANS. Dokumentation eines kulturwissenschaftlichen Polylogversuchs im WWW (1997-2002). Hg. von Herbert Arlt u. a. St. Ingbert: R&#x00F6;hrig 2002 (= &#x00D6;sterreichische und internationale Literaturprozesse 17), S. 191-222.</p>
				</note>
				<note place="end" id="en3">
					<seg>3</seg>
					<p>Alfred Schmidt: Bibliotheken und Internet - das Informationsangebot der &#x00D6;sterreichischen Nationalbibliothek via Internet im europ&#x00E4;ischen Kontext (September 1998). In: TRANS. Internet-Zeitschrift f&#x00FC;r Kulturwissenschaften, Nr. 6; <xref type="url" n="http://www.inst.at/trans/6Nr/schmidt.htm" crdate="2003-07-15" resp="mp">http://www.inst.at/trans/6Nr/schmidt.htm</xref>.</p>
				</note>
				<note place="end" id="en4">
					<seg>4</seg>
					<p>
						<xref type="url" n="http://www.yahoo.com/" crdate="2003-07-15" resp="mp">http://www.yahoo.com/</xref>.</p>
				</note>
				<note place="end" id="en5">
					<seg>5</seg>
					<p>1 Terabyte = 1.000 Gigabyte = 1.000.000 Megabyte.</p>
				</note>
				<note place="end" id="en6">
					<seg>6</seg>
					<p>Eine Einf&#x00FC;hrung zum Forschungsgebiet &#x203A;Digitale Archivierung&#x2039; (&#x203A;Digital Preservation&#x2039;) findet sich in: Seamus Ross: Changing Trains at Wigan: Digital Preservation and the Future of Scholarship. London: National Preservation Office 2000 (= NPO Preservation Guidance: Occasional Papers); <xref type="url" n="http://www.bl.uk/services/preservation/occpaper.pdf" crdate="2003-07-15" resp="mp">http://www.bl.uk/services/preservation/occpaper.pdf</xref>.</p>
				</note>
				<note place="end" id="en7">
					<seg>7</seg>
					<p>Einen guten &#x00DC;berblick &#x00FC;ber die Methoden der digitalen Archivierung, die derzeit erforscht werden und in wissenschaftlicher Diskussion sind, bietet: Kenneth Thibodeau: Overview of Technological Approaches to Digital Preservation and Challenges in Coming Years. In: The State of Digital Preservation: An International Perspective. Conference Proceedings Documentation Abstracts, Inc. / Institutes for Information Science, Washington, D.C., April 24-25, 2002. Washington, D.C.: Council on Library and Information Resources 2002 (= CLIR Reports 107), S. 4-31; <xref type="url" n="http://www.clir.org/pubs/reports/pub107/pub107.pdf" crdate="2003-07-15" resp="mp">http://www.clir.org/pubs/reports/pub107/pub107.pdf</xref> und <xref type="url" n="http://www.clir.org/pubs/reports/pub107/thibodeau.html" crdate="2003-07-15" resp="mp">http://www.clir.org/pubs/reports/pub107/thibodeau.html</xref>.</p>
				</note>
				<note place="end" id="en8">
					<seg>8</seg>
					<p>Vgl. Michael Day: Metadata for Digital Preservation: A Review of Recent Developments. In: Research and Advanced Technology for Digital Libraries. 5th European Conference, ECDL 2001, Darmstadt, Germany, September 4-9, 2001. Ed. by Panos Constantopoulos and Ingeborg S&#x00F8;lvberg. Berlin: Springer 2001 (= Lecture Notes in Computer Science 2163), S. 161-172; auch zug&#x00E4;nglich unter <xref type="url" n="http://www.ukoln.ac.uk/metadata/presentations/ecdl2001-day/paper.html" crdate="2003-07-15" resp="mp">http://www.ukoln.ac.uk/metadata/presentations/ecdl2001-day/paper.html</xref>.</p>
				</note>
				<note place="end" id="en9">
					<seg>9</seg>
					<p>National Library of Australia: Preservation Metadata for Digital Collections. Exposure Draft, 15. Oktober 1999; <xref type="url" n="http://www.nla.gov.au/preserve/pmeta.html" crdate="2003-07-15" resp="mp">http://www.nla.gov.au/preserve/pmeta.html</xref>.</p>
				</note>
				<note place="end" id="en10">
					<seg>10</seg>
					<p>National Library of New Zealand: Metadata Standards Framework - Preservation Metadata, November 2002; <xref type="url" n="http://www.natlib.govt.nz/files/4initiatives_metaschema.pdf" crdate="2003-07-15" resp="mp">http://www.natlib.govt.nz/files/4initiatives_metaschema.pdf</xref>.</p>
				</note>
				<note place="end" id="en11">
					<seg>11</seg>
					<p>
						<xref type="url" n="http://www.leeds.ac.uk/cedars/" crdate="2003-07-15" resp="mp">http://www.leeds.ac.uk/cedars/</xref>. </p>
				</note>
				<note place="end" id="en12">
					<seg>12</seg>
					<p>OCLC/RLG Preservation Metadata Working Group, <xref type="url" n="http://www.oclc.org/research/pmwg/" crdate="2003-07-15" resp="mp">http://www.oclc.org/research/pmwg/</xref>.</p>
				</note>
				<note place="end" id="en13">
					<seg>13</seg>
					<p>
						<xref type="url" n="http://www.ifs.tuwien.ac.at/" crdate="2003-07-15" resp="mp">http://www.ifs.tuwien.ac.at/</xref>.</p>
				</note>
				<note place="end" id="en14">
					<seg>14</seg>
					<p>Homepage: <xref type="url" n="http://www.ifs.tuwien.ac.at/~aola/" crdate="2003-07-15" resp="mp">http://www.ifs.tuwien.ac.at/~aola/</xref>; Beschreibung in: Andreas Rauber und Andreas Aschenbrenner: Part of Our Culture is Born Digital. On Efforts to Preserve it for Future Generations (Juli 2001). In: TRANS. Internet-Zeitschrift f&#x00FC;r Kulturwissenschaften, Nr. 10; <xref type="url" n="http://www.inst.at/trans/10Nr/rauber10.htm" crdate="2003-07-15" resp="mp">http://www.inst.at/trans/10Nr/rauber10.htm</xref>.</p>
				</note>
				<note place="end" id="en15">
					<seg>15</seg>
					<p>Andreas Aschenbrenner: Long-Term Preservation of Digital Material. Building an Archive to Preserve Digital Cultural Heritage from the Internet. Diplomarbeit, Technische Universit&#x00E4;t Wien 2001; <xref type="url" n="http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/" crdate="2003-07-15" resp="mp">http://www.ifs.tuwien.ac.at/~aola/publications/thesis-ando/</xref>.</p>
				</note>
				<note place="end" id="en16">
					<seg>16</seg>
					<p>Juha Hakala: Collecting and Preserving the Web: Developing and Testing the NEDLIB Harvester. In: RLG DigiNews 5 (2001), Nr. 2; <xref type="url" n="http://www.rlg.org/preserv/diginews/diginews5-2.html#feature2" crdate="2003-07-15" resp="mp">http://www.rlg.org/preserv/diginews/diginews5-2.html#feature2</xref>.</p>
				</note>
				<note place="end" id="en17">
					<seg>17</seg>
					<p>
						<xref type="url" n="http://www.kb.nl/coop/nedlib/" crdate="2003-07-15" resp="mp">http://www.kb.nl/coop/nedlib/</xref>.</p>
				</note>
				<note place="end" id="en18">
					<seg>18</seg>
					<p>Ein Indexer sammelt Stichw&#x00F6;rter aus allen Dokumenten, die er (in einem abgesteckten Bereich) finden kann. Diese werden in eine Datenbank eingespeist, gemeinsam mit einer Referenz auf das Dokument, aus dem das Stichwort stammt. Diese Datenbank bildet die Basis f&#x00FC;r eine Suchmaschine.</p>
				</note>
				<note place="end" id="en19">
					<seg>19</seg>
					<p>
						<xref type="url" n="http://www.desire.org/" crdate="2003-07-15" resp="mp">http://www.desire.org/</xref>. </p>
				</note>
				<note place="end" id="en20">
					<seg>20</seg>
					<p>Das Programm mit Quellcode und einer genauen Beschreibung ist unter <xref type="url" n="http://www.lub.lu.se/combine/" crdate="2003-07-15" resp="mp">http://www.lub.lu.se/combine/</xref> frei verf&#x00FC;gbar.</p>
				</note>
				<note place="end" id="en21">
					<seg>21</seg>
					<p>Daten, die f&#x00FC;r das &#x203A;Austrian On-Line Archive&#x2039; gesammelt wurden, wurden mit Hilfe eines Datawarehouse analysiert. Eine Beschreibung dieses Projektes findet sich in: Andreas Rauber et al.: Uncovering Information Hidden in Web Archives. A Glimpse at Web Analysis Building on Data Warehouses. In: D-Lib Magazine 8 (2002), Nr. 12; <xref type="url" n="http://www.dlib.org/dlib/december02/rauber/12rauber.html" crdate="2003-07-15" resp="mp">http://www.dlib.org/dlib/december02/rauber/12rauber.html</xref>.</p>
				</note>
				<note place="end" id="en22">
					<seg>22</seg>
					<p>Kulturarw3, <xref type="url" n="http://www.kb.se/kw3/ENG/Default.htm" crdate="2003-07-15" resp="mp">http://www.kb.se/kw3/ENG/Default.htm</xref>; Beschreibung in: Johan Mannerheim, Allan Arvidson, and Krister Persson: The Kulturarw3 project - The Royal Swedish Web Archiw3e. An Example of &#x00BB;Complete&#x00AB; Collection of Web Pages. In: 66th IFLA Council and General Conference, Jerusalem, Israel, 13-18 August 2000, Conference Proceedings; <xref type="url" n="http://www.ifla.org/IV/ifla66/papers/154-157e.htm" crdate="2003-07-15" resp="mp">http://www.ifla.org/IV/ifla66/papers/154-157e.htm</xref>.</p>
				</note>
				<note place="end" id="en23">
					<seg>23</seg>
					<p>Mitteilung: Royal Library of Sweden in the Clear. In: Cultivate Interactive, Nr. 7 (Juli 2002): News and Events; <xref type="url" n="http://www.cultivate-int.org/issue7/mag-news/" crdate="2003-07-15" resp="mp">http://www.cultivate-int.org/issue7/mag-news/</xref>.</p>
				</note>
				<note place="end" id="en24">
					<seg>24</seg>
					<p>Beschreibung in: Titia van der Werf-Davelaar: NEDLIB - Networked European Deposit Library. In: Exploit Interactive, 4 (Januar 2000); <xref type="url" n="http://www.exploit-lib.org/issue4/nedlib/" crdate="2003-07-15" resp="mp">http://www.exploit-lib.org/issue4/nedlib/</xref>.</p>
				</note>
				<note place="end" id="en25">
					<seg>25</seg>
					<p>Dieses System der Nationalbibliothek der Niederlande wurde in Den Haag am 13. Dezember 2002 in einem internationalen Workshop vorgestellt. Folien der Vortragenden und eine Dokumentation des Systems sind verf&#x00FC;gbar unter <xref type="url" n="http://www.kb.nl/kb/resources/frameset_kb.html?/kb/ict/dea/workshop2002/workshop.html" crdate="2003-07-15" resp="mp">http://www.kb.nl/kb/resources/frameset_kb.html?/kb/ict/dea/workshop2002/workshop.html</xref>.</p>
				</note>
				<note place="end" id="en26">
					<seg>26</seg>
					<p>Archivserver Der Deutschen Bibliothek f&#x00FC;r Netzpublikationen und retrodigitalisierte Ver&#x00F6;ffentlichungen, <xref type="url" n="http://deposit.ddb.de/" crdate="2003-07-15" resp="mp">http://deposit.ddb.de/</xref>.</p>
				</note>
				<note place="end" id="en27">
					<seg>27</seg>
					<p>PANDORA - Preserving and Accessing Networked Documentary Resources of Australia, <xref type="url" n="http://pandora.nla.gov.au/" crdate="2003-07-15" resp="mp">http://pandora.nla.gov.au/</xref>; Beschreibung in: Colin Webb and Lydia Preiss: Who will Save the Olympics? The Pandora Archive and other Digital Preservation Case Studies at the National Library of Australia. In: Digital Past, Digital Future - An Introduction to Digital Preservation. OCLC / Preservation Resources Symposium, June 15, 2001, <xref type="url" n="http://www.oclc.org/events/presentations/symposium/preisswebb.shtm" crdate="2003-07-15" resp="mp">http://www.oclc.org/events/presentations/symposium/preisswebb.shtm</xref>; sowie Pam Gatenby: Legal Deposit, Electronic Publications and Digital Archiving. The National Library of Australia&#x0027;s Experience. In: 68th IFLA General Conference and Council, Glasgow, August 2002; <xref type="url" n="http://www.nla.gov.au/nla/staffpaper/2002/gatenby1.html" crdate="2003-07-15" resp="mp">http://www.nla.gov.au/nla/staffpaper/2002/gatenby1.html</xref>.</p>
				</note>
				<note place="end" id="en28">
					<seg>28</seg>
					<p>Internet Archive, <xref type="url" n="http://www.archive.org/" crdate="2003-07-15" resp="mp">http://www.archive.org/</xref>; Beschreibung in: Brewster Kahle: Preserving the Internet. In: Scientific American 276 (1997), Nr. 3, S. 82f.</p>
				</note>
				<note place="end" id="en29">
					<seg>29</seg>
					<p>WebArchiv; <xref type="url" n="http://webarchiv.nkp.cz/index-e.html" crdate="2003-07-15" resp="mp">http://webarchiv.nkp.cz/index-e.html</xref>.</p>
				</note>
				<note place="end" id="en30">
					<seg>30</seg>
					<p>Beschreibung in: Serge Abiteboul et al.: A First Experience in Archiving the French Web. In: Research and Advanced Technology for Digital Technology. 6th European Conference, ECDL 2002, Rome, Italy, September 16-18, 2002, Proceedings. Ed. by Maristella Agosti and Costantino Thanos (= Lecture Notes in Computer Science 2458), S. 1-15; Julien Masan&#x00E8;s: Towards Continuous Web Archiving. First Results and an Agenda for the Future. In: D-Lib Magazine 8 (2002), Nr. 12; <xref type="url" n="http://www.dlib.org/dlib/december02/masanes/12masanes.html" crdate="2003-07-15" resp="mp">http://www.dlib.org/dlib/december02/masanes/12masanes.html</xref>.</p>
				</note>
				<note place="end" id="en31">
					<seg>31</seg>
					<p>National Digital Information Infrastructure and Preservation Program (NDIIP) der Library of Congress (USA). Beschreibung in: Amy Friedlander: The National Digital Information Infrastructure Preservation Program. Expectations, Realities, Choices and Progress to Date. In: D-Lib Magazine 8 (2002), Nr. 4; <xref type="url" n="http://www.dlib.org/dlib/april02/friedlander/04friedlander.html" crdate="2003-07-15" resp="mp">http://www.dlib.org/dlib/april02/friedlander/04friedlander.html</xref>.</p>
				</note>
				<note place="end" id="en32">
					<seg>32</seg>
					<p>Our Digital Island; <xref type="url" n="http://www.statelibrary.tas.gov.au/odi/" crdate="2003-07-15" resp="mp">http://www.statelibrary.tas.gov.au/odi/</xref>.</p>
				</note>
				<note place="end" id="en33">
					<seg>33</seg>
					<p>Vgl. die Reportage &#x00FC;ber die Aktivit&#x00E4;ten der British Library im Bereich Webarchivierung in: Jim McCue: Can You Archive the Net? In: Times Online (29. April 2002); <xref type="url" n="http://www.timesonline.co.uk/article/0,,7-281852,00.html" crdate="2003-07-15" resp="mp">http://www.timesonline.co.uk/article/0,,7-281852,00.html</xref>.</p>
				</note>
				<note place="end" id="en34">
					<seg>34</seg>
					<p>Beschreibung in: Danielle L&#x00E9;ger: Legal Deposit and the Internet - Reconciling Two Worlds. In: What&#x0027;s next for Digital Deposit Libraries? Preserving Online Content for Future Generation. ECDL Workshop, September 8, 2001, 5th European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001), Darmstadt, Germany; <xref type="url" n="http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm" crdate="2003-07-15" resp="mp">http://www.bnf.fr/pages/infopro/dli_ECDL2001.htm</xref>.</p>
				</note>
				<note place="end" id="en35">
					<seg>35</seg>
					<p>Vgl. 2nd ECDL Workshop on Web Archiving in Conjunction with the European Conference on Digital Libraries (ECDL 2002), September 19, 2002, Rome, Italy; <xref type="url" n="http://listes.cru.fr/wws/d_read/web-archive/pgr_ECDL2002.html" crdate="2003-07-15" resp="mp">http://listes.cru.fr/wws/d_read/web-archive/pgr_ECDL2002.html</xref>.</p>
				</note>
			</div>
		</body>
	</text>
</TEI.2>
