Ergebnisse:
M
it der Überprüfung von Machbarkeit, Sinn und Nutzen digitaler Bestandserschließung ist bereits eine wesentliche Motivation für die Durchführung von Pilotprojekten genannt. Sie dienen in diesem Sinne dazu, weitere Aktivitäten sowohl seitens der fördernden Einrichtungen, als auch seitens der geförderten Institutionen besser abschätzbar zu machen und Referenzwissen für spätere Vorhaben zu erwerben. Zu diesen Absichten kommen noch Motive aus zwei weiteren Bereichen: inhaltliche Begründungen und "institutionspolitische" Faktoren.
Um mit den letzten anzufangen: In den USA stärker als in Deutschland und in den Bibliotheken stärker als in den Archiven hat sich inzwischen die Auffassung etabliert, daß mit öffentlichen Mitteln finanzierte Einrichtungen in Kultur und Wissenschaft ihre wirtschaftlichen Grundlagen nur dauerhaft sichern können, wenn sie mit innovativen Projekten den Nutzwert ihrer Bestände erhöhen ("add value" - dazu später), ihre Bekanntheit und die Nachfrage nach ihren Dienstleistungen verbessern und so auch ihre Leistungsfähigkeit und gesellschaftliche Unverzichtbarkeit unter Beweis stellen(1). Der erhoffte Effekt, die weitere Mitteleinwerbung durch Digitalisierungsprojekte zu fördern, wird in den Vereinigten Staaten in den Förderanträgen explizit benannt, dürfte aber auch in Europa eine Rolle spielen. Mit der Schaffung von "digitalen Tatsachen" wird außerdem die Hoffnung verbunden, nicht mehr ohne weiteres "wegevaluiert" werden zu können, sondern durch die nötige Pflege des neuen Angebotes auch langfristig Zuwendungen zu sichern. Im Bereich der Bibliotheken spielt dabei auch der Gedanke eine Rolle, sich frühzeitig auf bestimmte Fachbereiche zu konzentrieren, um in diesen eine Kompetenzführerschaft zu gewinnen, die nicht nur Kürzungen verhindern, sondern eine gewichtigere, und damit sicherere Stellung in der Zukunft ermöglichen soll. Einsparungsdruck durch die Finanznöte der öffentlichen Hand und der zu erwartende Umstrukturierungsdruck durch den Medienwandel führen hier zur Besinnung auf originäre Bestände oder Sammelgebiete und zu der daran anknüpfenden Suche nach neuen Möglichkeiten für die Schaffung einer eigenen unersetzlichen Position. Auf der Seite der pragmatischen Arbeitsorganisation besteht aber auch die Hoffnung, daß digital erschlossene Bestände langfristig zur Arbeitsentlastung beitragen, weil sie z.B. zu einer Entlastung des Bestell- und Magazindienstes führen können. Hierher gehört auch die Überlegung, daß der Servicegedanke bei Bibliotheken und Archiven den Anspruch beinhaltet, ihre Leistungen immer in der besten möglichen Form anzubieten, einem mit digitalen Werkzeugen arbeitenden Interessenten folglich auch digital aufbereitetes Material zur Verfügung stellen zu müssen.Häufig werden in den offiziellen Verlautbarungen(2) nur inhaltliche Begründungen genannt. Diese sind aber ebenfalls sehr vielfältig. Zum Versuch der Systematisierung können die folgenden fünf Hauptargumente unterschieden werden: (1.) Bestandsschutz, (2.) bessere Benutzbarkeit, (3.) Förderung der Nutzung, (4.) tiefere Erschließung und (5.) rationalere Erschließung. Im Einzelnen:
Bestandsschutz: Hinter dem Schlagwort des Bestandsschutzes steht vor allem der Gedanke, daß ein digital repräsentierter Bestand den Zugriff auf die fragilen Originaldokumente teilweise überflüssig machen könnte. Bei gut erschlossenen Beständen sollte außerdem ein gezielterer Zugriff die Menge des Materials verringern, das für eine persönliche Autopsie bewegt werden muß. Falls die Wiedergabequalität ausreichend hoch ist, können Ersatzmedien sogar zur dauerhaften Substitution der Originale eingesetzt werden, wenn jene vom Zerfall bedroht sind und deshalb in absehbarer Zeit hinter die Qualität ihrer Abbildung zurückfallen werden(3).
Bessere Benutzbarkeit: Digitale Bestände sind immer und überall ohne großen Aufwand benutzbar. Diese Argumentation findet sich in einer Vielzahl von Varianten und sehr konkreten Ausformulierungen in fast allen Projektbegründungen. Nur zwei beliebig herausgegriffene Beispiele wären z.B. die Bemerkung, daß dieses auch der Internationalisierung der Forschung Rechnung trüge, oder daß so auch behinderte Menschen ein gleichmäßiger Zugang zu Forschungsmaterialien ermöglicht würde(4). Der leichtere Zugriff wird in dieser Begründungssystematik ergänzt durch die erweiterten Recherchemöglichkeiten mit Suchmaschinen. Während ein Katalog die erschließenden Informationen nur unter einem einzigen Ordnungsgesichtspunkt(5) sortiert, ist auf elektronischem Wege ein Zugriff über viele verschiedene Kriterien hinweg möglich. Dazu kommt die Unterstützung der weiteren Verarbeitung von erschließenden oder wiedergebenden Daten, die bereits in maschinenlesbarem Format vorliegen. Einige Projekte streben darüber hinaus an, spezielle Bearbeitungswerkzeuge zu entwickeln, mit denen der Bestand weiteren Nutzungsformen zugeführt werden könnte.
Förderung der Nutzung: Beständehaltende Institutionen stehen vor der doppelten Aufgabe, ihr Material einerseits schützen und erhalten zu müssen, es aber andererseits auch zugänglich zu machen und zu vermitteln. Der letzte Aspekt gewinnt in einer Zeit zunehmenden Rechtfertigungsdrucks öffentlicher Institutionen noch an Bedeutung. Dem institutionell wichtigen Ziel der verstärkten Nutzung von Beständen dient vor allem die bereits erläuterte Vereinfachung des Zugriffs. Diese und eine tiefere Erschließung, die u.a. die Anreicherung mit Kontextinformationen umfassen kann, wird in vielen Projekten mit der Hoffnung verknüpft, breitere Interessentenkreise als die ohnehin eingeweihten Fachspezialisten ansprechen zu können. Gerade in einer Phase, in der innovative Projekte nicht nur wegen ihrer Inhalte eine gewisse Publizität erreichen, besteht die Hoffnung, bislang weitgehend unbeachtete Materialien einem größeren Publikum bekannt zu machen. Oft handelt es sich um Bestände, die so schwierig oder komplex sind, daß sie einer traditionellen Erschließung bislang nicht recht zugänglich schienen. Hier besteht nun die Chance, bislang kaum erschließbare Dokumente mit den neuen technischen Erfassungsmöglichkeiten einer breiten wissenschaftlichen Auswertung zu öffnen. Mit digitalen Mitteln können komplexe Beschreibungs- und Verzeichnungsstrukturen adäquat verwaltet werden, die Repräsentationsformen der Dokumente über die Qualität der Originale hinaus verbessert werden (Stichwort: Image enhancement) und in einfacher Weise Erschließungs- und Repräsentationsdaten mit Kontextinformationen angereichert werden. In Ansätzen zeigt sich dadurch auch, wie die Entwicklung der technischen Instrumente und Publikationsmedien zu Veränderungen in der Fokussierung auf bestimmte Quellengruppen führen kann. Daß nun bislang kaum genutzte Bestände in das Blickfeld der Forschung rücken, könnte man im Gegensatz zu den implizit selektierenden Techniken des Drucks oder der Katalogisierung etwas euphemistisch sogar als Schritt zur Verobjektivierung der Quellenwahrnehmung bezeichnen.(6)
Digitale Erschließung bedeutet tendenziell tiefere Erschließung. Bisher gültige Beschränkungen im Bereich der Quellenwiedergabe und der Zugriffsmöglichkeiten werden durch den Wandel der technischen Instrumente hinfällig. Ökonomie und Technik des Druckwesens schlossen bislang in der Regel die Abbildung umfangreicher Bestände aus und der Zugang zum Material konnte - z.B. durch Kataloge oder Register - nur unter wenigen systematischen Gesichtspunkten ermöglicht werden. Tiefere Quellenerschließung in digitaler Form wird manchmal mit der hohen Nachfrage nach besserem Zugang zu einem bestimmten Bestand begründet, aber auch damit, daß sie Gelegenheit bietet, eine längst überfällige wissenschaftliche Aufarbeitung vorzunehmen, eine weitere Auswertung durch die Fachdisziplinen vorzubereiten oder die Grundlagen für selektive, noch tiefer gehende Publikationen zu schaffen. Grundsätzliche Bedürfnisse werden dabei mit den neuen technischen Möglichkeiten in allen drei Grundbereichen (Wiedergabe, Erschließung, Publikation) verknüpft, die ihnen einen neuen Ansatz zur Erfüllung bieten:
- Im Bereich der Bestandsabbildung bedeutet das nicht nur, daß diese endlich in fast unbegrenztem Umfang möglich ist, sondern zugleich auch in besserer Qualität, in multipler Form und unmittelbar verknüpft mit den Erschließungsinformationen. Als Gewinn an Tiefe - sogar gegenüber dem originalen Bestand - ist auch noch die Möglichkeit der Bildverbesserung ("image enhancement") zu nennen, die das digitale Abbild u.U. leichter lesbar macht als die Vorlage.
- Noch deutlicher tritt die Möglichkeit zur tieferen Bestandserschließung im Bereich der Metadaten, also der Erschließung im engeren Sinne hervor. Hier werden nun komplexere Verzeichnungsformen, Organisationsstrukturen und die beliebige Anreicherung mit Kontextinformationen operationabel, die mit Karteikastensystemen überhaupt nicht denkbar gewesen wären.
- Für den Bereich der Publikation ist schließlich entscheidend, daß die umfangreiche qualitätvolle Abbildung und die komplexere Erschließung verlustfrei und über multiple Zugriffswege dem Benutzer zur Verfügung gestellt werden kann.
Bei der Tiefendimension der Bestandserschließung und ihrer Verknüpfung mit dem Aspekt der "Offenheit" wird in manchen Projektbegründungen die Gelegenheit zur arbeitsteiligen Erschließung betont. Diese erlaubt die Einbindung von externen Fachleuten, führt zu einer Zusammenarbeit mit anderen Forschungseinrichtungen und kann dabei die Relevanz des erschlossenen Bestandes erhöhen. Über die Publikation und die Koordination dieses weiter ausgreifenden wissenschaftlichen Prozesses kann sie zu einem Wandel im Aufgabenspektrum beständehaltender Institutionen beitragen: hatten diese ihre traditionellen Aufgaben darin, ihre Bestände zu bewahren und dem Nutzer auf einem relativ simplen Wege zugänglich zu machen, so werden sie nun zu aktiven Koordinationsstellen, die durch spezielles Know-how wissenschaftlich wie wirtschaftlich produktive intellektuelle Arbeit fördern. Über die neuen Publikationsformen werden sie so zu direkten oder indirekten Anbietern von komplexen Informationssystemen. Die besondere Chance von Bibliotheken und Archiven ergibt sich daraus, daß nur sie in der Lage sind, immer größer werdenden Projekten in einer scheinbar flüchtigen digitalen Welt den nötigen Rahmen zu geben, der institutionelle Konstanz mit transdisziplinärem informationstechnologischem Fachwissen verbindet.
Die digitale Aufarbeitung eines Bestandes wird von einer Rationalisierung des Erschließungsprozesses begleitet. Dies betrifft zunächst den Einsatz von Computern als reinen Handwerksmitteln zur besseren Verwaltung von Erschließungsinformationen, von Arbeitsabläufen oder von automatisierten Publikationsformen. Dies betrifft aber auch die grundsätzlich neue Möglichkeit einer inkrementellen Erschließung: fast alle Projekte begreifen sich als erste Stufe eines Prozesses, der gegenüber Erweiterungen offen ist. So kann zunächst eine Grunderschließung zur Verfügung gestellt werden, die auch als Navigationsinstrument zur weiteren - internen oder externen - Tiefenerschließung dienen kann. Digitale Bestandserschließung wird in diesem Sinne als Ausgangspunkt für einen kontinuierlichen Prozeß der Verbesserung von Qualität und Tiefe der Erschließung gesehen, und nicht mehr als isolierte Maßnahme mit eindeutig fixiertem Endpunkt. In der Begründung von Projekten wird gerade darin oft eine Rationalisierung gegenüber den traditionellen Verfahren gesehen, die - wenn überhaupt - erst nach äußerst langen Laufzeiten starre Veröffentlichungsformen fanden, die schneller unbefriedigend und veraltet waren, als sie erstellt wurden. Die einfache und schnelle Publikation von Zwischenergebnissen und die grundsätzliche Offenheit für Veränderungen und Erweiterungen wird demgegenüber oft als die deutlich rationalere Form aufgefaßt.
In der tieferen Bestandserschließung wird teilweise ein Wertzuwachs für den Bestand und damit für die - den Bestand haltende - Institution gesehen: diese Argumentation wird im englischen Sprachraum unter dem Schlagwort des "add value" vorgetragen und verweist darauf, daß Bestände einerseits einen Wert an sich darstellen, der aber andererseits durch die intellektuelle Erschließungsarbeit noch erhöht wird. Hierbei ist zu beachten, daß die bisherige Trennung in einzigartige, z.B. archivalische Bestände, oder mehrfach vorhandene Bestände (z.B. gedruckter Bücher) aufgeweicht wird durch die Singularität der Erschließung und ihrer je eigenen "Wertschöpfung".
Die folgende Tabelle bietet nochmals eine Zusammenstellung von Begründungen für Projekte zur digitalen Bestandserschließung, soweit sie sich für das Gesamtfeld verallgemeinern lassen. Daneben gibt es oft spezielle inhaltliche Motive, die z.B. auf einzelne fachwissenschaftliche Probleme abzielen und hier eine effizientere Arbeit ermöglichen wollen. Außerdem ergeben sich andere Begründungen aus den Besonderheiten des Bestandes, der Organisation des Projektes(7) oder dem Versuch bestimmte technische Probleme zu lösen(8). Eine scharfe Systematisierung kann nicht glücken, da die einzelnen Motive stark miteinander verbunden sind und in verschiedenen Motivationsbereichen eine Rolle spielen. Jenseits der Vorgaben, die z.B. schon durch die Formulierung der Förderprogramme von DFG und VW-Stiftung gemacht werden und in den entsprechenden Projektanträgen aufgegriffen werden(9) ist die Kreativität in den Einzelbegründungen sehr hoch. Hier soll dennoch ein Versuch zur Systematisierung unternommen werden.
Motivation |
Ziele |
||
Institutionelle Gründe |
|
|
|
|
|||
|
|||
|
|
||
|
|||
|
|||
|
|||
|
|||
|
|||
Inhaltliche Gründe |
|
|
|
|
|||
|
|
|
|
|
|||
|
|||
|
|||
|
|||
|
|
|
|
|
|||
|
|||
|
|||
|
|
|
|
|
|||
|
|||
|
|
||
|
|
|
Zwei Nebeneffekte sollen nicht unerwähnt bleiben, die manchmal eine Rolle bei der Überlegung spielen, ein Projekt zur digitalen Bestandserschließung zu beginnen: Einerseits kann so die Finanzierung einer Mikroverfilmung gewonnen werden(10), andererseits hat man höhere Chancen, eine Förderung für Erschließungsvorhaben zu erreichen, die ohnehin geplant waren, für die aber bei traditioneller Umsetzung keine Finanzierung zu erreichen gewesen wäre. Auf einer sehr allgemeinen Ebene werden außerdem noch zwei abstraktere Argumente genannt, die aber für den ganzen Bereich nicht unwichtig sind. Diese zielen auf die "aktive Mitgestaltung der Informationsformen der Zukunft durch die Fachwissenschaft" und die "Übertragung spezifischer Techniken der Fachwissenschaft in moderne Technologien"(11).
Auf die besondere Rolle der großen Förderprogramme von DFG und VW-Stiftung wurde bereits hingewiesen. Ohne diese würde ein großer Teil der untersuchten Projekte nicht existieren. Es wäre aber falsch, hier nicht einen wechselseitigen Prozeß zu sehen, wie e durch das große Engagement vor allem der Bibliotheken zur Erarbeitung eigener Projektideen belegt wird. Im DFG-Bereich gehen die einzelnen Vorhaben inhaltlich, technisch und konzeptionell weit über das in den offiziellen Papieren angedeutete Spektrum hinaus. Bei dem Förderprogramm der VW-Stiftung ist folgendes zu beobachten: Obwohl dort in der Ausschreibung der Aspekt der digitalen Erschließung weder im Vordergrund stand, noch Bewilligungsbedingung war, zeigt sich, daß im Laufe der Zeit ein immer höherer Anteil der Projekte auf digitale Verfahren setzte. Während 1995 und 1996 nur die wenigsten Anträge eine explizit digitale Erschließung vorsahen, war dies 1998 fast durchgängig der Fall. Es scheint sich in den letzten Jahren sogar die Vorstellung dessen, was unter dem Begriff der "Erschließung" zu verstehen sei, verändert zu haben. Assoziierte man vor fünf Jahren damit noch eine Katalogisierung oder Findmittelerstellung, so erwartet man heute unwillkürlich eine tiefer gehende Erfassung und Aufbereitung. Die neuen technischen Möglichkeiten sind hier offenbar auch im veränderten Begriffsverständnis paradigmatisch.
2.1.2. Formierung und Durchführung der Projekte
D
er Weg zur digitalen Bestandserschließung wird in der gegenwärtigen Phase der Entwicklung hauptsächlich von umfangreichen, selektiven, kooperativen, mittelfristigen, fremdfinanzierten und klar abgegrenzten Pilotprojekten in Bibliotheken und Archiven geprägt. Die Vorhaben dienen dazu, die technische Machbarkeit auszuloten, allgemeines know-how in diesem Bereich zu erwerben und technisch-organisatorische Grundstrukturen zu schaffen. Eine signifikante Minderheit von Projektträgern betreibt aber auch die digitale Erschließung nahezu ihrer gesamten (in der Regel begrenzten) Bestände, ohne weitere Kooperation, mit Eigenmitteln und in langfristiger Perspektive. Dies sind in der Regel Projekte von speziellen Forschungseinrichtungen, deren Arbeit zum großen Teil auf einen bestimmten Bestand ausgerichtet ist(12).Für fast alle Projekte gilt, daß sie tendenziell "umfangreicher" sind, als sie es bei nicht-digitalen Verfahren gewesen wären. "Umfangreicher" vor allem im Sinne der möglichen zusätzlichen Repräsentationsebene, dann aber auch im Sinne einer tendenziell tieferen Erschließung, einer Tendenz zu interdisziplinärer und interinstitutioneller Kooperation und nicht zuletzt auch durch die Verwendung komplexerer Verfahren. Die neuen Möglichkeiten lassen neue und weitergehende Anforderungen als selbstverständlich erscheinen, die in organisatorisch größer angelegten Vorhaben umgesetzt werden. Nicht zuletzt ist die zunehmende Kooperation mit anderen Fachwissenschaften und Institutionsarten bezeichnend für dieses Arbeitsgebiet und die Ursache für einige grundlegende Brüche, auf die später näher einzugehen sein wird.
Umfangreicher sind die Projekte dagegen nicht unbedingt hinsichtlich ihrer Laufzeit. Diese beträgt offiziell in den meisten Projekten zwischen einem und drei Jahren, was im wesentlichen an der Förderungspraxis der Geldgeber liegen dürfte. Aufschlußreicher ist deshalb eine Betrachtung der tatsächlichen Planungen jenseits einzelner Finanzierungsanträge. Hier lassen sich drei Gruppen unterscheiden:
- Projekte mit relativ kurzer Laufzeit von ein bis drei Jahren, die nach dieser Zeitspanne auch abgeschlossen sein sollen.
- Projekte, die von einer Laufzeit von vier bis 10 Jahren ausgehen, nach dem Ende des ersten Förderzeitraumes Folge-, Ergänzungs- und Zusatzanträge stellen werden, oder die weitere Finanzierung aus Eigenmitteln sichern wollen.
- Projekte für die kein festes Ende vorgesehen ist. Dies sind in der Regel Vorhaben, die entweder den gesamten Bestand einer Institution betreffen, oder die mit der Digitalisierung eine grundlegende und langfristige Umstellung der Arbeit einer Institution verbinden. Hier wären einige Projekte von Forschungseinrichtungen zu nennen, die ihre inhaltliche Arbeit oder ihre zentralen Publikationen auf digitale Formen umstellen wollen(13).
Der Vergleich zu früheren, nicht-digitalen Verfahren ist wegen der oben skizzierten inhaltlichen Erweiterungen kaum möglich. Es ist aber festzuhalten, daß der zunehmende Umfang von Bestandserschließung sich eher in höherem Mittel- und Personalaufwand, sowie in stärker institutionsübergreifender Zusammenarbeit niederschlägt und weniger in längeren Projektlaufzeiten. Dies liegt hauptsächlich an der rasanten Entwicklung der Technik: angesichts der Unsicherheit über die zukünftigen Entwicklungen und des Fehlens etablierter technischer Lösungsmodelle können keine Vorhaben in Angriff genommen werden, die schon jetzt die technischen Konzepte für einen längeren Zeitraum als nur wenige Jahre festlegen wollten.
Andererseits sind Effekte zu beobachten, die von einer kürzeren Projektlaufzeit sprechen lassen könnten, wenn man als Referenzpunkt die Veröffentlichung von Ergebnissen nimmt. Während traditionelle Erschließungsvorhaben hinsichtlich ihrer Publikationsformen ein relativ klares und unverändertes Ziel hatten, bei dem die Verfügbarkeit der Ergebnisse auch erst mit dem Abschluß der Arbeiten gegeben war, ist die schnelle Bereitstellung von Zwischenergebnissen ein auffälliges Merkmal im Bereich der digitalen Bestandserschließung. Da nicht klar ist, wie die endgültigen Publikationen aussehen werden, herrscht ein hoher Druck, diese Zielstellungen durch vorläufige und versuchsartige Veröffentlichungsformen erst zu erarbeiten.Angesichts des experimentellen Charakters vieler Projekte stellt sich die Frage, ob sie als Bausteine zu umfangreicheren Projekten angelegt sind. Dies ist in der Regel nicht der Fall! Selten stehen hinter den Pilotprojekten konkrete Vorstellungen über umfangreichere Vorhaben, die z.B. die gesamten Bestände einer großen Bibliothek oder eines großen Archives oder die zukünftige Arbeit eines Institutionenverbundes betreffen könnten. Eher noch werden die Pilotprojekte als mögliche Ausgangsbasen oder Kernsysteme für noch nicht genauer spezifizierte weiter ausgreifende Vorhaben im gleichen Bereich gesehen. Insgesamt gibt es nur wenige, noch dazu relativ lockere Konzepte zu übergreifenden Vorhaben und so sind die bestehenden Projekte nicht so sehr funktionale Bestandteile für übergeordnete, als vielmehr eigenständige Unternehmungen, die auch in ihrer klaren Abgrenzung sinnvoll sein sollen. Bezeichnend ist hier das DFG-Meta-Projekt der "verteilten digitalen Forschungsbibliothek", mit der ein Fernziel angegeben ist, das den Gedanken der Einheitlichkeit und Kompatibilität einschließt, in dem die einzelnen Projekte aber dennoch ein hohes Maß an unterschiedlichen Lösungsansätzen aufweisen und damit eher neue Optionen evaluieren, als daß sie sich in ein festes Schema einfügen.
Will man diese Betrachtung unter den Begriffen "Metaprojekt", "stand-alone-Projekt" und "Modularisierung" zusammenfassen, so sind die gegenwärtigen Pilotprojekte i.d.R. als "stand-alone-Projekte" und nicht als Teile von Metaprojekten aufzufassen. Sie weisen aber umgekehrt angesichts ihres eigenen Umfanges oft eine Binnenmodularisierung auf: Die einzelnen Bereiche (z.B. Abbildung, Erschließung, Publikation) bleiben einigermaßen getrennt, und es werden vielfach Schwerpunkte gesetzt, um in bestimmten Bereichen eigenständige Lösungen zu erarbeiten oder zu ihnen beizutragen, während man andere Bereiche nicht mit der gleichen Intensität bearbeitet. Typisch hierfür sind z.B. Projekte, die versuchen, für Probleme der Erschließung im engeren Sinne technische Lösungen zu finden, den Bereich der Abbildung oder Publikation aber demgegenüber zunächst beiseite stellen. Ein zweites Beispiel sind Vorhaben, die in der Erarbeitung übergreifender Zugriffsmechanismen ihren Schwerpunkt haben und dafür die inhaltliche Seite nicht besonders betonen. Umgekehrt gibt es Projekte, die für spezielle inhaltliche Anforderungen nach Lösungen suchen, und sich dabei die Fragen nach Kompatibilität und gemeinsamen Standards nicht in gleichem Maße stellen.Der Kostenrahmen für Erschließungsvorhaben wird einerseits durch den - tendenziell großen - Umfang der Projekte, andererseits durch die verfügbaren Eigenmittel und die Förderpraxis externer Geldgeber bestimmt. Nur ganz wenige Projekte unterschreiten die Grenze von 200.000 DM, wenige liegen über einer Million, kaum eines kostet mehr als zwei Millionen. Das Gros der Projekte wird mit externen Geldmitteln zwischen 200.000 und 600.000 DM abgewickelt, wobei der Betrag, der durch Eigenmittel aufgebracht wird meistens nicht exakt zu benennen ist. Die Kosten für die digitale Erschließung sind deshalb relativ hoch, weil diese sowohl personalintensiv, als auch auf der technischen Seite anspruchsvoll ist. Digitale Erschließung beinhaltet ein hohes Maß an fachlich qualifiziertem Input, für den ebenso Spezialisten benötigt werden, wie für die Herstellung digitaler Abbildungen. Auf beiden Gebieten ist zwar für die Zukunft mit einer gewissen Automatisierung zu rechnen, diese steckt derzeit aber noch in den Anfängen.
Projekte zur digitalen Bestandserschließung werden nicht von Einzelpersonen durchgeführt. Andererseits bleibt es meistens bei einer relativ überschaubaren Zahl (weniger als zehn) hauptamtlicher Bearbeiter. Die Gründe dafür sind die gleichen, die schon für den spezifischen Umfang der Vorhaben angeführt wurden. Kennzeichnend ist die Mischung der Arbeitsgruppen hinsichtlich fachlicher Herkunft und Beschäftigungsstatus. Wollte man ein "Durchschnittsprojekt" konstruieren, so wären in ihm beschäftigt: ein bis zwei wissenschaftliche Mitarbeiter mit fachwissenschaflicher oder dokumentarischer (Bibliothekare, Archivare) Ausbildung bei halber Stelle, einige eigens für das Projekt eingestellte studentische Hilfskräfte, die eine oder andere Kraft im Rahmen einer Arbeitsbeschaffungsmaßnahme, Mitarbeiter von privaten Firmen (z.B. im Scanningbereich) und schließlich Angehörige oder Mitarbeiter von Rechenzentren, Informatik-Lehrstühlen oder andere EDV-Fachleute. Dazu kämen eine ganze Reihe von Leuten, die nicht eigens für das Projekt bezahlt würden, sondern im Rahmen ihres bestehenden Beschäftigungsverhältnisses Teile ihrer Arbeitszeit dafür verwendeten. Diese Gruppe wäre hauptsächlich mit Leitungsfunktionen, organisatorischen Fragen und inhaltlichen Problemen beschäftigt. Die Zusammenstellung der Bearbeiter variiert von Projekt zu Projekt, die Grundbeobachtung, daß es sich um eine ganze Gruppe von Personen mit den unterschiedlichsten fachlichen Vorkenntnissen, auf allen Qualifizierungsstufen und in diversen Typen von Beschäftigungsverhältnissen stehend handelt, ist aber fast durchgängig zu machen. Zu diesen Akteuren könnte noch eine andere Gruppe kommen: Angehörige von Verlagen, die für den Publikationsbereich zuständig wären und in den anderen Bereichen eine zumindest teilweise beratende Funktion wahrnehmen könnten. Zum gegenwärtigen Stand der Entwicklung kommen sie in der Praxis jedoch kaum vor. In manchen Projekten ist eine Zusammenarbeit mit Verlagen als grundsätzliche zukünftige Option zwar eingeschlossen, in ganz wenigen aber findet sie bereits statt.
2.1.3. Interdisziplinarität und Interinstitutionalität
Die Mischung der Arbeitsgruppen spiegelt eines der hervorstechenden Merkmale der digitalen Bestandserschließung wider: es ist ein Feld stärkster interdisziplinärer und interinstitutioneller Zusammenarbeit! Die institutsübergreifende Kooperation ergibt sich zunächst aus der Zusammenführung verschiedener Fachbereiche. In der Regel versuchen die beständehaltenden Einrichtungen, weitere fachwissenschaftliche Kompetenz, z.B. seitens universitärer Lehrstühle, oder technische Kompetenz, in der Regel seitens der Universitätsrechenzentren in das Projekt einzubinden. Interinstitutionalität bedeutet aber oft auch die Zusammenarbeit zwischen gleichartigen Institutionstypen, also z.B. mehreren Bibliotheken. Dies kann zwei Gründe haben: zum einen kann versucht werden, ähnliche technische oder methodische Probleme gemeinsam zu lösen; zum anderen gehen die zu erschließenden Bestände inhaltlich oft über die einzelne Bibliothek oder das einzelne Archiv hinaus. Der Grad der Zusammenarbeit reicht dabei von gegenseitiger Konsultation zu technischen Fragen oder zur Abstimmung über gemeinsame Standards und über die Ausleihe von fremden Teilbeständen zur Einbeziehung in das eigene Projekt(14) bis hin zu gleichberechtigter Kooperation in größeren Vorhaben, die ähnliche Bestände in verschiedenen Institutionen umfassen(15).
Die grundsätzliche Tendenz zur Konsortiumsbildung, sei es zwischen den unterschiedlichen Disziplinen, sei es zwischen ähnlichen Institutionen liegt in der Natur der Sache, wird aber auch von den externen Geldgebern gefördert. Ein Vergleich zwischen den eigen- und fremdfinanzierten Projekten zeigt, daß rein mit Eigenmitteln durchgeführte Projekte einen deutlich geringeren Grad an Kooperation aufweisen, als z.B. die DFG-geförderten. Dahinter können zwei - scheinbar gegensätzliche - Gründe stehen:
- Eigenfinanzierte Vorhaben sind oft weniger umfangreich und dienen teilweise etwas enger umrissenen Zwecken. Dadurch ist die Notwendigkeit eines hohen Maßes an Kooperation nicht in gleichem Maße gegeben. Das nötige zusätzliche Fachwissen wird hier nach Möglichkeit und in geringerem Umfang selbst erworben.
- Eigenfinanzierte Vorhaben dienen oft der nachhaltigen Umstellung der ganzen Arbeit einer Institution (in der Regel einer Forschungseinrichtung) und sind dazu sehr langfristig angelegt. In solchen Fällen werden meistens eigene Stellen für zusätzliche Fachleute geschaffen. Dies sind in der Regel Informatiker oder Techniker, es können aber auch dokumentarische Planstellen in wissenschaftlichen Einrichtungen sein.
Die so skizzierten Unternehmungen, die meistens stark auf ihre speziellen Anforderungen ausgerichtet sind oder nur für bestimmte Bereiche nach Lösungen suchen, bilden eine Minderheit der untersuchten Projekte. Die Mehrheit stellt die verantwortlichen Institutionen vor ein so großes Aufgabenspektrum, daß die Kooperation mit anderen oder verwandten Fachleuten, wie auch die Delegation von Aufgaben in starkem Maße kennzeichnend für die Entwicklung der digitalen Bestandserschließung ist. Dazu einige weitere Grundbeobachtungen:
Die Kommunikation zwischen gleichen Institutionen, aber auch zwischen den verschiedenen Fachdisziplinen nimmt in erfreulichem Maße zu, es bestehen aber nach wie vor an manchen Stellen erhebliche Schwierigkeiten im gegenseitigen Verständnis. Zunächst die positiven Entwicklungen: Durch die schnelle Publikation von Zwischenergebnissen im Internet ist eine gegenseitige Orientierung leicht möglich geworden. Es besteht eine hohe Bereitschaft, die eigenen Arbeitsmethoden offen zu legen und dazu auch darstellende Texte zu veröffentlichen. Dies geschieht im Rahmen einer kurzen Projektdokumentation, die fast immer vorgenommen wird. Zusätzlich stellen die wichtigsten fördernden Institutionen (DFG und VW-Stiftung) Kurzbeschreibungen "ihrer" Projekte öffentlich zur Verfügung(16). Der Austausch an Informationen wird auf Tagungen und Workshops gebündelt, die relativ häufig stattfinden und inzwischen sogar die verschiedenen Institutionstypen und Fachdisziplinen vereinigen.
Gemeinsame Tagungen von Bibliotheken und Archiven, von Informatikern, Technikern und Geisteswissenschaftlern sind neu und leider immer noch keine Selbstverständlichkeit. Deshalb auch ein Wort zu den Hemmnissen einer positiven Entwicklung: Die Teilbereiche der digitalen Bestandserschließung werden immer noch hauptsächlich in Workshops und auf Tagungen diskutiert, die sich an einzelne Institutionstypen oder Fachrichtungen wenden. Trotz zunehmend gleicher Probleme bleiben Bibliothekare, Archivare oder Vertreter einzelner Fachwissenschaften in der Regel noch unter sich. Dies ist einer effizienten Entwicklung nicht zuträglich und stellt sogar eine Gefährdung dar, wenn es z.B. um die Festlegung gemeinsamer Standards im technischen, mehr aber noch im methodischen und inhaltlichen Bereich geht. Nach wie vor ist festzustellen, daß die Kommunikation zwischen den einzelnen Akteuren im Feld der digitalen Bestandserschließung nicht ohne Störungen verläuft. Die fachliche Spezialisierung ist höher, als das überblickende Wissen über den gesamten Bereich. Dies erklärt, warum z.B. Bibliothekare und Archivare nur so schwer zu einer gemeinsamen Perspektive auf mitunter ähnliches zu erschließendes Material kommen. Dies erklärt aber auch die ganz praktischen Schwierigkeiten, die sich daraus ergeben, daß es den Fachdokumentaren und den Fachwissenschaftlern oft nicht gelingt, den Informatikern die speziellen inhaltlichen Anforderungen des Materials zu vermitteln, bzw. es umgekehrt den Informatikern nicht gelingt, den inhaltlich orientierten Fachleuten eine andere informationstheoretische Sicht deutlich zu machen, auf deren Grundlage technische Lösungen möglich sind.Dazu kommt, daß Projekte zur digitalen Bestandserschließung nicht in gleichwertiger Kooperation der unterschiedlichen Partner durchgeführt werden, sondern in einer Unterteilung von Leitdisziplinen und Hilfsdisziplinen. Die treibende Kraft hinter den Projekten sind immer entweder die beständehaltende Institution oder aber Fachwissenschaftler, die an einer inhaltlichen Erschließung und späteren Auswertung interessiert sind. Weder der publikationsorienterten Seite (z.B. den Verlagen) noch der informationstheoretischen Seite (z.B. Informatikern) ist es bisher gelungen, hier ein originäres Interesse für sich zu entdecken. Dadurch bleiben diese beiden Bereiche in Bezug auf die Entwicklung der digitalen Bestandserschließung unterbeleuchtet, mit negativen Auswirkungen auf eine umfassendere Perspektive. Bislang tragen die inhaltlich oder dokumentarisch orientierten leitenden Akteure ihre Anforderungen oft einseitig an die für Technik und Informatik zuständigen Kooperationspartner heran, ohne daß jene ihre originären Kompetenzen zu einem eigenständigen Beitrag entwickeln würden. Auf die Rolle der einzelnen Akteure und die damit verbundenen Probleme wird aber im Fazit nochmals einzugehen sein.
Wenn hier von Kooperation zwischen verschiedenen Fachleuten oder Institutionen die Rede ist, so muß diese weiter differenziert werden, in eine fachlich motivierte und eine geschäftliche. Verschiedene Aufgaben in Erschließungsprojekten werden nicht in wissenschaftlicher Kooperation, sondern durch privatwirtschaftliche Outsourcing-Prozesse gelöst. Diese Alternative der Übertragung von Arbeiten an sogenannte "externe Dienstleister" kann in allen drei Teilbereichen der digitalen Bestandserschließung angewandt werden. Am stärksten verbreitet ist sie bei der Herstellung digitaler Repräsentationsformen, am geringsten bei der Erhebung von erschließenden Daten. Aber auch im Bereich der Publikation ist eine Zusammenarbeit mit Verlagen und ihren ökonomischen Interessen möglich. Die jeweiligen Formen des Outsourcing, ihre Verbreitung und ihre Vor- und Nachteile werden in den einzelnen Unterkapiteln näher beleuchtet werden.
Durch den Schwerpunkt dieser Untersuchung auf dem deutschsprachigen Raum und seinem großen Anteil von Projekten aus einem bestimmten Förderprogramm der DFG, ist hier auch noch auf eine spezielle Form von Zusammenarbeit hinzuweisen, die ansonsten eher untypisch für das Forschungsgebiet wäre. Schaffen die meisten Projekte sich nämlich tendenziell ihren eigenen umfassenden Rahmen, so hat die DFG nicht nur mit ihren sehr detaillierten Förderrichtlinien, sondern auch mit der Einrichtung von zwei "Kompetenzzentren"(17) auf eine besondere Zusammenarbeit zwischen den Projekten hingewirkt. Dies betrifft sowohl die allgemeine Information über methodische und technische Lösungsansätze, als auch die gemeinsame Entwicklung von Software oder die Auslagerung von bestimmten Teilaufgaben an die Kompetenzzentren in Göttingen und München. Unter dem Dach des DFG-Programmes werden diese so zu zusätzlichen Dienstleistern für andere Projekte, für die sie z.B. die Archivierung, die zentrale Entwicklung von Software zur Verwaltung und Publikation oder eben die Veröffentlichung der Ergebnisse übernehmen können.
Das Maß der Kooperation oder Abgeschlossenheit in der Durchführung von Erschließungsprojekten hängt noch von weiteren Parametern ab. Hier ist unter anderem die Art des Bestandes zu beachten. In sich abgeschlossene, vollständige oder gar einzigartige Bestände legen keine institutsübergreifende Zusammenarbeit nahe. Dagegen ziehen Bestände, die in ähnlicher Weise auch anderswo vorliegen oder thematisch orientierte Erschließungsvorhaben fast zwangsläufig eine Einbeziehung anderer Institutionen nach sich. Außerdem spielt bei der Zusammenarbeit mit anderen das Ziel der Erschließung eine Rolle. Dies ist zunächst oft der eigene Bestand und seine Verfügbarkeit. Es zeigt sich aber eine gewisse Eigendynamik, einmal entwickelte Methoden und Verfahren für einen bestimmten Bestand auf inhaltlich gleichartige Bestände anderer Institutionen auszuweiten bzw. umgekehrt, in einem zweiten Schritt diese fremden Bestände in das eigene Erschließungsvorhaben mit einzubeziehen.
2.1.4. Finanzierung
Pilotprojekte in der digitalen Bestandserschließung sind tendenziell sehr umfangreich und aufwendig. Darauf, wie auf ein typisches Kostenvolumen von 200.000 bis 600.000 DM wurde schon hingewiesen. Mittel in dieser Größenordnung werden in den seltensten Fällen allein von der projekttragenden Institution aufgebracht. Fast immer stehen dahinter öffentliche Fördergelder, sei es aus Stiftungen oder aus dem staatlichen Bereich. Für 51 Projekte dieser Untersuchung lagen genaue Zahlen vor, die angesichts der dominierenden Schwerpunktprogramme zweier Organisationen eine wenig überraschende Verteilung von 28 DFG-geförderten, 13 VW-Stiftungs-geförderten und 12 von anderen Einrichtungen geförderten Projekten ergab. Zwar existiert auch eine signifikante Zahl von Projekten, die ausschließlich mit Eigenmitteln durchgeführt werden, und alle anderen tragen ebenfalls zumindest teilweise selbst zur Finanzierung bei. Es dürfte aber nicht zu hoch gegriffen sein, wenn man davon ausginge, daß 2/3 aller Gelder von öffentlichen Fördereinrichtungen aufgebracht werden.
Der direkte Beitrag staatlicher Stellen ist dagegen erstaunlich gering. Obwohl auf allen Ebenen staatlicher Organisation bis hin zur EU häufig die Rede von der "Informationsgesellschaft" ist und von dem Willen, deren Ausbildung in allen Bereichen aktiv zu stimulieren, konnte nur für drei Projekte eine Beteiligung seitens der Bund- oder Länderregierungen oder seitens der EU festgestellt werden. Dabei gibt es hier eine relativ große Zahl von Förderprogrammen, die den Bereich der digitalen Bestandserschließung durchaus abdecken würden(18). Die Gründe, warum beides nicht zusammenkommt, sind vielfältig, ich nenne hier nur die wichtigsten:
- Die kommerzielle Verwertbarkeit (von Erschließungsprojekten) wird von den staatlichen Förderprogrammen betont, ist seitens der potentiellen Antragsteller aber selten vorrangiges Ziel. Dazu kommt die Zurückhaltung der Verlage, mit deren Einbindung sowohl der kommerzielle Aspekt augenfällig dokumentiert werden könnte, als auch der Zielvorstellung engerer Zusammenarbeit von Wissenschaft und Industrie entsprochen würde.
- Die Erreichung des Publikums, Stimulierung und Befriedigung von Nachfrage. Hier wirkt sich der grundsätzlich wissenschaftliche Anspruch, sowie die geringe Bereitschaft, den Schwerpunkt eines Projektes auf den Aspekt der Publikation und des Erreichens des Benutzers zu legen, hemmend für die Erfüllung dieser Forderung aus.
- Die technische Innovation. Die Organisation der Förderprogramme wird in der Regel an naturwissenschaftliche oder informationstechnologische Einrichtungen und Gremien delegiert, welche die Mittelvergabe auch unter dieser Perspektive vornehmen. Die besonderen technischen Anforderungen geisteswissenschaftlichen Quellenmaterials oder Strategien zur Erschließung umfangreicher und disparater bildlicher und textlicher Informationsmengen entsprechen nicht den dort vorherrschenden Vorstellungen von technischer Innovation.
- Die Größe der Projekte. Obwohl tendenziell groß und institutionsübergreifend, unterschreiten potentielle Anträge oft noch die Vorstellungen der staatlichen Förderer. Gerade die EU-Programme sind auf sehr große Projekte ausgelegt, die dann oft eher die institutionelle Zusammenarbeit und die Schaffung übergeordneter Strukturen, als die konkrete Materialerschließung im Auge haben.
Im allgemeinen sollten Projekte zur digitalen Bestandserschließung gut in das EU-weite Schlagwort von der Verbesserung der "kommerziellen Nutzbarkeit des kulturellen Erbes" passen. Für einige Länder, wie Frankreich, England oder Italien(19) scheint diese Parole auch bei einigen Projekten eine Rolle zu spielen. Diese sind dann aber teilweise so stark auf ein breites Publikum und nicht auf die Entwicklung neuer Erschließungsmethoden und dazu passender technischer Lösungen ausgerichtet, daß sie hier nicht berücksichtigt wurden(20). In Deutschland ist das Argument kaum zu hören. Außer im Bereich der Museen scheint hier immer noch eine Abgrenzung von Wissenschaft und Publikum vorrangig zu sein.
Mit den Verlagen fällt ein potentieller Beiträger zur Finanzierung von Projekten zur digitalen Bestandserschließung fast völlig aus. Bis auf ganz wenige Ausnahmen gibt es keine Verlagsunternehmen, die aktiv an Erschließungsprojekten beteiligt wären. Es sind zwar durchaus etliche grundsätzlich daran interessiert, fertig vorliegende Ergebnisse mit möglichst geringem eigenen Aufwand z.B. auf CD-ROM zu publizieren und zu vertreiben, aber von einem nahenden Durchbruch kann keineswegs gesprochen werden. Zu groß ist noch die Unsicherheit über die Rentabilität aufwendigerer Publikationen und so werden allenfalls CDs mit einer sehr schlichten Benutzeroberfläche produziert, die möglichst direkt aus dem Erschließungsprojekt zu übernehmen sind. Hemmend kommt allerdings auch hinzu, daß die weitere Entwicklung des elektronischen Kommerzes im Internet noch nicht absehbar ist und so nehmen fast alle Verlage bislang eher eine abwartende Haltung ein.
Die Frage der Refinanzierung von Erschließungsprojekten durch die Kommerzialisierung ihrer Ergebnisse wird in vielen Projektkonzeptionen zwar aufgeworfen, selten aber ernsthaft angegangen oder gar praktisch erprobt. Eine konkrete Zusammenarbeit mit Verlagen ist die Ausnahme und auch andere Verfahren, durch die Einnahmen zu erzielen wären, werden kaum angewandt. Dabei gibt es durchaus eine ganze Reihe unterschiedlicher Modelle, vom Eigenverlag von ausgestalteten CD-ROMs, über Internet-Abonnement-Systeme, die Lieferung von gesonderten Ausdrucken oder CDs auf Anforderung, bis hin zu anderen Benutzungsgebühren. Auf die einzelnen Verfahren wird später einzugehen sein. Für die Frage nach der Refinanzierung von Erschließungsprojekten spielen sie eine zu vernachlässigende Rolle, was teilweise an deren Charakter als Pilotprojekten liegen mag, die zunächst eher der Prüfung der technischen und methodischen Machbarkeit dienen.
Eine Einbeziehung erschlossener Bestände in ein späteres umfassendes Entgeltsystem ist jedoch nicht grundsätzlich ausgeschlossen, sondern steht in den meisten Projekten nur temporär im Hintergrund. Gegen eine sofortige Einführung von Gebühren spricht in vielen Fällen auch, daß es sich um öffentliche oder wissenschaftliche Einrichtungen handelt, die gehalten sind, einen großen Teil ihrer Dienste kostenfrei anzubieten. Auch fördernde Institutionen setzen dies teilweise voraus, wobei deren Haltung (bzw. Förderprogramm) zuweilen nicht ganz eindeutig ist und manchmal sogar widersprüchliche Wünsche nach kostenfreier Verfügbarkeit mit der Ermunterung zur Zusammenarbeit mit Verlagen und zur Entwicklung von Gebührensystemen enthält.
2.1.5. Datenarchivierung
Einer der oft kritisch angemerkten offenen Fragen im Bereich der digitalen Bestandserschließung ist diejenige, nach der langfristigen Benutzbarkeit und Archivierbarkeit der gewonnenen digitalen Daten. Zu beiden Punkten sind bislang keine endgültigen Antworten möglich. Das Bewußtsein für das Problem ist aber sehr weit verbreitet, und es gibt unterschiedliche Konzepte, wie mit ihm umzugehen sei. Zunächst ist zu beachten, daß es sich bei der Zukunftssicherheit letztlich um zwei ganz unterschiedliche Probleme handelt: zum einen um die physische Stabilität der Datenträger und zum anderen um die Lesbarkeit von Daten und die Benutzbarkeit von Softwareanwendungen angesichts des rapiden technischen Wandels.
Die rein physikalischen Probleme betreffen die Lebensdauer der Speichermedien. Dies sind derzeit hauptsächlich CD-ROMs, teilweise aber auch Magnetbänder oder Festplattenlaufwerke. Über deren Haltbarkeit liegen noch keine gesicherten Angaben vor und so wird z.B. die geschätzte Lebensdauer von CDs mit einer Spanne von 20 bis zu 100 Jahren angegeben. Ein hohes Maß an Unsicherheit ist die Folge, gesteigert noch durch schlechte Erfahrungen mit den Speichermedien der Vergangenheit. Zu erinnern ist hier nur an Dinge wie Lochkarten, alte Magnetbandsysteme oder 8-Zoll-Disketten, die heute allein deshalb nicht mehr lesbar sind, weil die Lesegeräte nicht mehr zur Verfügung stehen. Aber selbst wenn die Maschinen noch vorhanden sind, haben die Daten (z.B. auf CDs) keine allzu hohe Lebensdauer, weil das Medium nicht über einen langen Zeitraum physisch stabil ist. Im Bereich der Datenformate besteht ein ähnliches Problem: selbst wenn die Grunddaten noch physisch lesbar sind, stellt sich die Frage, ob die Programme, für welche die Daten formatiert sind noch existieren und ob sie auf den aktuellen Computern noch lauffähig sind. Dies alles stellt für Bibliothekare und Archivare einen Alptraum dar, da ihre Aufgabe auch in der langfristigen Sicherung und Verfügbarkeit ihrer Bestände liegt. Vom Medium Papier sind sie es gewöhnt, Informationen scheinbar unbegrenzt und unabhängig von jeder äußeren technischen Entwicklung sichern zu können, auch wenn diese Aussage angesichts der Probleme mit säurehaltigem Papier zu relativieren ist und sich hier zeigt, daß das Problem älter als die elektronische oder magnetische Speicherung von Daten ist.
Es lassen sich grob vier derzeit diskutierte Konzepte unterscheiden, wie mit diesen Schwierigkeiten umgegangen werden kann. Ich nenne sie "Konservierung", "Migration", "Emulation" und "Archäologie". Alle sind relativ zur unbekannten weiteren Entwicklung der Technik und haben deshalb den Charakter von mittelfristigen Überlegungen.
- "Konservierung". In einigen Ländern gibt es Bestrebungen, ältere Computer, Speichermedien und Lesegeräte exemplarisch und zentral zu sammeln und dauerhaft lauffähig zu halten. Dies geschieht z.B. in manchen Technikmuseen. So wichtig dies auch ist, um bestimmte Datenbestände eines Tages noch auf neuere Träger umkopieren zu können, so wenig kann es eine allgemeine Lösung sein. Weder löst es das Problem der physischen Lebensdauer von Datenträgern wie Disketten oder CD-ROMs, noch entspricht es der Aufgabenstellung von Bibliotheken und Archiven, die für ihren jeweiligen institutionellen Bereich die Sicherung und Benutzbarkeit der Daten gewährleisten wollen. Langfristig stellt sich außerdem die Frage, ob solche alten Daten über die zahlreichen Rechnergenerationen hinweg auch mit diesem System überhaupt noch konvertierbar und benutzbar sein werden.
- "Migration" ist das naheliegendste Mittel und bezeichnet das Umkopieren der Daten bei einem Wechsel der Speicher-, Hardware- oder Softwaregeneration(21). Dies müßte sinnvoller Weise immer dann geschehen, wenn ein neuer Standard etabliert ist, wird aber in der Praxis oft erst dann vorgenommen, wenn die alte Generation kurz vor der Unbrauchbarkeit steht. Die stärkste Kritik an diesem Verfahren richtet sich gegen die damit verbundenen Kosten, die auf den ersten Blick mit den exponentiell wachsenden Datenmengen ebenfalls unkontrolliert ansteigen müßten. Entscheidend für den Aufwand ist aber nicht die Menge der Daten, sondern die Frage, inwieweit menschliche Arbeit erforderlich ist, um ein Umkopieren von einem Speichermedium auf ein anderes oder eine Konversion in ein anderes Datenformat durchzuführen. Hier ist von einem hohen Automatisierungspotential auszugehen, so daß langfristig das Konzept der Migration zwar möglicherweise aufwendig, aber durchführbar bleiben könnte.
Migration ist ein doppelter Prozeß, weil er sowohl das physische Speichermedium, als auch das Datenformat der Informationen betrifft. Auch der zweite Punkt ist kritisch: Nicht alle Programme werden weiter entwickelt, und viele werden eines Tages nicht mehr lauffähig sein. Eine Migration der Daten in aktuelle Softwareformate kann deshalb schwierig sein und im schlimmsten Fall zur vollständigen Unbrauchbarkeit elektronisch gespeicherter Informationen, im zweitschlimmsten Fall zum teilweisen Verlust von Informationen (beim Konvertieren) führen.- "Emulation" ist ein Konzept, das explizit am Problem der Abwärtskompatibilität ansetzt. Dabei werden ältere Betriebssysteme auf der aktuellen Rechnergeneration "simuliert", so daß auch ältere Software benutzbar bleibt. Eine wirkliche Hardwareemulation ist jedoch nicht möglich, so daß das Problem der Lesegeräte nicht gelöst werden kann. Auch die Lebensdauer der Speichermedien spielt in diesem Konzept keine Rolle.
- "Archäologie" bezeichnet ein relativ neues und für viele ketzerisches Konzept, das die permanente unmittelbare Verfügbarkeit aller elektronisch gespeicherten Daten in Frage stellt. Es geht davon aus, daß digitale Daten auf einem physisch langlebigem Träger gespeichert werden - unter Umständen kann dies den Ausdruck auf Papier bedeuten - und dann in traditioneller Weise archiviert werden. Sollte in Zukunft jemand Interesse an den Daten haben, so bliebe es ihm selbst überlassen, geeignete Werkzeuge zu entwickeln, um sie wieder benutzbar zu machen. Das klingt zunächst absurd, weil es der Idee der permanenten Verfügbarkeit digitaler Daten widerspricht, ist aber, abgesehen von dem mit der Rekonstruktion von Format und Softwareumgebung verbundenen hohen Aufwand, wohl nicht gänzlich unmöglich.
Inzwischen deuten sich allerdings Tendenzen in der Entwicklung der Computertechnik an, die zu einer Änderung der Grundbedingungen führen könnten und das Problem zumindest entschärfen dürften. Einerseits geht der Trend zu großen Massenspeichern, die relativ leicht umzukopieren sind, auf der anderen Seite gewinnen Standards und Grundformate immer mehr an Bedeutung, die auch im Wechsel der Hardwarespezifikationen relativ stabil bleiben können. Dies betrifft die verwendeten Zeichensätze, für die mit Unicode ein allgemeiner Standard in Aussicht ist, der ASCII ablösen wird, dies betrifft strukturelle Informationen, die in standardisierten Markup-Sprachen codiert werden (SGML, XML, HTML), dies betrifft die Bildformate, für die sich mit TIFF ein nicht-proprietärer, plattformunabhängiger Standard durchgesetzt hat, dies betrifft aber letztlich auch andere Datei-Austauschformate für verschiedene Arten von Software. Es besteht deshalb die Hoffnung, daß Hard- und Softwareentwicklungen nicht mehr in gleichem Maße die Formatierung der Daten betreffen und daß bei einem Wechsel der Standards Abwärtskompatibilität gewährleistet ist oder zumindest mächtige Konversionswerkzeuge allgemein zur Verfügung stehen werden.
Für den Bereich der digitalen Bestandserschließung ist festzustellen, daß von den oben genannten Konzepten nur das der kontinuierlichen Migration in Frage kommt, weil die Daten für eine permanente Benutzung vorgesehen sind und auch der Erschließungsprozeß in den meisten Fällen nicht als abgeschlossen betrachtet wird, in dem Sinne, daß zumindest jederzeit Änderungen und Ergänzungen möglich sein sollten. Das Bewußtsein für die Frage nach der langfristigen Nutzbarkeit ist insgesamt hoch entwickelt, und so wird in fast allen Projekten Wert darauf gelegt, nach Möglichkeit weit verbreitete Standards zu verwenden. Für die benutzten Programme im Bereich der Verwaltung repräsentierender und beschreibender Daten ist damit die Forderung nach standardisierten Exportformaten verbunden. Für die Bild- und Textdaten wird ebenfalls Wert auf allgemeine, nicht-proprietäre und plattformunabhängige Dateiformate gelegt.
Die eigentliche Archivierung geschieht hier außerdem in nicht-komprimierten Formaten. Dies entspricht der Trennung der Daten in einen "Master" und in Arbeitskopien, die in der Regel auch in anderen, leichter zu bearbeitenden und zu publizierenden Formaten gehalten werden. Die Archivierung der "Masterdaten" wird in der Regel in der Institution vorgenommen, welche die Erschließung vornimmt - eine Ausnahme bilden nur Projekte im Bibliotheksbereich, die die Archivierung ihrer Daten den Kompetenzzentren der DFG übertragen. Die Archivierung im Hause ist trotz der Existenz zahlreicher Privatunternehmen, welche die Archivierung digitaler Daten anbieten, für fast alle Projektbetreiber naheliegend, weil sie ohnehin über entsprechende Hardware verfügen müssen um die Erschließung durchzuführen, selbst traditionell Archivierungsfunktionen ausüben und auf einen permanenten Zugriff auf das Material angewiesen sind. Es können deshalb nur Kopien der Daten zu Sicherungszwecken ausgelagert werden und dies geschieht auch in einigen Fällen. In der Regel sind dies Kooperationsprojekte in denen die verschiedenen Partnerinstitutionen jeweils Kopien archivieren.
2.2. Die Bestände
2.2.1. Bestandsarten
Welche Arten von Beständen sind Gegenstand aktueller Erschließungsprojekte? Die einfache Antwort lautet: alle Arten von Beständen! Alles, was an geisteswissenschaftlich relevantem Material in bewahrenden Institutionen vorliegt, kann grundsätzlich Gegenstand einer Erschließungskampagne sein. Darin liegt ein wesentlicher Unterschied zu der bisherigen Tradition der Informationserschließung. Richtete sich diese in der Regel nur auf wenige Typen von Dokumenten, so rückt nun stärker die ganze Breite der Informationsträger ins Blickfeld der Forschung. Bildeten bisher vor allem auf Papier vorliegende, strukturell gleichartige und primär textorientierte Quellen das Paradigma der Erschließung, so gewinnen nun ganz unterschiedliche und oft auch sehr unstrukturierte Bestände an Bedeutung. Es zeigt sich deutlich, wie die traditionelle Methodik der Erschließung und Publikation, die vor allem an textlicher Information und deren Ausdruck oder Niederschrift auf Papier orientiert war, eine selektive Wahrnehmung von Quellenbeständen bewirkte und wie jetzt Veränderungen in eben diesen Feldern der Methodik der Erschließung und Publikation auch eine andere Perzeption der vorhandenen Bestände zur Folge hat. Erweiterte Möglichkeiten der Informationsverwaltung erlauben die effizientere Bearbeitung relativ komplex strukturierter Quellen und das abgegriffene Wort "Multimedia" erfährt hier doch noch eine sinnvolle Deutung, als Öffnung zu den verschiedenen medialen Formen von Informationen. Angesichts der nachfolgenden Übersicht zeigt sich, daß textorientierte Bestände im weitesten Sinne immer noch vorherrschend sind, daß sich darunter aber auch solche Typen befinden, die mit bisherigen Methoden nicht adäquat zu bearbeiten waren(22). Dazu kommt die erhöhte Beachtung, die bildliche Quellen (bis hin zu Filmen) finden und die erst jetzt umfassend mögliche Erschließung (und gleichzeitige Wiedergabe) von Audioquellen. Ansatzweise waren auch solche Bestände natürlich schon immer erschließbar. Sie waren es aber aufgrund der Inkompatibilität von Erschließungsverfahren (textliche Beschreibung) und zu erschließendem Bestand nur in sehr "flacher" Weise, mit entsprechenden Auswirkungen für ihre Benutzung bzw. Nichtbenutzung.
Auch der gegenwärtige Stand der technischen Möglichkeiten ist historisch relativ, und so bedeutet die Ausweitung des Erschließungsspektrums nur eine Tendenz und keinen Endzustand. Mit der stärkeren Einbeziehung der zweidimensional visuellen, teilweise auch der hörbaren Komponente von Quelldokumenten sind nicht unbedingt alle möglichen Informationsebenen abgedeckt. Die materielle Komponente ist noch reine Phantasie, aber die dreidimensionale Abbildung zeigt z.B., zumindest in ihrer Simulation, einen möglichen weiteren Schritt an, der nur aufgrund der beschränkten technischen Möglichkeiten derzeit keine Rolle spielt. An Beständen archäologischer Funde läßt sich diese Entwicklung gut illustrieren: auf die Erschließung durch textliche Beschreibung folgt nun die Ergänzung durch möglichst genaue Abbildungen und in Zukunft möglicherweise ihre dreidimensional simulierte Abbildung und die Verknüpfung mit dem rekonstruierten dreidimensionalen Fundzusammenhang.
Die nachfolgende Tabelle gibt einen Überblick über die unterschiedlichen Bestandsarten und ihr Vorkommen in der Untersuchungsmenge(23):
1. Text Gedruckt/Typographisch
(hauptsächlich Bibliotheksmaterial)Bücher 11 Periodika 6 Vermischtes und sonstiges 4 Handschriftlich/Typographisch
(hauptsächlich Archivmaterial)vermischte Archivalienbestände 12 Kodizes 3 Fragmente 1 Inschriften 1 Briefe 2 Akten und Aktenähnliches 4 Nachlässe 3 Exzerpte, Zettel, Belegstellen 6 Noten 1 2. Bild, Realie einzelne Bilder Gedruckt 4 Fotografien 6 Zeichnungen, Gemälde, Landkarten etc. 4 Film 2 3. Ton Tonbandaufnahmen 2 4. Vermischtes 1 Auf die Tendenz zur Einbeziehung von Beständen, die sich auf mehrere Institutionen verteilen, wurde bereits hingewiesen. Bei einer Auszählung der untersuchten Projekte zeigt sich, daß sich zwar 39 Unternehmungen auf Material beschränken, welches sie auch selber vollständig besitzen, daß aber immerhin 25 Projekte auf Beständen beruhen, die über die antragstellende Institution hinausgehen und teilweise nicht nur eine zweite sondern eine ganze Reihe von Einrichtungen umfassen, die mehr oder weniger eng in die Arbeiten eingebunden sind. Acht Projekte beschränken sich in einer ersten Phase auf eigenes Material, planen aber anschließend auch fremde Bestände mit einzubeziehen, die thematisch in den gleichen Bearbeitungsbereich fallen. Da in der Regel für einen Bestand je nach speziellen Anforderungen des Themas oder des Materials ein eigenes Verfahren zur Erschließung entwickelt wird, ist dessen anschließende Übertragung auf weitere Dokumente nur naheliegend.
Die Bestände lassen sich auch nach ihrem "Geschichtszeitraum" differenzieren, worunter jene Zeit verstanden werden kann, über die das Material spricht und nicht jene, in der es entstanden ist. Bis auf wenige Ausnahmen sind die beiden Zeiträume aber ohnehin identisch. Hier zeigt sich ein Schwerpunkt in der frühen Neuzeit und der Neuzeit, wobei Material des 20. Jahrhunderts zwar ebenfalls stark vertreten, im Vergleich zum Vorhandenen und zum zu erwartenden Interesse des Publikums aber unterrepräsentiert scheint. Die Gründe für die Verteilung dürften für die früheren Perioden in der dünneren Überlieferung liegen, während für das 20. Jahrhundert eine ganze Reihe von Gründen zu geringerer Beachtung führen: Hier spielt der Bestandsschutz eine weniger gewichtige Rolle, die optische Informationsebene ist oft nicht in gleichem Maße relevant, und die Bestände sind vielfach bereits erschlossen. Tabellarisch zusammengefaßt ergibt sich folgende Verteilung(24):
Ohne spezifischen Geschichtszeitraum oder umfassend: 2 Antike: 4 Mittelalter: 11 16./17. Jahrhundert: 10 18./19. Jahrhundert 26 20. Jahrhundert 18
2.2.2. Auswahl
Nach welchen Kriterien wurden und werden Bestände für aktuelle Projekte der digitalen Bestandserschließung ausgewählt? Da fast alle Vorhaben auf eine externe Förderung abzielen, spielen hier die Vorgaben der fördernden Einrichtungen eine maßgebliche Rolle. Wäre dies nicht der Fall, so wäre zu vermuten, daß entweder die Nachfrage der Benutzer, der Wunsch nach möglichst vollständiger und gleichmäßiger Erschließung der eigenen Bestände oder spezielle wissenschaftliche Fragestellungen begründend für Erschließungsmaßnahmen wären. In der Praxis der notwendigen Antragstellung werden diese Motive mit weiteren Parametern verknüpft, die von den Fördereinrichtungen mehr oder weniger "gefordert" werden. Im Falle der kaum wahrgenommenen staatlichen Programme war zu sehen, daß nicht unbedingt alle Parameter "angenommen" werden. Bei den beiden wichtigen Förderschwerpunkten von DFG und VW-Stiftung zeigt sich diese Verknüpfung bei einem Blick auf die Projektbeschreibungen und die Begründung der Bestandsauswahl aber ganz deutlich.
Während es der VW-Stiftung in einem allgemeinen kulturell-wissenschaftlichen Ansatz darum ging, bislang wenig beachtete Bestände einer besseren Wahrnehmung und Nutzung zu öffnen, versucht die DFG das Feld der digitalen Erschließung mit allen ihren Nebeneffekten systematisch zu bereiten. Daß beides zu ähnlichen Ergebnissen führt, liegt an inhärenten Faktoren der neuen Methode "digitale Erschließung". Für die Aspekte der Vorgehensweise, der Beteiligung unterschiedlicher Akteure, der digitalen Repräsentation der Bestände oder der Publikationsweisen wurde oder wird dies an anderer Stelle erläutert. Ähnliche Auswirkungen hat die digitale Bestandserschließung trotz unterschiedlicher Zielsetzungen der Förderprogramme aber auch schon im Bereich der Auswahl der Bestände. Hier geht die "typische" Begründung von der Betonung des einzigartigen Wertes sowie seiner hohen kulturellen und wissenschaftlichen Bedeutung aus und verknüpft sie mit den neuen Möglichkeiten der digitalen Erschließung, die jetzt endlich eine adäquate, zumindest aber deutlich bessere Aufarbeitung möglich machen würde. Dies zielt teilweise auf die physische Gefährdung des Materials, die durch digitale Repräsentation verringert werden soll, häufiger aber auf die besonderen Vorteile digitaler Erschließung, was die bessere Benutzbarkeit auch sehr schwieriger Bestände angeht, die bislang nicht zufriedenstellend erschließbar waren.
Im Bereich der DFG kommt noch der Versuch hinzu, das Arbeitsgebiet in systematischer Weise zu entwickeln. Die bereits erwähnten allgemeinen Argumente werden hier noch durch den ausdrücklichen Wunsch ergänzt, die Kooperation zwischen beständehaltenden Institutionen und Fachwissenschaftlern, aber auch zwischen den bewahrenden Institutionen selbst zu fördern und organisatorische Grundstrukturen der Zusammenarbeit aufzubauen. Zu diesem organisatorischen Aspekt kommt ein technischer. Es besteht das Anliegen, die ganze Breite der möglichen (und möglichst schwierigen) Anforderungen, die sich durch die Quellenbestände ergeben, auf ihre technische Machbarkeit hin auszuloten. Dies reicht von der Digitalisierung von Bild (oder Ton) und Text, über die Frage der Strukturierung und Verwaltung der Metadaten, bis hin zur Publikation der Ergebnisse.
Alle genannten Gründe zusammengenommen führen in der Summe der Pilotprojekte zu folgendem Bild: Die Bestände sind tendenziell sehr umfangreich, auf jeden Fall aber sehr "ungewöhnlich". Was soll das heißen? Diejenigen Bestandsarten, die traditionell in Bibliotheken und Archiven die normale Erschließungsarbeit bestimmen sind gegenwärtig nicht das Ziel digitaler Erschließungsprojekte. Hier werden statt dessen mit Vorliebe solche Bestände ausgewählt, die bislang eher unbeachtet geblieben sind. Das können z.B. Bestände mit stark bildlichem oder Audio-Charakter oder aber "virtuelle" Bestände sein, die sich erst durch einen thematischen Ansatz ergeben und nicht physisch geschlossen in einer Institution vorliegen. Dies betrifft aber auch den Bereich der "Druckwerke" und Archivalien, die in der Übersichtstabelle noch einen großen Anteil auszumachen scheinen. Dahinter verbergen sich ebenfalls Bestände, die sich durch die oben aufgezählten Besonderheiten auszeichnen. Für Bücher und Periodika bedeutet das z.B., daß sie besonders alt, selten, physisch gefährdet oder verstreut lagernd und schwer erreichbar sind. Außerdem sind es tendenziell "komplexe" Bestände, was auch für die "vermischten" Archivalien gilt, bei denen eben oft ihre Vermischtheit die spezielle Anforderung bildet, die sie zum Versuchsobjekt neuartiger Erschließungsformen qualifiziert. Dazu kommt, daß es Bestände sind, die - zumindest im Bereich der DFG-Projekte - besondere technische Schwierigkeiten aufwerfen, sei es, daß sie einfachen Scanning-Verfahren nicht zugänglich sind, sei es, daß spezielle Verfahren der Verwaltung der beschreibenden Daten erst entwickelt werden müssen oder sich besondere Aufgaben für eine komplexe Organisation der Projekte (z.B. im Sinne einer verteilten Erschließung oder Bereitstellung) ergeben. Insgesamt spielt für das Projektspektrum die Diversifikation der Bestände neben ihren besonderen methodischen und technischen Anforderungen eine große Rolle. Dies mag an inhärenten Faktoren der neuen Verfahren liegen, an der Auswahl der DFG, der VW-Stiftung oder anderer Förderer oder aber daran, daß man mit "exotischen" Projekten eher eine Nische der Aufmerksamkeit zu finden hofft. Die Unterschiedlichkeit der Bestände ist im Sinne einer "Pilotphase" des Arbeitsgebietes sicher positiv zu bewerten, während die Fokussierung auf technische Aspekte, besonders im Bereich der digitalen Abbildung und die eher schwache Orientierung am Benutzer kritische Fragen offen läßt.
Für die Bestandsauswahl ergibt sich ein ambivalentes Fazit. Einerseits ist es irritierend, daß Bestände erschlossen werden, scheinbar weil sie inhaltlich und technisch anspruchsvoll sind und nicht, weil sie in besonderem Maße gebraucht und nachgefragt werden, obwohl doch mit den neuen Verfahren Benutzung und Nachfrage stimuliert werden sollen. Andererseits liegt genau in diesem letzten Punkt ein weiterer Ansatz zur Erklärung und Rechtfertigung: Es werden Bestände ausgewählt, die bislang kaum genutzt wurden, eben weil sie so schwer zu erschließen waren, und bei denen man deshalb den deutlichsten Gewinn für den Benutzer erzielen und ihn so auch am ehesten zu neuen Nutzungsformen hinführen zu können hofft.
2.2.3. Umfang
Gegenstand derzeit laufender Erschließungsprojekte sind äußerst umfangreiche Bestände. In der Minderheit sind es Projekte, die nur an einer kleinen Auswahl eines Bestandes die Durchführbarkeit erproben. In der Regel zielen sie auf erhebliche Massen an Material, die schon mit herkömmlichen Verfahren einen großen Arbeitsaufwand bedeutet hätten, wegen der tendenziell tieferen Erschließung nun aber noch größere Anforderungen mit sich bringen. Zu nennen sind z.B. Projekte mit 40.000 orientalischen Handschriftenfragmenten, 100 laufenden Metern Archivmaterial, 150.000 Druckseiten Musiknotation, 250.000 Seiten aus Zeitschriften des 18./19. Jahrhunderts, 500 Stunden Tonbandaufnahmen, 290.000 Filmmetern, 2,5 Millionen Belegzetteln, 1,25 Millionen gedruckten Seiten zu einem bestimmten thematischen Bereich oder 1,3 Millionen Fotografien(25).
Dies mag auf den ersten Blick verwundern, könnte man doch annehmen, daß es in einer Phase der Entwicklung und Erprobung eher darum ginge, an überschaubarem Material in relativ kurzer Zeit einzelne Erschließungsverfahren auszuloten, deren Ergebnisse dann auf andere Vorhaben "hochgerechnet" werden könnten. Wieso ist in vielen Fällen, wo gerade der enorme Umfang des Materials die Durchführung erschweren dürfte, das Gegenteil zu beobachten? Man kann vier Faktoren unterscheiden, von denen aber einer der wesentliche sein dürfte.
- Zunächst impliziert der Gedanke des "Bestandes", daß es sich um eine große Menge an Dokumenten handelt. Will man digitale Verfahren hier ernsthaft entwickeln und ihre Praxistauglichkeit unter Beweis stellen, so muß man auch realistische Szenarien wählen, das heißt Mengen, mit denen man es jenseits der Pilotprojekte auch zu tun haben wird. Wenn hier bereits am Anfang Vorhaben aus dem "oberen Machbarkeitsbereich" ausgewählt werden, so folgt dies der Vorstellung, daß wissenschaftliche Projekte auch der Erforschung von Neuland dienen und hier für eine Absicherung für spätere, dann vielleicht gar nicht so anspruchsvolle Vorhaben sorgen sollen.
- Hinsichtlich der externen Geldgeber scheint es oft eine gewisse Förderungsschwelle zu geben, die erreicht werden muß. Was die erschließende Institution ohnehin mit eigenen Mitteln durchführen könnte, kann sie nicht zum Gegenstand eines Förderantrages machen. Der eigene Rahmen muß schon aus diesem Grunde gesprengt werden. Hinzu kommt, daß für die Fördereinrichtungen ein Erschließungsprojekt als eigenständiges, innovatives und ggf. auch öffentlich wirksames Vorhaben erkennbar sein muß, das auf keinem anderen Wege, als durch ihre zusätzliche Finanzierung durchzuführen wäre. Da es z.B. der DFG unter anderem um die Untersuchung der Durchführbarkeit umfangreicher Digitalisierungskampagnen geht, werden diese folglich auch beantragt.
- Die Konzeption digitaler Erschließungsvorhaben steht in Zusammenhang mit der erwarteten Benutzung. Es ist zu vermuten, daß sich auch die Nutzungs- und Auswertungsverfahren durch die neuen technischen und methodischen Möglichkeiten verändern werden und unter anderem eine Tendenz zur Einbeziehung größerer Materialmengen in unterschiedlichen medialen Darbietungsformen entwickeln werden.Während für traditionelle Forschungsstrategien die traditionellen Erschließungsverfahren teilweise noch hinreichend sein mögen, erfordern andere Untersuchungsmethoden oder Fragestellungen eine digitale Erschließung, die auch die ganze Breite des Materials umfaßt.
- Der entscheidende Punkt scheint zu sein, daß Projekte zur digitalen Bestandserschließung in dieser Phase der Entwicklung eine "kritische Masse" erreichen müssen, bezogen auf die Wahrnehmung der Öffentlichkeit im allgemeinen, wie des potentiellen Nutzers im besonderen. Mit der erstmaligen Benutzung digitaler Bestände ist zunächst ein Umstellungs- und Einarbeitungsaufwand verbunden, der nur dann geleistet wird, wenn es entweder keine Alternative zur Benutzung des digitalen Bestandes gibt, ein signifikanter Gewinn an Ergebnissen angenommen wird oder eine effizientere Auswertung möglich ist. Nur wenn ein umfangreicher Bestand zu einem bestimmten Themenbereich komplett digitalisiert und erschlossen vorliegt, ist zu hoffen, daß die entsprechende Forschung die Mühe auf sich nehmen wird, die neuen Benutzungs- und Auswertungsverfahren zu erlernen. Da die untersuchten Projekte sich - aus verschiedenen Gründen - nicht im "mainstream" der traditionellen Fragestellungen befinden, besteht außerdem die Notwendigkeit, überhaupt auf die Existenz des Bestandes und seiner digitalen Verfügbarkeit aufmerksam zu machen. Auch dies geschieht am ehesten durch spektakuläre Vorhaben, mit neuen Verfahren und beeindruckenden Mengen erschlossenen Materials(26).
2.3. Bestandsrepräsentation
Digitale Bestandserschließung läßt sich unterteilen in die Erschließung im engeren Sinne, womit die Erstellung von beschreibenden Daten (Metadaten) gemeint ist, und in die digitale Abbildung des zu erschließenden Bestandes. Diese läßt sich wiederum differenzieren in eine unmittelbare Digitalisierung von Bild und Ton und in die Herstellung eines elektronischen Textes. Diese Beschreibung sollte alle möglichen Arten von Beständen umfassen, es kann aber sein, daß ein Text keine oder keine relevante optische Gestalt hat oder daß eine Bestandsart nicht in einen Text überführt werden kann. Das erstere ist bei bereits elektronisch entstandenen Texten der Fall oder bei solchen, bei denen die Form der bisherigen Darstellung unwesentlich ist. Das letztere gilt z.B. für Bilder oder Realien. "Digitalisieren" lassen sich in diesem Sinne aber zunächst alle Arten von Quellenmaterial: nicht nur Texte und Bilder, sondern auch Audio-Dokumente und Realien. Bei Textinformationen führt der Begriff der "Digitalisierung" zu Verwirrung, weil unklar sein kann, ob damit die Wiedergabe der optischen Information oder der textlichen Information gemeint ist. Ich verwende den Begriff der Digitalisierung nicht für textliche Informationen, sondern spreche dort lieber von "elektronischen Texten", die ich nochmals von einer Untergruppe der "digitalen Texten" abhebe, mit denen ich elektronische Texte bezeichne, die zusätzliche Struktur- oder Format-Informationen beinhalten. Was hier "digitale Repräsentation" oder "digitale Abbildung" heißt, wird von der DFG "Konversion" genannt. Ich halte den Begriff nicht für geeignet, da hier keine "Umwandlung" stattfindet, sondern einem realen Bestand ein virtuelles Abbild zur Seite gestellt wird, das den Bestand nicht ersetzen kann und weder form- noch inhaltsgleich zu ihm ist. Die digitale Abbildung bedeutet in jedem Fall einen Informationsverlust gegenüber dem Original, kann dieses aber repräsentieren und Baustein zu einer umfassenden Erschließung sein, die letztlich einen Informationsgewinn gegenüber dem Original bedeuten kann.
Warum wird überhaupt - in fast jedem Fall - ein digitales Abbild geschaffen? Zum Teil beantwortet sich diese Frage aus den bereits vorher geschilderten Motiven zur Durchführung digitaler Bestandserschließungen. Der Bestand wird als Abbildung direkt mit den erschließenden Informationen verknüpft, um eine leichtere und bessere Benutzbarkeit zu ermöglichen. Dazu kommt, daß die digitale Repräsentation zur weiteren Erschließung beitragen soll. Sie ist sowohl zusätzliche Information, als auch Hilfsmittel für effiziente Erschließungsarbeiten. Daß sie eine so große Rolle spielt, liegt aber nicht zuletzt auch an den veränderten technischen Möglichkeiten. Hier kommt sie den spezifischen Fähigkeiten digitaler Erschließung und Publikation entgegen, stellt einen signifikanten Mehrwert gegenüber den traditionellen Formen dar und bietet ganz neue Chancen, ein Publikum zu erreichen. Dies gilt für beide Schritte: die digitale Abbildung und die Herstellung elektronischer oder digitaler Texte. In der Regel folgen beide aufeinander, weil die Bilddigitalisierung technisch weniger anspruchsvoll ist und weil sie oft als Grundlage und Voraussetzung einer Texterstellung dient.
2.3.1. Digitale "Abbildung" des Bestandes
Im Bereich der digitalen Repräsentation eines Bestandes kann insofern von einem Aspekt der Tiefe gesprochen werden, als daß nicht immer das einzelne Dokument zur Gänze gescannt wird. Bezogen auf das einzelne Objekt ist deshalb Teildigitalisierung und Volldigitalisierung zu unterscheiden, wobei die Teildigitalisierung in der Praxis nur sehr selten vorkommt, weil Digitalisierungsprojekte ohnehin so aufwendig sind, daß man in der Regel auch gleich den ganzen Bestand abbildet und hier nicht auf die Gefahr hin differenziert, daß man den Rest irgendwann dann doch nachdigitalisieren muß. Ebenso werden, wenn schon eine Scanning-Kampagne durchgeführt wird, normalerweise auch alle Dokumente erfaßt und nicht nur eine Auswahl. Eine interessante Ausnahme bilden Projekte, welche zunächst nur eine Erschließung im engeren Sinne durchführen und die Digitalisierung erst auf Anforderung des Benutzers vornehmen. Von "Tiefe" der Abbildung könnte man auch hinsichtlich der Qualität der Digitalisierung, also hinsichtlich Auflösung und Farbtiefe sprechen. Einige Erschließungsprojekte differenzieren hier je nach dem Objekt, indem sie z.B. Textpassagen in niedrigerer Auflösung abbilden als Illustrationen. Insgesamt ist aber festzustellen, daß die meisten Erschließungsprojekte ihren gesamten Bestand und dabei alle Objekte vollständig und in gleichmäßiger Qualität abbilden.
2.3.1.1. Auflösung und Farbtiefe
Der Begriff der "Auflösung" verweist darauf, daß optische Informationen bei der digitalen Abbildung in einzelne Bildpunkte (pixel) zerlegt werden. Die Menge dieser Bildpunkte kann angegeben werden durch Punkte auf der x-Achse multipliziert mit den Punkten auf der y-Achse, wie dies z.B. bei der Auflösung von Computermonitoren (z.B. 1024*768) der Fall ist. Sie kann aber auch als Anzahl von Pixel pro Flächen- oder Längeneinheit angegeben werden, wobei meistens das Maß "dpi" (dots per inch) benutzt wird. Hier ist das Problem der Bezugsgröße zu beachten! Die 2700 dpi eines Dia-Scanners beziehen sich auf die Größe des Dias. Auch bei den Ausgabemedien Monitor und Drucker sinkt die dpi-Zahl der Abbildung mit steigender Auflösung der Medien (oder die Abbildung wird kleiner). Den besten fixen Bezugsrahmen bietet für den Bereich der digitalen Erschließung deshalb das Originaldokument. 2400*3450pixel, bezogen auf eine Vorlage im Format DINA4 ergäben so z.B. eine Auflösung von etwa 300dpi.
Der Begriff der "Farbtiefe" verweist auf die Verwendung eines bestimmten technischen Formats und die mit ihm verbundene Anzahl der maximal möglichen verschiedenen Farben oder Graustufen. Eine Wiedergabe in schwarz/weiß wird als "1bit-Tiefe" oder als "bitonal" bezeichnet, weil die "Farbe" jedes Bildpunktes mit "0" oder "1" codiert werden kann. Die üblichen Maße für Graustufen sind dann 16 oder 256 verschiedene Töne. Für Farbabbildungen sind unterschiedliche Codierungssysteme (RGB, True Color etc.) gebräuchlich, die jeweils z.B. 16, 256 (8bit), rund 64.000 (16bit) oder 16 Millionen (24bit) Farben zulassen. Hier ist mit Farbtiefe die unterschiedliche Menge der darstellbaren Farben bzw. die nötigen bits zu ihrer Codierung gemeint.Mit welcher Genauigkeit wird nun gescannt, in welcher Farbtiefe und was sind jeweils die Gründe dafür?(27) Es lassen sich drei Grundpositionen unterscheiden, die in Abhängigkeit von ihren jeweiligen Zielen zu unterschiedlichen Konzeptionen führen können:
- Es kann bei einem Digitalisierungsprojekt darum gehen, gezielt nur bestimmte Informationen eines Bestandes nutzbar zu machen. In diesem Falle kann eine relativ niedrige Auflösung und eine geringe Farbtiefe, bis hin zu einem bitonalen Scan in reinem schwarz/weiß ausreichen.
- Oft wird versucht, mit der Digitalisierung ein dem Original funktional gleichwertiges Abbild zu schaffen. Das heißt, der Benutzer soll die Quelle am heimischen Bildschirm in einer Qualität einsehen können, die der Differenzierung seiner eigenen Wahrnehmung entspricht. Anders gesagt: Das Abbild soll in etwa so gut erkennbar und lesbar sein, wie das Original. Da dem Gebrauchskontext digitaler Abbildungen biologische Konstanten zugrunde liegen, führt auch dieser Ansatz zu einer angebbaren Grenze, was die Auflösung und die Farbtiefe angeht(28). Es wird manchmal davon ausgegangen, daß ein Einscannen mit 300-400dpi und einer Farbtiefe von höchstens 64.000 möglichen Farben in diesem Sinne bereits ein "adäquates Abbild" ermöglichen würde.
- Jede digitale Abbildung bedeutet einen Informationsverlust gegenüber dem Original, wenn man von einer sehr weiten und grundsätzlich nicht vollständig bekannten Menge an unterschiedlichen Erkenntnisinteressen des Benutzers ausgeht, mit denen er an die Bestände herantritt. Diese Einstellung führt zu dem Konzept, den Informationsverlust nach Möglichkeit zu minimieren und in der besten Auflösung und Farbtiefe zu digitalisieren, die technisch realisierbar ist. Das Original soll dadurch so weit wie irgend möglich substituiert werden und es sollen möglichst viele weitere Benutzungs- und Bearbeitungsoptionen erhalten bleiben. Das beginnt beim Ausdruck auf Papier: Was am Bildschirm gut sichtbar ist, ist noch lange nicht in akzeptabler Qualität auszudrucken. Dies betrifft aber auch die Möglichkeit des Vergrößerns von Bilddetails, die bei einer niedrigen Auflösung schnell an ihre Grenzen stößt. Von großer Bedeutung sind die verschiedenen Formen der weiteren Verarbeitung: Ein Text, der für das menschliche Auge gut lesbar ist, muß unter Umständen noch genauer gescannt werden, um gute Ergebnisse bei einer maschinellen Erkennung zu ermöglichen. Das gleiche gilt für automatische Verfahren zur Bildanalyse und Bildverbesserung, die zwar zum größten Teil erst in der Zukunft zu entwickeln sein werden, die man aber nicht jetzt schon ausschließen und unmöglich machen sollte.
Grundsätzlich ist festzuhalten, daß eine genauere Digitalisierung mehr Informationen der Quelle abbildet und diese besser nutzbar macht. Dies gilt sowohl für die Auflösung, als auch für die Farbtiefe. Daß beides zusammenhängen kann, verdeutlicht das folgende, sehr häufig vorkommende Beispiel: Bücher und andere Druckwerke sind in der Regel schwarz/weiß, also in bitonaler Farbtiefe hergestellt. Trotzdem ist es fast immer sinnvoll, sie in Graustufen oder sogar in Farbe zu scannen. Graustufen differenzieren das wahrzunehmende Abbild, machen es für Menschen und Maschinen besser erkennbar und können so ein Ersatz für eine höhere Auflösung sein(29). Dazu kommt wieder das Argument der möglichst getreuen Abbildung des Originals und der weiteren Bearbeitungsmöglichkeiten. Zu der sinnlichen Komponente (die auch ein Informationsträger ist) z.B. alter Bücher gehört, daß sie fleckig und vergilbt sind. Gleichzeitig können spezifische Flecken oder das Durchscheinen der rückseitigen Schrift eines Blattes durch die Identifikation spezieller Farbkanäle bei der maschinellen Verarbeitung oder bei der Bildverbesserung nur dann automatisch berücksichtigt werden, wenn diese Farbkanäle schon beim scannen des Originals aufgenommen wurden.
Einige andere Kriterien haben bis vor kurzem manchmal eine Rolle bei der Entscheidung für eine bestimmte Wiedergabequalität gespielt: Die Frage der Digitalisierungskosten, des Speicherbedarfs oder der Datenübertragungszeiten in Computernetzen. Inzwischen sinken die Digitalisierungskosten erheblich, große Speicher werden ebenfalls immer billiger und die Netzleistungen steigen. Dazu kommt die Einsicht, daß inhaltliche Erwägungen in jedem Fall vor temporären technischen Hindernissen Vorrang haben sollten. Es ist zwar nur das umsetzbar, was auch technisch zu realisieren ist - es bringt aber nur wenig Nutzen, heute Dokumentmassen in einer Qualität zu digitalisieren, die morgen den allgemeinen Ansprüchen nicht mehr genügen werden. Das Bewußtsein für dieses Problem ist in fast allen Projekten hoch entwickelt und so werden z.B. die Empfehlungen zu Auflösung und Farbtiefe seitens der DFG-Gremien(30), die teilweise aus den Jahren 1996 und 1997 stammen, selbst in DFG-Projekten (zumindest den neueren) kaum noch befolgt.
Unbestreitbar setzt die verfügbare Scannertechnik Grenzen für die Wiedergabequalität. Die Möglichkeiten der Scanner sind zwar im Einzelfall besonderer Ansprüche immer noch unbefriedigend, immerhin aber doch so weit entwickelt, daß mit einiger Zukunftssicherheit damit gearbeitet werden kann. Außerdem kann wohl davon ausgegangen werden, daß für die meisten Anforderungen ein bestimmtes Maß an Auflösung und Farbtiefe auch in Zukunft ausreichen wird und immer weiter steigende technische Umsetzungsmöglichkeiten irgendwann keinen signifikanten inhaltlichen Mehrwert mehr bringen werden. Ein Teil der Projekte findet bereits jetzt vollkommen ausreichende technische Möglichkeiten vor, ein anderer Teil versucht, dem eigenen Ziel wenigstens möglichst nahe zu kommen und nimmt in der allgemeinen Entwicklungsphase Mängel der Qualität noch in Kauf, um wenigstens andere Bereiche (Erschließung, Publikation) schon entwickeln zu können.
In der Praxis der untersuchten Projekte lassen sich folgende Tendenzen feststellen: Bestimmend für die gewählte Auflösung sind zunächst die Art des Bestandes, das Grundkonzept, wie es oben anhand der drei Alternativen differenziert wurde, die weiteren Bearbeitungspläne (Texterkennung, Bildbearbeitung), die erwartete Benutzung und die geplante Publikationsweise, in hohem Maße aber auch noch technische Schwierigkeiten. Dazu kommt, daß ältere Projekte noch mit schlechterer Auflösung und niedrigerer Farbtiefe gescannt haben, als kürzlich begonnene Vorhaben.
Konzeptionelle Unterschiede sind hier der maßgebliche Faktor, limitiert durch die verfügbare Technik! Obwohl z.B. bei gedruckten Büchern eine niedrigere Auflösung und weniger Farben verständlicher wäre, als bei Handschriften oder Abbildungen, läßt sich diese Unterscheidung in der Realität nicht wiederfinden. Die Überlegung, welchen Zweck die Digitalisierung erfüllen soll, ist vorgängig vor der Art des zu digitalisierenden Bestandes. Auf der anderen Seite bieten Projekte, die den Anspruch haben, eine möglichst hochwertige Qualität zu erhalten, teilweise auch keine wesentlich anderen Ergebnisse.
Die meisten untersuchten Projekte scannen das Material in einer Auflösung zwischen 300 und 400 dpi. Einige, vor allem schon länger laufende Vorhaben, unterschreiten die Marke von 300dpi. Überschritten werden die 400dpi nur Ausnahmsweise, wenn z.B. mit einer digitalen Kamera sehr kleine Objekte aufgenommen werden oder besonders hohe Ansprüche an die Qualität gestellt werden. Man könnte hinsichtlich der oben skizzierten Grundkonzepte bei 300 bzw. 600dpi von Rahmenwerten sprechen, weil allgemein davon ausgegangen wird, daß 300dpi ausreichen, ein adäquates Abbild des Originals herzustellen und 600dpi derzeit ein technisch noch massenhaft herstellbares und verarbeitbares Datenvolumen ergibt und dabei dem Versuch entspricht, eine möglichst gute Qualität zu erzielen.
In der Praxis gelten umfangreiche Bilddateien und die Probleme ihrer Bearbeitung immer noch als ein Maßstab für die Wahl der Digitalisierungsqualität. Da mit der aktuellen Generation von Standardcomputern Bilddateien von über 40MB nur mit Einbußen in der Arbeitsgeschwindigkeit zu verarbeiten sind, wird derzeit selbst bei den anspruchsvollsten Vorhaben tatsächlich bitonal sogar bis 600dpi gescannt, in 256 Graustufen oder mit 256 oder 64.000 Farben mit bis zu 400 dpi und mit 16 Millionen Farben nur mit 300 oder sogar nur 200 dpi. Bessere Wiedergabequalitäten sind eine seltene Ausnahme. Andererseits gibt es eine ganze Reihe von Projekten, die grundsätzlich die 300, manchmal auch die 400dpi selbst dann nicht überschreiten, wenn sie in bitonal oder 16 Graustufen scannen.Obwohl die Bildqualitäten scheinbar nicht so weit auseinander liegen, ist der Unterschied, der z.B. zwischen 300dpi in bitonal und 400dpi in 256 Farben oder Graustufen besteht, nicht zu unterschätzen. Dies kann in einzelnen Fällen die Lesbarkeit oder Weiterverarbeitbarkeit ermöglichen oder ausschließen. Außerdem stehen dahinter die gegensätzlichen Überlegungen, entweder ein technisch problemlos zu handhabendes "brauchbares Abbild" oder aber ein möglichst gutes Bild des Originals zur Verfügung stellen zu wollen, das die Informationsverluste möglichst gering halten soll. Vertreter des letzteren Standpunktes beharren teilweise sogar auf einer Farbtiefe von 24 bit (16 Millionen Farben), weil sonst Informationen der Vorlage verloren gingen und dem Benutzer keine adäquaten Abbilder des Originals zur Verfügung gestellt würden.
Was also ist zu tun? Wer sich darauf beruft, mit der digitalen Erschließung nur bestimmte zusätzliche Informationen bereitstellen zu wollen, findet heute bereits einen gesicherten und gut handhabbaren technischen Rahmen vor, der eine zuverlässige und langfristige Planung ermöglicht. Im Rahmen von 300 bis 400 dpi können die wichtigsten Vorteile digitaler Erschließungsmethoden umgesetzt werden. Im Sinne eines offenen Erschließungsprozesses, der weitergehenden automatisierten Erschließungs- und Bearbeitungsverfahren, sowie wachsenden Ansprüchen zukünftiger Benutzer gerecht werden soll, kann dies aber nur als ein Zwischenschritt gesehen werden. Er ist wichtig, um auf der Seite der erschließenden Institutionen Erfahrungen für weitere Entwicklungen zu sammeln, vor allem aber auch, um auf der Seite der Benutzer den Umgang mit digital erschlossenen Beständen zu stimulieren. Deren neu entstehende Arbeitsgewohnheiten und Anforderungen werden dann für die zu fordernde Qualität digitaler Abbildungen in zukünftigen Erschließungsarbeiten maßgebend sein. Für den Augenblick sollten nicht nur allgemein verbindliche Richtlinien aufgestellt(31), sondern ein breites experimentelles Angebot geschaffen werden, um die Akzeptanz der unterschiedlichen Ergebnisse abwägen zu können. Dazu sind aber auch Erschließungsprojekte nötig, die jeweils immer das technisch maximal machbare als Zielvorstellung haben, um auch den Bedarf an qualitativ hochwertigen digitalen Abbildungen abschätzen zu können.
2.3.1.2. Organisatorisches Vorgehen
Eine der Grundentscheidungen im Bereich der Digitalisierung ist die Frage, ob man die digitale Abbildung des Bestandes von einem externen Dienstleister vornehmen lassen oder in eigener Regie selbst durchführen sollte. Für das "outsourcing", also die Auftragsvergabe an Fremdfirmen spricht der geringere organisatorische Aufwand, die bessere Planbarkeit und Überschaubarkeit, das Expertenwissen des Dienstleisters und dessen bereits vorhandene technische Ausstattung. Bei der Digitalisierung "im Hause" muß sowohl daß Gerät angeschafft werden, als auch das nötige Wissen zur Bedienung - aber auch zur Konzeption der Digitalisierung - erst erworben werden. Die Erfahrung und der organisatorische Vorsprung der Dienstleister ist außerdem kaum in ökonomisch vertretbarem Rahmen zu kompensieren. Neben der rein technischen Leistung bieten Firmen in diesem Bereich zusätzlich noch Beratung und Betreuung im konzeptionellen und im Software-Bereich an.
Für die Durchführung von Scanning-Kampagnen in der die beständehaltenden Institution spricht dagegen die höhere Flexibilität bei der Durchführung, die schnellere Umsetzung(32) und die bessere Kontrolle über Form und Qualität der Ergebnisse. Bei der Auftragsvergabe nach außen müssen Parameter festgelegt werden, die sich möglicherweise bald als unzureichend herausstellen. Ein grundsätzliches Dilemma besteht darin, daß zwar die Dienstleister über ein höheres Maß an Erfahrung und Expertenwissen verfügen, aber nur die Projektbearbeiter die inhaltlichen und konzeptionellen Anforderungen kennen, die sich aus dem Material ergeben. Diese sollten immer im Vordergrund stehen und so ist es unumgänglich, daß auf der Seite der Projektbearbeiter ohnehin ein gewisses Maß an technischem Überblickswissen ausgebildet wird, ohne das eine vernünftige Konzeption nicht möglich ist.
Letztlich ist es eine Frage von Qualität und Kosten. Die Qualität findet ihre Grenze derzeit immer noch in den technischen Möglichkeiten der verfügbaren Geräte, die für internes oder externes scannen grundsätzlich gleich sein können. Auf der Seite der externen Dienstleister kommt technisches und Erfahrungswissen hinzu, während gleichzeitig die Tendenz besteht, vorhandenes Gerät (das nicht das neueste sein muß) amortisieren zu müssen und einfach zu organisierende und durchzuführende Verfahren zu verkaufen. Auf der Seite der Projektbearbeiter muß technisches Mindestwissen ohnehin erarbeitet werden und es besteht eine höhere Flexibilität bei der Durchführung und ein größeres Wissen um die Anforderungen an die Qualität der Digitisate. Die Kosten bei externen Dienstleistern könnten tendenziell niedriger sein, weil das technische Gerät besser ausgenutzt wird, es bereits entwickelte Organisationsstrukturen gibt und Einarbeitungszeiten für Personal entfallen. Sie könnten aber auch tendenziell höher sein, weil allgemeine Betriebskosten anfallen (z.B. durch Werbung) und ein Gewinn erwirtschaftet werden muß. Welche der beiden Tendenzen überwiegt, kann nur im Einzelfall eines konkreten Projektes berechnet werden.
Hier kann keine allgemeingültige Empfehlung ausgesprochen werden. Die Entscheidung für internes oder externes scannen hängt entscheidend von der Art des Bestandes, den Anforderungen in technischer und organisatorischer Hinsicht und dem Umfang des Materials ab. Handelt es sich um anspruchsloses Material, das mit gängigen Scannertypen digitalisiert werden kann, ist eine Anschaffung des Gerätes und eine Durchführung mit studentischen oder anderen Hilfskräften wahrscheinlich kostengünstiger, wenn auch die technische Betreuung bereits innerhalb des Projektes (z.B. durch ein Rechenzentrum o.ä.) gewährleistet ist. Bei speziellen technischen Anforderungen oder ohnehin stark modularisierten Vorhaben kann dagegen eine Auftragsvergabe nach außen sinnvoll und ökonomisch sein.
Wegen der großen Unterschiede zwischen den Bestandsarten und den stetig fallenden Kosten sollen hier keine Referenzwerte im Sinne von Pfennigen pro Seite angegeben werden. Der Überblick über die laufenden Projekte sollte statt dessen auch dazu genutzt werden, das mögliche Preisgefüge bei vergleichbarem Material durch Anfragen bei den jeweiligen Bearbeitern zu ermitteln(33). Um überhaupt einen Rahmen anzugeben, ist grob festzustellen, daß es heute (Februar '99) möglich ist, umfangreiche Digitalisierungskampagnen in mittlerer bis guter Qualität (300-400dpi, Graustufen) zu Kosten von 1 DM bis 1,50 DM pro Seite durchzuführen, wobei davon auszugehen ist, daß dieser Preis weiter sinken wird.
Interne und externe Scanningkampagnen finden sich unter den untersuchten Projekten gleichermaßen. Dabei wird die Digitalisierung bei kleineren und mittleren Projekten eher im Hause durchgeführt, während Großprojekte zum Outsourcing tendieren. Dies überschneidet sich mit dem Bereich der deutschen Bibliotheksprojekte, die - oft mit DFG-Mittel unterstützt und von ihr explizit dazu aufgefordert - eine Auftragsvergabe nach außen bevorzugen. Die Zusammenarbeit mit externen Dienstleistern ergibt sich in diesem Bereich auch dadurch, daß die Digitalisierung mit einer Mikroverfilmung verbunden ist, die derzeit nur von einigen privaten Firmen durchgeführt wird. Zu den externen Dienstleistungen im Scanningbereich ist noch darauf hinzuweisen, daß es hier einige Probleme gibt: Seitens der Bearbeiter laufender Erschließungsprojekte gab es während der Befragung immer wieder scharfe Kritik an der derzeitigen Situation. Diese bezog sich vor allem auf die monopolartige Stellung der Anbieter, von denen es z.B. im Bereich des Mikrofilmscannens nur drei in Deutschland gibt. Mehrmals wurde auch die Qualität der Digitisate als unzureichend oder die Preise als überzogen empfunden. Schließlich stieß der Versuch, die reine Digitalisierung mit weiteren Leistungen, wie konzeptioneller Beratung, technischer Betreuung oder dem Einsatz bestimmter Software zu verknüpfen oder andere Formate oder Qualitäten anzubieten als vom Auftraggeber gewünscht, nicht überall auf Gegenliebe.
Für die Entwicklung des Arbeitsbereiches der digitalen Bestandserschließung ist es nur zu begrüßen, wenn konzeptionelles und technisches Expertenwissen sowohl in den beständehaltenden Institutionen, als auch in der freien Wirtschaft ausgebildet wird. Private Unternehmen sind hier tendenziell eher in der Lage spezielle technische Kenntnisse und das jeweils modernste Gerät anzubieten. Wegen der negativen Folgen monopolartiger Stellungen im Markt und wegen der inhaltlich besonders hohen Anforderungen an Methodik und Technik sollte aber auch auf Seiten der Projektbearbeiter aus dem dokumentarischen und geisteswissenschaftlichen Bereich weiterhin versucht werden, im Bereich der Digitalisierung durch eigenständige Kampagnen alternative Kompetenz zu entwickeln. Zu überlegen ist auch, ob nicht gerade in den größeren Institutionen die bereits existierenden Fotostellen die entsprechenden Kompetenzorgane im technischen Bereich bleiben können. Bei der zukünftigen Arbeit mit digitalen Kameras wird möglicherweise der gleiche Sachverstand gefragt sein, der schon heute dort versammelt ist. Für die Bevorzugung der Auftragsvergabe nach außen scheint auch immer noch eine Perspektive mitverantwortlich zu sein, die wissenschaftliche und technische Arbeiten gerne als strikt voneinander zu trennende Bereiche ansieht. Eine solche Trennung ist aber in einer Zeit der grundsätzlichen Neuentwicklung weit ausgreifender Verfahren weder förderlich noch überhaupt sinnvoll möglich.
In einer ganzen Reihe von Projekten - hauptsächlich aus dem Bereich der DFG-geförderten Bibliotheksunternehmungen - wird die Digitalisierung mit einer Mikroverfilmung verknüpft. Dahinter steht der Gedanke, gleichzeitig mit der Digitalisierung ein relativ alterungsbeständiges Sicherungsmedium anzulegen. Den digitalen Formen als Archivierungsmedium traut man - wie oben bereits erwähnt - noch nicht so recht. Außerdem wird manchmal argumentiert, daß der Mikrofilm noch Qualitätsressourcen berge, so daß die derzeitigen Digitisate in einem späteren zweiten Durchgang in einem relativ automatisierten und dadurch kostengünstigen Prozeß durch digitale Aufnahmen in besserer Qualität ersetzt werden können. In den Mikroformen sieht man insgesamt einen zukunftssicheren, hochwertigen Zwischenspeicher, der leicht weiterzuverarbeiten sei und die Teilinvestitionen des Bearbeitungsprozesses sichere(34). Diese Argumentation basiert auf zwei Annahmen, denen man nicht unbedingt folgen muß: Daß die sichere Archivierung digitaler Daten über die Lebensdauer von Mikroformen hinaus nicht gewährleistet sei, und daß die Qualitätsansprüche in absehbarer Zeit nicht über das Maß hinaus steigen würden, das mit Mikroformen zu erreichen ist. Die Archivierung digitaler Daten wird - genau wie die technische Sicherheit von Mikroformen - genau dann gewährleistet sein, wenn eine kritische Masse von Anwendern erreicht ist, die es in der Industrie als lohnend erscheinen läßt, für geeignete Standards, die Ausbildung hinreichenden technischen Wissens und die Entwicklung geeigneter Werkzeuge zu sorgen. Was die Qualität der Mikroformen angeht, so scheinen einige Projekte mit ihren Anforderungen jetzt schon an deren Ende angelangt zu sein: Angesichts der Schwierigkeit, gute Digitisate in 600dpi und hoher Graustufen- oder Farbtiefe zu erzeugen, haben sie sich letztlich doch für eine Direktdigitalisierung entschieden.
Die Qualität der Mikroformen als einem zwar weit entwickelten, aber auch weitgehend ausgereizten Medium, wird konstant bleiben, während die Qualität der digitalen Aufnahme noch im Wachsen begriffen ist und die der Mikroformen eines Tages übersteigen wird. Bereits jetzt wird der Prozeß von Digitalisierung und Mikroverfilmung manchmal umgekehrt, indem die direkt gewonnene digitale Abbildung anschließend auf Mikroformen ausbelichtet wird. Auch hier wird die Mikroform wieder als Sicherungsmedium angesehen. Zudem mag man hoffen, durch die Option der Neudigitalisierung das Problem der Migration digitaler Formen leichter zu lösen.
Digitale Formen und Mikroformen lassen sich jedenfalls relativ ökonomisch ineinander überführen. Die Frage ist nur, ob diese vergleichsweise geringen Investitionen in zusätzliche optische Speicherformen und der zusätzliche organisatorische Aufwand überhaupt einen Sinn in einer durch digitale Arbeitsformen bestimmten Umgebung haben. Auffallend ist, daß diese Doppelstrategie fast nur in DFG-geförderten Projekten angewandt wird, und so scheinen hier auch institutions- und organisationsspezifische Gründe eine Rolle zu spielen(35).Selbst wenn Mikroformen als Speichermedium angelegt werden, so werden doch auch hinsichtlich der digitalen Form Überlegungen zu deren langfristigen Sicherung und Verfügbarkeit angestellt. Das Bewußtsein für die hier latenten Probleme ist sehr hoch entwickelt und die konsensuale Lösung, die sich bereits weitgehend durchgesetzt hat, lautet: Speicherung der Bilddaten in einem unkomprimierten, weit verbreiteten, nicht-proprietären, voll dokumentierten Format und Lagerung von zwei Speicherkopien an unterschiedlichen Orten. Als Speicherformat wird fast immer TIFF(36) verwendet, das dann zur Publikation in andere Formate, mit Kompression und teilweise niedrigerer Auflösung, umgewandelt wird. Nur in wenigen Projekten sind Publikations- und Speicherformat identisch, z.B. wenn auch die Speicherung in JPEG erfolgt. Als Speichermedium wird in den meisten Fällen die CD-ROM verwendet, weil sie weit verbreitet ist und deshalb davon ausgegangen werden kann, daß im Bedarfsfall technische Lösungen zur Sicherung und Konvertierung von Daten zur Verfügung stehen werden. Teilweise wird auch auf Datenbändern gesichert oder man verläßt sich auf Festplattenlaufwerke, die im Augenblick aber noch teurer sind, als Wechselmedien wie die CD-ROM und deshalb nicht für sehr große Datenmengen geeignet sind. Dies sind alles nur mittelfristige Lösungen und es muß davon ausgegangen werden, daß die Daten in absehbarer Zeit auf einen anderen Träger umzukopieren sein werden. Dies ist aber auch den Projektbearbeitern bekannt und dürfte deshalb kein grundsätzliches Problem darstellen.
2.3.1.3. Technische Umsetzung
Für die technische Umsetzung des Digitalisierungsprozesses stehen verschiedene Lösungen zur Auswahl. Audioquellen sind ohne große Probleme zu digitalisieren, während die digitale Abbildung drei-dimensionaler Objekte noch ganz am Anfang der Entwicklung steht. 95% der Projekte haben es zunächst mit der digitalen Abbildung optischer Informationen zu tun. Die derzeit gängigsten Geräte sind hier Flachbettscanner, Diascanner, Mikrofilm- bzw. Mikrofichescanner und digitale Kameras. Der wesentliche Unterschied besteht zum einen darin, ob von einer Zwischenform (Dia, Mikrofilm) oder direkt vom Original gescannt wird, wie hoch der Arbeitsaufwand und wie hoch die Belastung der Vorlage beim scannen ist. Im einzelnen:
- Diascanner sind preisgünstig und einfach zu bedienen. Durch die Verwendung von Zwischenformen und weil die Dias in der Regel nur über eine Schiene, die eine begrenzte Zahl fassen kann, bearbeitet werden, ist der Arbeitsaufwand vergleichsweise hoch. Wegen der geringen Größe der Vorlage muß die Auflösung beim scannen selbst extrem gut sein. Wird z.B. mit einer Auflösung von 2.800 dpi gescannt, so bedeutet das auf eine DIN A4-Vorlage bezogen u.U. eine Auflösung von unter 300dpi.
- Für Mikrofilmscanner gilt ähnliches. Zusätzlich ist zu erwähnen, daß sie noch so teuer sind, daß die Anschaffung für ein einzelnes Digitalisierungsprojekt in der Regel nicht lohnt, sie aber einen weitgehend automatisierten Scan-Vorgang ermöglichen - wenn der Mikrofilm bereits vorhanden ist. Die derzeit verfügbare Qualität wird von vielen als ausreichend empfunden. Es ist aber nicht sicher, ob dies auch für die Zukunft gelten wird und ob es hier noch ein hinreichend großes Potential gibt.
- Flachbettscanner sind der älteste und deshalb am weitesten entwickelte Gerätetyp. Es gibt sie in allen Größen und mit teilweise sehr hohem Auflösungspotential. Mit Zusatzmodulen wie Blatteinzügen läßt sich der Scan-Vorgang relativ effizient durchführen - wenn die Vorlage dazu geeignet ist! Flachbettscanner eignen sich gut für Einzelblätter oder belastbares Material, das der ebenen Auflagescheibe des Scanners angepaßt werden kann. Sie sind aber ungeeignet für empfindliche Dokumente mit unebener Oberfläche, wie z.B. alte Bücher, die sich nicht mehr gefahrlos ganz aufklappen und glätten lassen.
- Digitale Kameras sind noch in der Entwicklung begriffen. In naher Zukunft ist sowohl mit einem Sinken der Preise, als auch mit einem Steigen der möglichen Auflösung zu rechnen. Bei digitalen Kameras wird die Auflösung in einer absoluten Zahl (x*y Pixel) angegeben, so daß für kleinere Objekte eine hohe relative Auflösung erreicht wird, bezogen auf DIN A4 aber 300 oder sogar 600dpi nur mit den derzeitigen - noch sehr teuren - Spitzenmodellen möglich sind. Der Gerätetyp ist grundsätzlich sehr flexibel einsetzbar und spezielle Zusatzmodule im Hard- und Softwarebereich machen ihn zu der langfristig wohl besten Lösung für die meisten Anforderungen. Im häufig anzutreffenden Fall alter Bücher, die nicht mehr zu 180° aufgeklappt werden sollten und deren Seiten eine stark gebogene Oberfläche haben, werden z.B. sogenannte "Buchwippen" verwendet, die Kamera und die Lampen können sich bewegen, um z.B. die linke oder rechte Seite des aufgeklappten Buches aufzunehmen und die Biegung der Seite kann automatisch herausgerechnet werden. Für die Zukunft wird möglicherweise auch das Umblättern maschinell erledigt werden, so daß in diesem System nicht nur ein hohes Maß an Qualität, sondern auch an Automatisierung möglich ist.
In der Praxis haben alle Scannertypen ihre speziellen Anwendungsfelder. Diascanner werden seltener eingesetzt als Mikrofilmscanner. Flachbettscanner werden wegen ihrer Qualität und ihres Preises immer eingesetzt, wenn das Original dies zuläßt und wenn nicht ohnehin ein Mikrofilm vorhanden ist oder im Projekt erstellt wird. Die Tendenz geht aber im Augenblick zur digitalen Kamera, die sich wohl langfristig durchsetzen wird, wenn Qualitäts- und Automatisierungspotential weiter ausgeschöpft werden und der Preis sinken wird(37).
Für die Bilddigitalisierung ist in zweifacher Weise eine Softwareumgebung nötig. Einerseits für die Bildaufnahme und deren sofortige Bearbeitung (Drehen, Ausrichten, Skalieren, Wegschneiden von Rändern, Kontrastverbesserungen, Eliminieren von Schatten und Fingern auf der Aufnahme)(38), andererseits für die Verwaltung der Digitisate. Die Systeme für die Bildaufnahme werden meistens mit den Geräten geliefert, sie können teilweise auch die automatische Bearbeitung übernehmen. Für die Verwaltung der Bilddaten gibt es eine ganze Reihe von Programmen. Inzwischen sind nicht nur spezielle Dokumentenmanagementsysteme dazu in der Lage, sondern auch die meisten Datenbankprogramme. Außerdem werden in den Projekten - z.B. seitens kooperierender Rechenzentren - teilweise Speziallösungen entwickelt. In der Praxis der untersuchten Vorhaben zeigt sich eine starke Präferenz von Komplettsystemen einerseits und bereits vorhandener Software andererseits. Komplettsysteme sind dabei solche, die nicht nur die Bildverwaltung, sondern auch die Organisation der Metadaten übernehmen und teilweise noch die Publikation z.B. über eine Internetschnittstelle unterstützen. Daneben gibt es die Tendenz, bereits vorhandene Datenbankprogramme zu nutzen, bei denen dann der Aufwand für die Einarbeitung entfällt, und die eher zum übrigen System der erschließenden Institution kompatibel sind. Oft wird dieser Weg in Bibliotheken gewählt, die versuchen, digitale Erschließungsprojekte in ihren allgemeinen elektronischen Katalog einzubinden. Er ist aber auch bei vielen Forschungseinrichtungen zu beobachten, die einen grundlegenden Systemwechseln scheuen. Trotz der Bedeutung von Kompatibilität und Arbeitsökonomie ist diese Situation aber nicht unproblematisch, könnte sie doch dazu führen, daß alte Systeme und Konzepte nur auf einen neuen Bereich ausgeweitet werden, anstatt dort grundsätzliche Neuentwicklungen durchzuführen.
Im Bereich der Datenverwaltung kommt es zur Verknüpfung der digitalen Abbildungen mit den beschreibenden Daten. Dies kann aber teilweise auch schon während der Digitalisierung geschehen. So können schon bei der Aufnahme Metadaten erhoben und der Bilddatei hinzugefügt werden. Es ist möglich, bei der Aufnahme Codestreifen mit abzubilden, die später automatisch verarbeitet und zur Identifikation des Bildes genutzt werden können. Solche Informationen, aber auch noch weit darüber hinaus gehende, sind z.B. im sogenannten "TIFF-Header" abzuspeichern. Dies bedeutet, daß es innerhalb der Bilddatei einen Bereich gibt, in dem weitere Metainformationen über das Bild vorhanden sein können. Neben bibliographischen oder in anderer Form beschreibenden Daten sind hier vor allem technische Angaben und solche über den Digitalisierungsprozeß wichtig. Eines der Probleme im Bereich der Bilddigitalisierung besteht nämlich darin, daß spätestens bei der Darstellung digitaler Daten eine Veränderung gegenüber dem Original eintritt. Deshalb ist es wichtig, den Digitalisierungsprozeß hinsichtlich seiner technischen Durchführung und der Farbmuster genau zu dokumentieren. Andernfalls könnte nicht davon die Rede sein, daß man wirklich ein - auch in der Farbe - getreues Abbild des Originals zur Verfügung hat.
2.3.2. Textdigitalisierung, OCR, "keybording"
Trotz der Tendenz zur stärkeren Berücksichtigung visueller Informationen bezieht sich der größte Teil geisteswissenschaftlicher Forschung immer noch auf "Texte" im weitesten Sinne. Eine Bilddigitalisierung textlicher Informationen ist zwar bereits eine Verbesserung der Zugriffsmöglichkeiten, Ziel der digitalen Erschließung ist aber letztlich oft der elektronische Text. Nur er ermöglicht eine gezielte Suche bis auf die Ebene der Volltextrecherche, eine einfache Weiterverarbeitung und die Anwendung computergestützter Textauswertungsverfahren.
Scheinbar ist mit der Textdigitalisierung nur ein weiterer Schritt der Abbildung gemacht. Wie bei der optischen Wiedergabe wird nur etwas in digitaler Form repräsentiert, was auch vorher schon vorlag. Wegen des hohen Zugewinns an Benutzbarkeit und den erst am elektronischen Text anwendbaren Auswertungsverfahren, aber auch wegen des hohen intellektuellen Arbeitsaufwandes, der bei der Texterstellung nötig ist, kann darin aber ein signifikanter Wertzuwachs des erschlossenen Bestandes gesehen werden.
Auf der anderen Seite birgt die Beschränkung auf die optische Wiedergabe und der Verzicht auf die Textdigitalisierung die Gefahr, daß der möglicherweise unzureichend erschlossene Bestand von den Benutzern nicht angenommen wird und zum "Datenfriedhof" verkommt. Der Vergleich zu den Mikroformensammlungen liegt nahe. Auch hier war scheinbar ein hoher Gewinn an Verfügbarkeit optischer Wiedergabeformen erreicht. Benutzt wurden sie aber trotzdem kaum. Der Vergleich verweist auf eine grundsätzliche Gefahr, hinkt aber an einigen Stellen. So bergen digitale Wiedergabeformen z.B. ganz andere Entwicklungsoptionen, was die einfache Verfügbarkeit, die spätere tiefere Erschließung oder die Unterstützung der Texterstellung betrifft.Für die systematische Analyse der Textdigitalisierung ist nach unterschiedlichen Stufen der Tiefe (Vollständigkeit) zu unterscheiden, nach den Organisationsformen und der angewandten Technik. In der Praxis der untersuchten Projekte zeigt sich eine Fülle unterschiedlichster Vorgehensweisen und Auswahlen, bis zu welcher Tiefe man jeweils geht. Etliche Projekte nehmen Textteile digital auf, die vor allem der Erschließung des jeweiligen Gesamtdokumentes dienen. Nur wenige führen dagegen eine vollständige und noch dazu korrigierende Texterstellung durch. Der Verzicht auf diesen wichtigen und wertvollen Teil einer umfassenden Bestandserschließung hat einen einfachen Grund: Die Herstellung eines "korrekten" Textes ist äußerst kostenintensiv. Die automatischen Verfahren zur Textdigitalisierung haben noch immer eine so hohe Fehlerquote, daß der nötige Einsatz menschlicher Arbeitskraft schnell zu Kosten führt, die weder von den erschließenden Institutionen, noch von den externen Geldgebern aufgebracht werden. Seitens der DFG ist die Bedeutung der Textdigitalisierung unbestritten, man nimmt aber dort, wie auch in den meisten anderen Projekten eine eher abwartende Haltung ein, in der Hoffnung, daß technische Entwicklungen in absehbarer Zeit eine ökonomischere Textgewinnung möglich machen werden(39). Viele Vorhaben stecken in diesem Bereich noch in der Konzeptphase und haben sich nicht festgelegt, in welcher Tiefe und in welcher Form (bzw. mit welchen Formaten) sie ihr Textmaterial digitalisieren werden.
Das Abwarten auf bessere technische Optionen ist zwar grundsätzlich verständlich, birgt aber auch die Gefahr, daß man die potentiellen Benutzer nur vertröstet und nicht gewinnt. Ohne eine Textdigitalisierung bleiben viele Projekte gewissermaßen auf halbem Wege stecken und riskieren, zwar als bunte Bildersammlung oder als erweiterter Katalog wahrgenommen zu werden, nicht aber als umfassende Grundlage für tiefgreifende Auswertungen durch die Fachwissenschaftler.
2.3.2.1. Tiefe der Textdigitalisierung
Will man von einer "Tiefe" der Textdigitalisierung sprechen, so kann man verschiedene Stufen der Vollständigkeit und der Fehlerbehebung unterscheiden. Es ergeben sich so zunächst drei Schritte: selektive (Teil-)Digitalisierung, Texterstellung ohne Korrektur und Texterstellung mit Korrektur. Viele Projekte beschränken sich darauf, nur die Inhaltsverzeichnisse, die Überschriften oder die Register der Dokumente aufzunehmen. Dies kann der erste Ansatz für eine spätere Volltextdigitalisierung sein, in den meisten Fällen werden diese "strukturierenden" Informationen aber als Mittel zur tieferen Erschließung gesehen, an deren Ende immer noch die optische Aufnahme den Text vertreten soll. Da diese speziellen Informationen sich im Original meistens auch durch anderes Layout vom übrigen Text abheben, kann die Erfassung teilweise automatisiert werden. Überschriften oder die Lemmata in Wörterbüchern können bereits von der Software erkannt werden. Diese führt dann eine automatische Texterkennung durch, zu deren Kontrolle einem Bearbeiter nur noch der entsprechende Bildausschnitt angezeigt wird(40).
Wenn ein Bestand bereits in digitaler Abbildung mit einer gewissen Mindestauflösung vorliegt, ist es sehr einfach, eine automatische Texterkennung durchzuführen. Während eine solche Texterkennung bei guten modernen Drucken mit den weit verbreiteten OCR-Programmen inzwischen zufriedenstellend funktioniert, ist das Ergebnis bei älteren Vorlagen in der Regel nicht in dem Sinne akzeptabel, daß man einen brauchbaren, relativ fehlerfreien Text automatisch erzeugen könnte. Viele Projekte verzichten deshalb ganz auf eine automatische Texterkennung. Wie aber schon die Teildigitalisierung struktureller Informationen mehr der Erschließung galt, so gibt es auch bei einem fehlerreichen automatisch erzeugten Volltext die Möglichkeit, ihn zur Verbesserung des Zugriffs auf das Material zu nutzen. Ein solcher Text kann nämlich, selbst wenn ein großer Teil der einzelnen Zeichen vom Computer nicht richtig erkannt wurde, für eine Volltextrecherche genutzt werden, wenn dabei die Mängel des Textes durch eine entsprechend unscharfe Suchroutine ausgeglichen werden(41). Dem Benutzer kann dann selbst überlassen bleiben, ob er sich die entsprechende Stelle als fehlerreichen Steinbruch aus Zeichen oder als digitales Bild ansehen möchte.
Die bisher erwähnten Stufen der Textdigitalisierung dienten weniger der Abbildung des Textes, als seiner Erschließung. Hier ist oft mit wenig Aufwand ein großer Gewinn an Zugriffsmöglichkeiten verbunden. Insbesondere die Verwendung einer rohen automatischen Texterkennung zu Recherchezwecken ist ein effizienter Weg zur Verbesserung der Nutzungsmöglichkeiten, da nur geringer Aufwand an Organisation und Programmierung nötig ist, nicht aber eine händische Bearbeitung durch wissenschaftlich ausgebildete Fachleute.Eine Textdigitalisierung im eigentlichen Sinne ist erst dann erreicht, wenn ein korrigierter Volltext erstellt ist. Dieser sollte hohen qualitativen Ansprüchen genügen, weil selbst ein Fehler unter 1000 Zeichen nicht nur vom menschlichen Leser als sehr störend empfunden wird, sondern auch eine wissenschaftliche Auswertung solcher Texte mit computergestützten Verfahren erschweren oder sogar ganz sinnlos machen könnte. Bei den Volltexten stellt sich die Frage, in welchem Format sie bereitgestellt werden sollten. Es besteht weitgehend Konsens, hier wieder nur allgemein verbreitete, nicht-proprietäre Formate zu verwenden. In der Regel sind dies derzeit ASCII-basierte Systeme, für die Zukunft ist aber auch mit einer stärkeren Bedeutung von UNICODE zu rechnen. Da die meisten Projekte auch eine Veröffentlichung im Internet oder zumindest mit kompatiblen Techniken anstreben, spielen spezielle Textdatenformate (wie Word, TeX oder PDF) ohnehin kaum eine Rolle.
"Texte" im weiteren Sinne, wie sie in den Dokumenten dargeboten werden, bestehen nicht nur aus Zeichenketten. Es können zusätzliche Informationen in die digitale Form des Textes mit einbezogen werden, die z.B. das Layout (Zeilenumbruch bei Gedichten), die Struktur (die einzelnen Abschnitte) oder inhaltliche Beschreibungen (dies ist ein "Titel", ein "Autor" etc.) betreffen können. Für verschiedene Verwendungszwecke sind auch solche Daten wichtig und man wird in vielen Fällen erst dann von einer vollständigen digitalen Abbildung eines materiell vorliegenden Textes sprechen können, wenn auch sie mit aufgenommen worden sind.
2.3.2.2. Organisatorisches und technisches Vorgehen
Auch im Bereich der Textdigitalisierung stellt sich wieder die Frage, ob es zweckmäßig ist, sie innerhalb des Projektes durchzuführen oder einen entsprechenden Auftrag an einen externen Dienstleister zu vergeben. Wieder hängt die Beantwortung der Frage von der Art des Bestandes und dem gewünschten Ergebnis ab. Eine eigene Textdigitalisierung kann z.B nötig sein, wenn das Material so anspruchsvoll ist, daß es nur von fachlich vorgebildeten Spezialisten fehlerfrei gelesen werden kann. Dies ist z.B. bei Handschriften der Fall, teilweise aber auch bei speziellen Formen von Druckwerken(42). Eine Auftragsvergabe nach außen ist auch nicht nötig, wenn nur kleine Teilinformationen (z.B. Überschriften) aufgenommen werden sollen, die u.U. direkt mit der Bilddigitalisierung oder auf ihrer Grundlage erhoben werden können. Auch die Verwendung automatischen OCRs wird in den meisten Fällen im Hause durchführbar sein, wenn es nur einer besseren Durchsuchbarkeit und nicht der Erstellung eines fehlerfreien Textes dient.
In den übrigen Fällen, wenn also ein korrekter elektronischer Text einer umfangreichen, nicht allzu ungewöhnlichen gedruckten Vorlage das Ziel ist, führt die Auftragsvergabe an externe Dienstleister wegen ihres Vorsprungs an Organisation und Erfahrung und wegen der Verwendung anderer (nämlich speziell geschulter, erfahrener oder sehr billiger) Arbeitskräfte zu einer ökonomischeren Durchführung, als sie innerhalb des Projektes möglich ist. Die beiden Verfahren, die hier zur Anwendung kommen, sind die automatische Texterkennung durch den Computer (OCR) und die händische Erfassung ("keyboarding"). Die automatische Erfassung kann nur so gut sein, wie die Vorlage. In den meisten Projekten des Untersuchungsbereiches geht es aber gerade nicht um Bestände relativ junger Druckwerke mit modernen Zeichensätzen und einem aktuellen Wortschatz. Und so ist das Problem in diesem Bereich ein dreifaches: schlechte Vorlage, der Software unbekannter Zeichensatz, der Software unbekannte Worte(43). Es ist zwar inzwischen möglich, auch Frakturschriften automatisch erkennen zu lassen, der Aufwand für die Einstellung (das "Training") der Software und die verbleibende Fehlerquote ist hier aber immer noch recht hoch. Für die Zukunft ist in diesem Bereich noch eine deutliche Verbesserung zu erwarten. Die Ergebnisse hängen aber nicht zuletzt auch von der Qualität der digitalen Abbildung ab, die durch die Software nicht unbegrenzt ausgeglichen werden kann.
Das größte Problem und der eigentliche Kostenfaktor bei der OCR ist die notwendige Korrektur. Diese kann teilweise automatisiert oder auch auf die Lesung der Bereiche und einzelnen Buchstaben beschränkt werden, die der Computer als unleserlich klassifiziert hat. Trotzdem bleibt immer ein hohes Maß an händischer Nachbearbeitung. Ist dieses zu hoch, wird manchmal direkt das "keyboarding", also die manuelle Eingabe, bevorzugt(44). Der Text wird in der Regel zweimal eingegeben und dann automatisch verglichen. Bei großen Textmengen wird das abtippen häufig immer noch in Billiglohnländern wie China oder Indien durchgeführt, was bei anspruchsvollen Vorlagen wiederum problematisch ist, etwa wenn der Typist weder mit der Sprache, noch mit dem Zeichensatz der Vorlage ausreichend vertraut ist.
2.3.2.3. Texterstellung und inhärente Erschließung
Die digitale optische Abbildung eines Bestandes trägt nicht zur Erschließung bei. Sie erleichtert zwar den Erschließungsprozeß und erlaubt dem Betrachter selbst weitere Informationen daraus aufzunehmen, für den Zugriff auf den Bestand ist sie aber nur in dieser mittelbaren Form ein Hilfsmittel. Dagegen wurde für die digitalen Texte bereits darauf hingewiesen, daß etliche ihrer Formen nicht eine Abbildung der Vorlage (einen korrekten Volltext) zum Ziel haben, sondern eher dem gezielteren Zugriff auf Teile des Bestandes dienen. Anders formuliert: Textdigitalisierung in jeder Tiefe kann immer auch einen Beitrag für die Erschließung leisten, die ja ebenfalls meistens auf textlichen Daten beruht.
Es wurde auch schon darauf hingewiesen, daß ein digitaler Text die Informationen über Layout, Struktur und Inhalte mit enthalten kann. Dies ist das Prinzip der Auszeichnungssprachen, die den eigentlichen Textkörper mit Information aus den drei genannten Bereichen "anreichern". Die Auszeichnungssysteme (SGML, HTML, XML) sind international normierte nicht-proprietäre Formate, die auch die Grundlage des WWW bilden. Sie sind offen, können also auf unterschiedliche spezielle Anforderungen angepaßt werden, gleichzeitig aber so weit verbreitet, daß davon ausgegangen werden kann, daß sie langfristig benutzbar bleiben werden und es ein hohes Maß an Unterstützung seitens der Industrie und anderer Softwareentwickler geben wird. Während die Funktion elektronischer Texte für die Erschließung im Bereich der Volltextrecherche und der strukturierenden Daten (Titel, Register etc.) auch ohne solche Auszeichnungen schon gegeben war, besteht mit ihnen die Möglichkeit auch tiefergehende beschreibende Informationen aus den Texten für den Zugriff zu nutzen. Letztlich wird dadurch die Trennung von Repräsentation und Erschließung hinsichtlich des Arbeitsprozesses aufgehoben. Das beschreibende Wissen über Texte und Bilder kann diesen direkt hinzugefügt werden. In einem zweiten Schritt kann es dann genutzt werden um einen erschließenden Zugriff zu ermöglichen, z.B. indem die beschreibenden Daten extrahiert und in Datenbankstrukturen abgelegt werden, auf die wiederum eine Benutzeroberfläche zugreift. In der Praxis gibt es bereits einige Projekte, die mit Auszeichnungssprachen arbeiten. Die Verwendung von HTML erlaubt zwar noch keine semantischen Auszeichnungen (z.B. "Autor"), es wird aber manchmal auch SGML verwendet, wo dies möglich ist. XML als dritte und zukunftsträchtigste Variante ist noch zu neu, als daß sie schon im praktischen Einsatz wäre. Es gibt aber auch hier Projekte, die über eine Verwendung ernsthaft nachdenken. Interessant dürfte dabei auch das Automatisationspotential sein. Strukturelle (Überschriften, Seitenzahlen) und Layoutinformationen (kursiver Druck, Zeilenumbruch) können vom Computer erkannt und dem Text oder einem Bild beigefügt werden. Mittelfristig ist aber auch an die automatische Auszeichnung inhaltlicher Aspekte (z.B. Personennamen) zu denken.
2.4. Erschließung im engeren Sinn, beschreibende Daten, Metadaten
Der Begriff der "Erschließung" ist nicht unproblematisch. Man könnte darunter die Sammlung beschreibender Daten verstehen, man könnte den Begriff aber auch mit "Nutzbarmachung" übersetzen und hätte dann ein weiteres Konzept, das neben der eigentlichen Beschreibung zumindest in der Version der "digitalen Erschließung" auch noch die Aspekte der Abbildung und der Publikation einschlösse. Die Erschließung "im engeren Sinne" wäre dann zu definieren, als regelgeleitete Sammlung von strukturierten Informationen zu einem Bestand, die zur Ermöglichung eines einfacheren und gezielten Zugriffs auf die enthaltenen Informationen beitragen sollen. Diese Informationen können aus dem Bestand selbst gewonnen werden oder nach einem äußeren Schema gebildet sein. Es handelt sich dabei um daten, die Form, Inhalt und Struktur beschreiben, so daß man für die Erschließung im engeren Sinne auch die Umschreibung "Erhebung von Metadaten" oder "Erhebung von beschreibenden Informationen" benutzen könnte. Besonders der Begriff der Metadaten, als "Daten über Daten", entspricht gut der Unterscheidung von Bestandsabbildung und Bestandserschließung (im engeren Sinne): Metadaten sind alle Daten, die nicht unmittelbar den Inhalt abbilden, sondern auf ihn verweisen. Sie müssen nicht (können aber sehr wohl) unmittelbar aus den inhaltlichen Daten gewonnen werden. Ein Beispiel dazu sind Wortkonkordanzen, die zwar aus den inhaltlichen Daten generiert, zum Zweck des gezielten Zugriffs aber regelgeleitet "umstrukturiert" werden, indem sie z.B. in eine alphabetische Ordnung gebracht werden. Metadaten sind "erschließende" Daten, weil sie durch Beschreibung oder Strukturierung die Verwaltung von Informationen und den gezielten selektierenden Zugriff auf sie ermöglichen.
2.4.1 Erschließungstiefe
Der Aspekt der Tiefe der Erschließung im engeren Sinne bezieht sich auf die Zerlegung des Bestandes in einzelne hierarchisch geordnete Einheiten und die Genauigkeit ihrer Beschreibung, die sich z.B. durch die Menge der erfaßten Merkmale oder Kriterien angeben läßt. Je nach Bestandsart kann das Vorgehen wieder sehr unterschiedlich sein und es werden jeweils andere Merkmale aufgenommen. Eine bloße Trennung der Erschließung nach inhaltlicher und formaler Erschließung entspräche zwar gewissen fachlichen Traditionen, wird aber weder der Komplexität der unterschiedlichen Erschließungsbereiche gerecht, noch würde sie interdisziplinäre Mißverständnisse verhindern: Was nämlich jeweils unter inhaltlicher und was unter formaler Erschließung zu verstehen ist, kann durchaus von Fachgebiet zu Fachgebiet variieren und wird angesichts eines konkreten Bestandes manchmal von verschiedenen Betrachtern unterschiedlich definiert werden. Ich habe deshalb in dem generellen Schaubild (siehe Kap. 1.5) keine explizite Systematik der Erschließungsbereiche versucht, sondern nur einige typische und gebräuchliche Erschließungsmittel aufgeführt.
Wollte man dennoch die unterschiedlichen Bereiche der beschreibenden Daten benennen, so könnten vier Gruppen gebildet werden:
- Abgrenzung und Nennung der Struktureinheiten: Dies kann von den einzelnen Teilen des Bestandes ausgehen (z.B. durch eine bibliographische Beschreibung bibliographischer Einheiten, durch die Nennung von Aktentiteln, Beschriftung von Fotokartons etc.) und sich bei deren Untereinheiten fortsetzen (Aufsatz- oder Rezensionsteil einer Zeitschrift; Bescheid innerhalb einer Akte; Einzelne Aufsätze einer Zeitschrift, etc.)
- Formale und organisatorische Beschreibungen: Z.B. Angaben zum Material des Dokuments, Größe, Erhaltungszustand, Aufstellung/Signatur, Entstehung des Dokuments, Rechtsqualität, Bearbeiter etc.
- Inhaltliche Beschreibungen: Diese können entweder wieder auf ganze Dokumente oder Teile bezogen sein und normale Textform haben (z.B. als Regesten) oder begriffsorientiert und listenförmig sein (Register, Schlagwortlisten, Indizes). Hierbei sind jenseits der klassischen Felder "Person", "Ort", "Körperschaft" etc. die unterschiedlichsten Kriterien denkbar, die sich aus der Besonderheit des Bestandes und den zu erwartenden Fragestellungen der Benutzer ergeben können(45).
- Anlagerung von Sekundärinformationen: Dies kann streng genommen auch schon bei der inhaltlichen Beschreibung geschehen, da diese oft durch Begriffe vorgenommen wird, die nicht unmittelbar der Vorlage entstammen. Hier ist aber weniger die begriffliche Klassifikation von Inhalten gemeint, als vielmehr die Hinzufügung ergänzender Informationen, z.B. biographischer Angaben zu den vorkommenden Personen etc.
Der Weg zu einer flachen oder tiefen Erschließung ist nicht durch diese Unterteilung vorgegeben, auch wenn bei einer flachen Erschließung am ehesten auf den dritten und vierten Bereich verzichtet wird. Minimalkonzepte der Erschließung können sich z.B. auf eine grobe Katalogisierung beschränken, die aber meistens auch schon einige formale Kriterien einschließt. Eine nächste Stufe könnte dann aber entweder die Strukturbeschreibung vertiefen oder aber zur Verschlagwortung übergehen. In Fällen tiefer Erschließung werden oft alle vier Bereich abgedeckt und diese selbst wieder umfassend bearbeitet, indem z.B. eine ganze Reihe - eventuell auch hierarchisch gestaffelte - inhaltliche Kriterien aufgenommen werden. Die Tiefe der Erschließung läßt sich anhand der vier Bereiche beschreiben: welche abgedeckt werden und wieviele Kriterien jeweils aufgenommen werden. Erschließungsprojekte nähern sich dabei anderen wissenschaftlichen Formen wie Editionen und Auswertungen, die sich im Grunde nur durch eine größere Erschließungstiefe oder die Konzentration auf bestimmte Erschließungsperspektiven von flachen Bestandserschließungen unterscheiden.
Der Unterschied ist folglich ein gradueller und keiner, der die grundsätzliche Methodik oder die letztendlichen Ziele betreffen würde. Dies ist eine Eigentümlichkeit, die sich aus der Offenheit digitaler Erschließungsprojekte ergibt. Die meisten Vorhaben arbeiten zwar mit vorgegeben Erschließungstiefen, viele verzichten aber auch darauf, diese genau festzulegen und bei einigen gehört es geradezu zur Methode, es offen zu lassen um dadurch auf die weitere Entwicklung der Technik, der Methoden oder der Benutzerwünsche reagieren zu können. Ausnahmen von der Regel, das Material in gleichmäßiger Tiefe zu erschließen gibt es ebenfalls, wenn z.B. eine genauere Erfassung und Beschreibung erst auf den Wunsch eines Benutzers durchgeführt wird, oder wenn bestimmte Teile des Bestandes einer anderen Erschließung zugeführt werden, um alternative Möglichkeiten auszuloten oder eine dichtere Publikation vorzubereiten, mit der die Nutzungsmöglichkeiten dokumentiert und das Interesse an dem jeweiligen Bestand stimuliert werden soll.
Jenseits der höchst divergenten Praxis, was die konkrete Tiefe und Gleichmäßigkeit der Erschließung betrifft, ist die grundsätzliche Offenheit für eine weitergehende Erfassung und Beschreibung ein wichtiges Kriterium für die Definition, Formierung und Konzeption solcher Vorhaben. Auf einige Punkte soll kurz hingewiesen werden:
- Die Möglichkeit automatisierter Erschließungsarbeiten: Dies betrifft nicht so sehr eine sukzessive Vertiefung (weil auch die einzelnen Bereiche nicht aufeinander aufbauen), als vielmehr die Generierung von beschreibenden Daten mit Hilfe der repräsentierenden Daten. Hier ist z.B. an automatische Binnenstrukturierung, Titelerkennung, Verschlagwortung oder ähnliches zu denken. Diese Methoden stehen zum großen Teil noch am Anfang ihrer Entwicklung, können aber ggf. sehr schnell und einfach für einen bereits digitalisierten Bestand adaptiert werden.
- In einer Phase tiefgreifender Umstellungen ist nicht klar, wie letztlich das Verhältnis von Erschließungspraxis und Benutzerwünschen sein wird. So werden derzeit notgedrungen auch Metadaten erhoben, ohne daß man deren Nutzen genau abschätzen kann. Dies betrifft sowohl die Auswahl der beschreibenden Kriterien, als auch die Form in der die Daten dargeboten und abgefragt werden können. In der Praxis steht vielfach das Angebot vor der Nachfrage. Die Entwicklung muß sich aber aus einem wechselseitigen Prozeß ergeben, für den die Offenheit der Erschließungstiefe essentiell ist.
- Auch innerhalb eines Projektes können Erfahrungsgewinn und Perspektivenwechsel zu Veränderungen in der Erschließungskonzeption führen. Hier spielt eine den Benutzerwünschen komplementäre Tendenz eine Rolle: Es wird sich nach einem tiefgreifenden Erschließungsprojekt mit hoher Wahrscheinlichkeit niemals wieder jemand so tief mit der Struktur und dem vollständigen Inhalt eines Bestandes auseinandersetzen, wie der Projektbearbeiter es getan hat.
Dies alles führt letztlich dazu, daß Projekte zur digitalen Bestandserschließung nicht mehr durch eine vorgegebene und feststehende Erschließungstiefe gekennzeichnet sind, sondern als Teil eines offenen Prozesses aufzufassen sind. Selbst wenn die organisatorische Form eines Pilotprojektes einen zeitlichen und inhaltlichen Rahmen festlegt, kann dieser nur relativ zu den Gesamtoptionen der Erschließung sein. Dies markiert durchaus einen Unterschied zu traditionellen Erschließungsformen, eben weil weder die gleichen Erschließungsmöglichkeiten bestanden, noch das gleiche Maß an leichter Veränderbarkeit und Erweiterung.
Im Bereich der digitalen Arbeits- und Publikationsformen gehört zur Erschließung im engeren Sinne auch die Verknüpfung von Daten mit anderen Informationsbereichen. Grundlegend (aber durchaus nicht immer verwirklicht) ist die reale Verknüpfung der Metadaten mit den repräsentierenden Daten, die eine sofortige Anzeige jener digitaler Abbildungen oder Texte erlaubt, auf die sich die Metadaten beziehen. Hier ist insofern von "Tiefe" zu sprechen, als daß es Unterschiede gibt, auf welche strukturelle Einheit eines Bestandes die Verknüpfung zielt. In einigen Projekten führt ein Schlagwort oder Registereintrag nur zur Anzeige einer ganzen Seite, in anderen wird der betreffende Abschnitt oder das entsprechende Wort direkt markiert.
Erschließung im Sinne von Verknüpfung kann aber auch die Beziehung von repräsentierenden Daten untereinander meinen. Kommt in einem Dokument eine Person vor, so kann die Stelle auch direkt mit einem weiteren Dokument verbunden sein, in dem die Person ebenfalls genannt wird. In einem solchen Fall müßte man ebenfalls von Erschließung im engeren Sinne sprechen, obwohl eigentlich keine separaten Metadaten angelegt worden sind.
Eine dritte Möglichkeit von Erschließung durch Verknüpfung ist - z.B. über das Internet - die Verbindung mit externen Daten, das heißt, mit Informationen, die in inhaltlichem Bezug zu einer zu erschließenden Stelle stehen.In der Praxis der untersuchten Projekte läßt sich eine große Bandbreite der unterschiedlichen Konfigurationen von Erschließungstiefe beobachten: von einfacher bibliographischer Erfassung bis hin zu extrem genauer und methodisch strukturierter Beschreibung z.B. von Periodika(46), Bildern(47) oder Akten(48) mit einer hohen Binnenstrukturierung, umfassender formaler, technischer und organisatorischer Beschreibung, einer Vielzahl erhobener Kriterien und Unterkriterien, der umfangreichen Anlagerung von Sekundärinformationen und teilweise auch der "Verlinkung" mit externen Informationsressourcen im Internet. Naturgemäß besteht sowohl ein Zusammenhang von Bestandsumfang und Tiefe der Erschließung, wie zwischen Erschließungszweck und Erschließungstiefe. Die Erhebung von beschreibenden Daten ist der anspruchsvollste und zeitaufwendigste Teil eines Projektes und entsprechend auch der teuerste. Eine sehr tiefe Erschließung wird deshalb meistens nur durchgeführt, wenn es sich um einen begrenzten Bestand handelt oder ein spezielles Interesse an seiner Auswertung und Benutzung besteht, das sowohl aus einer wissenschaftlichen Perspektive, als auch aus der eines breiteren Publikums herrühren kann.
2.4.2 Organisatorisches Vorgehen
Von der Durchführung her scheinen Bestandsrepräsentation und Metadatenerhebung umgekehrte Wege zu gehen. Wird bei der Repräsentation das Material in seiner ganzen Breite gleichmäßig in ein digitales Format konvertiert, aus dem dann ggf. zusätzliche Beschreibungen gewonnen werden, so setzt die Erschließung gezielt an einzelnen Punkten an, um Strukturen oder Inhalte zu systematisieren, die dann mit den Abbildungen verknüpft werden.Tatsächlich kann aber ein sehr enger Zusammenhang zwischen Repräsentation und formaler Beschreibung bestehen:
- Die Digitalisierung kann bereits unter Erschließungsaspekten durchgeführt werden, indem sie selektiv vorgeht und sich auf Elemente beschränkt, die für die Struktur des Bestandes wichtig sind (Titelblätter, Inhaltsverzeichnisse etc.).
- Digitale Abbildungen und Texte erleichtern die Erschließungsarbeit. Es ist einfacher Metadaten in eine Computermaske einzugeben, wenn das Abbild im gleichen Gerät angezeigt wird und eventuell Informationen auch direkt übernommen werden können. Daß dies teilweise auch automatisierbar ist, wurde bereits mehrfach erwähnt. Ein einfaches Beispiel hierfür ist die Indexerstellung aus einem bereits vorhandenen Volltext.
- Es können bereits beim Digitalisierungsprozeß Metadaten mit erhoben werden. Das Material muß hierbei ohnehin einmal vollständig bewegt werden und so werden bei manchen Projekten z.B. bei der Herstellung von Bildern direkt Barcodes mit aufgenommen, die Angaben über das Dokument enthalten und später automatisch verarbeitet werden können.
Die Vergabe von Arbeitsaufträgen nach außen spielt im Bereich der Erschließung im engeren Sinne keine große Rolle. Nur in Einzelfälle wird eine formale Beschreibung durch private Firmen vorgenommen. Fast durchgängig findet die Beschreibung der Dokumente durch hochqualifizierte Fachleute in der beständehaltenden Institution statt. Dies sind Bibliothekare, Archivare, Dokumentare oder Fachwissenschaftler der einzelnen Spezialdisziplinen, die entweder besondere Kenntnisse zu den einzelnen Beständen haben, oder wegen ihrer methodischen Ausbildung dazu geeignet sind. Teilweise werden Erschließungsarbeiten auch von studentischen Hilfskräften oder anderen nicht hoch spezialisierten Arbeitskräften geleistet. Dies ist aber eher die Ausnahme und findet ebenfalls im Hause der projektleitenden Institution, nach Einarbeitung und unter Kontrolle durch die Hauptbearbeiter, statt.
Die Datenerhebung wird am Computer und meistens auch direkt mit dem entsprechenden Datenbank- oder Dokumentenmanagementsystem vorgenommen, das die Verwaltung der Metadaten übernimmt. Dazu werden meistens Formblätter und Eingabemasken benutzt, auf denen die einzelnen Kriterien nur noch ausgefüllt werden müssen. Trotz der oben angesprochenen Automatisierungsmöglichkeiten geschieht die Metadatenerhebung zum überwiegenden Teil noch händisch, weil sich die Informationen nicht genau aus den Vorlagen ergeben, sondern einer externen Klassifikation und Terminologie folgen. Eine Alternative dazu, die aber kaum entwickelt ist, ist die Eingabe von Informationen in sprachlicher Form. Hierbei könnte direkt am Original eine Beschreibung erfolgen, die dann vom Computer in die vorgesehene Beschreibungsform umgewandelt würde. Eine bereits jetzt praktikable Ergänzung zur händischen Aufnahme von beschreibenden Informationen ist das Verfahren des Ausschneidens und Einfügens ("cut and paste") von Begriffen und Textteilen, die z.B. in einem OCR-Prozeß gewonnen wurden, und für die Informationsstrukturierung in die entsprechenden Eingabemasken kopiert werden.
Für die Organisation der Metadatenerhebung hat sich mit den digitalen Arbeitsformen und den neuen Kommunikationstechnologien die Option der stärker verteilten und interaktiven Erschließung ergeben. Diese Methode ist ein naheliegendes Mittel, mit dem Problem der schwierigen Organisation höchst umfangreicher Vorhaben umzugehen und nutzt die bereits erläuterte Offenheit der digitalen Erschließungsformen für eine permanente Veränderung und Erweiterung. In der Praxis finden sich die verschiedensten Formen der Organisation. Oft wird die Beschreibung von einzelne Bearbeitern vorgenommen, oft auch von einer ganzen Gruppe. In einem Projekt gibt es sogar eine hoch organisierte Verteilung der Erschließungsarbeit auf eine große Zahl freiwilliger Experten, die ihren Beitrag über das Internet und E-mail leisten(49). In anderen Projekten setzt man auf die Mitwirkung der Benutzer, die durch ihr Wissen zur korrekten und tiefen Beschreibung der Dokumente beitragen können. Hier kann ein entsprechendes Formular der Publikation des Bestandes direkt beigefügt werden, so daß Ergänzungen und Korrekturen entweder selbständig und automatisch, meistens jedoch nach einer Kontrolle durch Projektmitarbeiter, den Metadaten hinzugefügt werden können(50).
2.4.3 Verwendung von Standards
Wenn von Standards bei der Metadatenerhebung die Rede ist, so bezieht sich dies auf drei Bereiche:
- Die Regeln der Beschreibung. Dies können die Regeln für Regestierung, alphabetische Ordnungen oder Schlagwortnormdateien sein.
- Die Strukturierung der erhobenen Daten, z.B. in relationalen oder hierarchischen Modellen, als Datenbankfelder oder Volltexte eventuell auch durch Auszeichnungssysteme.
- Die Formate der Datenhaltung, also Softwareformate, Grundformate, mögliche Austauschformate etc.
Alle drei Bereiche sind wichtig für die Frage der Zukunftssicherheit der geleisteten Erschließungsarbeit, für die Zusammenfassung mehrerer Bestände unter einer gemeinsamen Nutzeroberfläche und für einen rationellen Zugriff. Für die Regeln der Beschreibung bestehen außerdem Forderungen nach innerer Konsistenz und Vollständigkeit, nach ihrer Eignung für den jeweiligen Bestand und nach Nachvollziehbarkeit und Verständlichkeit für den Benutzer. Die Effizienz des Zugriffs hängt auch davon ab, daß sich der Nutzer nicht in neue Systeme eindenken und einarbeiten muß, sondern entweder auf bekannte Ordnungsmuster trifft, oder diese seinen intuitiven Erwartungen möglichst nahe kommen. "Erschließung" bedeutet auch Beschreibung durch ein regelgeleitetes abstrahierendes System, gewissermaßen durch eine beschreibende Metasprache. Der Sinn dieser Sprache ergibt sich durch ihren Gebrauch, der auf Vollständigkeit, vor allem aber auf Verständlichkeit beruht. Neben der Frage der Benutzung trägt das Problem der Zukunftssicherheit und Integrationsfähigkeit der beschreibenden Daten zur großen Bedeutung von Standards bei. Werden in hohem Maße unterschiedliche Systeme verwendet, so steigt entsprechend der Einarbeitungsaufwand für den Benutzer und es ist weder der gemeinsame Zugriff auf verschiedene Bestände, noch die Brauchbarkeit für die Zukunft gesichert.
Die offenkundig sinnvolle Entwicklung und Durchsetzung von Standards stößt in der Praxis auf einige Schwierigkeiten:
- Es besteht ein Spannungsverhältnis zwischen dem allgemeinem Ziel der Verwendung von Standards und den speziellen Anforderungen des konkreten Bestandes, bzw. wie diese vom jeweiligen Bearbeiter gesehen werden. Standards sind naturgemäß allgemeiner, als die konkreten Besonderheiten eines Bestandes, so daß sie oft nicht zufriedenstellend übertragbar sind. Die Neuentwicklung eines eigenen Regelwerkes oder einer eigenen Software scheint dann oft einfacher und letztlich präziser zu sein, als die Anpassung und Weiterentwicklung bestehender Systeme. Je tiefer die Erschließung, um so differenzierter und dem Bestand angepaßter wird das Erschließungssystem. Dies führt dann selbst bei sehr ähnlichen Arten von Dokumenten in ähnlichen Institutionen oft zu unterschiedlichen Vorgehensweisen(51).
- Es gibt bereits unterschiedliche Traditionen von Standards, die nun auch auf die digitalen Arbeitsformen einwirken. In Bibliotheken und Archiven haben sich jeweils andere Erschließungskonzepte entwickelt, die auch verschiedene Regelwerke und Systematiken zur Folge hatten. Dies hatte seinen guten Grund darin, daß beide Institutionstypen für unterschiedliche Bestandsarten zuständig waren. Hatten es die Bibliotheken hauptsächlich mit klar abgegrenzten mehrfach existenten und gleichförmig strukturierten Einheiten zu tun, für die einheitliche Beschreibungsmodelle entwickelt wurden, so verwalteten die Archive ungleich komplexere Bestände, die andere Systematiken und Erschließungsstrategien erforderten. Weiter oben wurde behauptet, daß mit der tendenziell tieferen Erschließung mit digitalen Formen auch eine stärkere Spezialisierung der Beschreibungsysteme einherginge. Gleichzeitig verschwimmen aber die Grundunterschiede zwischen archivarischer und bibliothekarischer Erschließung und treten gemeinsame Schwierigkeiten stärker hervor, so daß die Chance, zu übergreifenden Methoden zu kommen, wächst. Gleiche Probleme im Bereich der Digitalisierung, der Datenorganisation und -verwaltung oder der Datenaufbereitung zur Publikation werden hier aber leider immer noch gemäß der erlernten Denkweisen und Grundstrategien angegangen.
- Wir befinden uns in einer Transmissionsphase einiger Arbeits- und Benutzungstechniken. Dies führt zu neuen Problemen, aber auch zu einer neuen Offenheit und damit neuen Chancen für umfassende Lösungen. Hier kollidieren grundsätzliche Neuansätze, die - z.B. auf die Bedingungen des weltweiten Computernetzes bezogen - allgemeine Systeme für beschreibende Daten entwickeln (vgl. RDF, Dublin Core), mit den Versuchen zur Weiterentwicklung und Übertragung etablierter Regeln und Muster aus den Bibliotheken und Archiven. Gegenwärtig erhöht sich noch die Zahl der Regelwerke und Systeme, anstatt sich der vereinheitlichenden Tendenz der Technik gemäß zu verringern
In der Praxis der untersuchten Projekte findet sich eine hohe Zahl unterschiedlichster Standards oder auch Beschreibungssysteme, die nur eine geringe Verbreitung haben oder sogar nur in einzelnen Projekten zur Anwendung kommen. Dies betrifft sowohl die Regeln für die Erfassung von Metadaten, als auch deren Struktur, als auch deren technische Formate. Leiten sich die unterschiedlichen Modelle zur Beschreibung von Dokumenten noch aus deren Besonderheiten ab, so ist die Divergenz der Datenorganisation schon weniger zwingend. Sie ist aber ähnlich hoch und selbst im Bereich der Dateiformate werden teilweise noch aufgrund der benutzten Software "Standards" verwendet, bei denen nicht gesichert ist, daß in Zukunft ein Export der Daten in ein anderes System ohne Informationsverluste möglich sein wird.
Die Konzentration auf Auszeichnungssprachen würde hier sicher zu einer Vereinheitlichung beitragen, da sie bereits als gleichmäßiger Standard etabliert sind, ein hinreichend abstraktes, allgemeines Gerüst bieten und dennoch für die weitere Anpassung an spezielle Anforderungen offen sind(52). In den USA, Kanada und Großbritannien gibt es bereits eine gewisse Tradition in der Arbeit mit SGML. Diese ist in Deutschland nicht in gleichem Maße vorhanden; mit dem bereits weit verbreiteten HTML, der Text Encoding Initiative (TEI) und mit der zu erwartenden Durchsetzung von XML als Internet-Grundstandard gewinnen diese Systeme aber an Bedeutung. Die TEI zeigt mit ihren Richtlinien dabei einige Lösungsansätze auf, wie zumindest für Teilbereiche Standards etabliert werden können, die auf Auszeichnungssystemen beruhen, ein abstraktes Grundgerüst bieten und für Spezialanforderungen jeweils durch Zusatzmodule ergänzt werden können. Analog dazu sollten jetzt auch Beschreibungssyteme (DTDs) für andere Dokumenttypen (z.B. aus dem archivalischen Bereich) entwickelt werden um sie frühzeitig als Standards zu etablieren und eine erneute Aufsplitterung in Systeme von geringer Reichweite zu verhindern.In der Praxis der Bestandserschließung führt das Spannungsverhältnis zwischen angestrebter Einheitlichkeit und den speziellen Anforderungen, Zielen und Methoden dazu, daß nur selten gemeinsame Standards verwendet werden(53). Das Bewußtsein für die Problematik ist zwar hoch entwickelt, bei der praktischen Durchführung wird aber doch meistens anderen Gründen als dem Wunsch nach Einheitlichkeit bei der Entscheidung für oder gegen ein bestimmtes System der Vorzug gegeben. Für die Regeln der Beschreibung wird zu Beginn des Projektes nach einem geeigneten System gesucht. Die vorhandenen werden dann oft als nicht passend abgelehnt und entweder abgewandelt, oder ganz verworfen, woraufhin ein eigenes Raster entwickelt wird. Dieses wird meistens - allein schon für die eigene verteilte Durchführung - gut dokumentiert und stünde dann auch anderen zur Verfügung, wird aber selten wirklich übernommen. Nur in Ausnahmefällen und in bestimmten Bereichen kommen allgemeine Standards zur Anwendung - am ehesten noch im bibliothekarischen Bereich und der bibliographischen Beschreibung, bei der man auf bekannte und weit verbreitete Regeln zurückgreift.
Neben der Auswahl der Beschreibungskriterien stellt sich die Frage, mit welcher Terminologie diese erfaßt werden sollen. Auch diese Frage ist für die schließliche Benutzung von hoher Bedeutung, da Schlagwortlisten und Register, bzw. Suchmasken, die auf sie zugreifen oft die einzige Schnittstelle zwischen dem Benutzer und den Dokumenten sind. Die Grundforderung nach möglichst allgemeiner Verständlichkeit der beschreibenden Daten trifft auf das Problem unterschiedlicher Nutzergruppen, unterschiedlicher Projektbearbeiter und einiger alternativer Vorgehensweisen:
- In manchen Projekten werden die erschließenden Begriffe direkt aus der Vorlage übernommen, in anderen werden sie von außen gebildet. Werden sie aus dem Original übernommen entfällt zwar das Problem unterschiedlicher Bearbeiter und des Informationsverlustes zwischen authentischer und klassifikatorischer Begrifflichkeit, dafür sind externe Begriffssysteme unter Umständen für heutige Benutzer konsistenter und verständlicher.
- Werden die Begriffe durch die Bearbeiter gebildet, so kann dies in einer festgelegten und abgegrenzten Terminologie oder in einer offenen und je nach Bearbeiter unterschiedlichen geschehen. Hier gibt es sehr unterschiedliche Strategien. Manche Erschließungsprojekte lehnen eine Festlegung explizit ab und sehen in der unterschiedlichen Klassifikation der Bearbeiter geradezu einen Gewinn. Die Mehrzahl aber arbeitet mit möglichst stabilen Begriffslisten, die entweder einer Norm entstammen, vorher festgelegt werden oder während der Erschließung sukzessive wachsen. Der letztere Fall ist am ehesten typisch für die digitalen Erschließungsmethoden. Man beginnt mit einem Grundgerüst an Begriffen und erweitert dieses jedesmal, wenn es sich als nicht ausreichend erweist. Die Gefahr ungleichmäßiger Beschreibung ist damit aber auch nicht ganz ausgeräumt, werden doch früh erfaßte Dokumente noch unter einem anderen Begriffsraster erschlossen, als spät erfaßte.
- Neben den Brüchen zwischen historischen und aktuellen oder zwischen quellenimmanenten und externen abstrahierenden Begriffen besteht noch das Problem der Mehrsprachigkeit. Dieses stellt sich bei polyphonen Quellen, bei internationalen Projekten und bei solchen aus einer kleineren Sprachgruppe, die dennoch weltweit nutzbar sein sollen. Auch dazu muß entweder ein übergeordnetes Begriffssystem entwickelt werden, oder die beschreibenden Daten in mehreren Sprachen zur Verfügung gestellt werden(54).
Für die Zukunft der Standards ist zu hoffen, daß sich allgemeine Modelle stärker durchsetzen, die dann für Spezialfälle weiter auszudifferenzieren sind. Dies muß nicht im Rahmen der Auszeichnungssprachen geschehen, sondern kann auch andere logische Konzepte zur Grundlage haben. Wichtig ist hier ein Modell, das von einem möglichst abstrakten Rahmen ausgeht und die besonderen Anforderungen unterschiedlicher Bereiche als kompatible Module integrieren kann. Dies betrifft zunächst die Ebene der Metadatenkonstruktion, hätte aber auch Auswirkungen auf die eher technischen Bereiche der Datenverwaltung und der Dateiformate, die dann ebenfalls einheitlicher organisiert werden könnten. Das Problem einheitlicher Standards stellt sich am dringendsten in der Konzeption der beschreibenden Daten. Auf technischem Gebiet sind oft nachträglich noch technische Lösungen möglich und im Falle der grundlegenden Datenformate zeichnet sich ohnehin bereits eine Tendenz zu allgemeinen - zumindest kompatiblen - Standards ab. Nur wenn bereits die Logik der Beschreibung von unterschiedlichen Standpunkten ausgeht, ist eine spätere Vereinheitlichung über technisch zu realisierende Benutzerschnittstellen zum erschlossenen Bestand schwer zu erreichen.
Im Bereich der DFG und ihrer Bibliotheksprojekte mit dem Fernziel der "Verteilten Digitalen Forschungsbibliothek" gibt es Bestrebungen, technische Musterlösungen zu erarbeiten. Etliche der geförderten Vorhaben gehen zwar ihre eigenen Wege, daneben wird aber ein umfassendes Dokumentenverwaltungssystem entwickelt, das für die Organisation, Speicherung, Verwaltung und Veröffentlichung der Daten eine gemeinsame Lösung anbieten soll. Hier ist im Auge zu behalten, ob dieses offen genug ist, um den Bemühungen um Standardisierung (auch im modularen Sinne) zu folgen oder eine Tendenz zur Insellösung mit geringer Kompatibilität haben wird.
2.4.4. Technische Umsetzung
Für die technische Umsetzung von Erschließungsprojekten wird in den meisten Fällen auf klassische Datenbankkonzepte zurückgegriffen. Das heißt, die beschreibenden Daten werden in einer relativ simplen Tabellenstruktur verwaltet, um Suchanfragen zu ermöglichen, an deren Ende die Verknüpfung mit den digitalen Abbildungen steht. Das alternative Modell inhärenter Erschließung mit Auszeichnungssystemen spielt dagegen derzeitnoch eine geringere Rolle(55).
Verwendet wird eine sehr hohe Zahl unterschiedlicher Software, von einfachen Datenbankprogrammen über eigens entwickelte Anpassungen, komplett neu entwickelten Werkzeugen bis hin zu umfangreichen und hoch spezialisierten Datenbank- und Dokumentenmanagementsystem(56). Die Entscheidung für oder gegen eine bestimmte Software wird dabei oft nicht durch deren möglichst exakte Eignung bestimmt, sondern von pragmatischen Gründen: Was ist bereits vorhanden? Wofür stehen erfahrene Anwender zur Verfügung? Motiv dafür ist, z.B. bei den Bibliotheken, oft auch der verständliche Wunsch nach Kompatibilität zwischen neuen Erschließungsprojekten und den bisherigen Formen elektronischer Kataloge.
Bei vielen Projekten besteht eine Kooperation mit Rechenzentren, Informatik-Lehrstühlen oder anderen Fachleuten aus dem EDV-Bereich. Dies führt dazu, daß oft spezielle Lösungen auf den verschiedenen Stufen zwischen Digitalisierung, Datenverwaltung und Publikation entwickelt werden. Für die Bestandserschließung setzen diese aber meistens bei bereits vorhandenen Systemen an und schaffen dazu nur spezielle Arbeits- und Auswertungswerkzeuge.
2.5. Bestandspublikation
Ein digitaler Katalog und ein digitales Findmittel - letztlich also nichts weiter als eine Suchmaske - ist keine Publikation! Oder doch? Wenn digitale Bestandserschließung als grundsätzlich offenes System aufgefaßt wird, dann ist ein digitaler Katalog die erste Stufe innerhalb einer umfassenden Publikation. Deshalb ist jede Form der Möglichkeit öffentlichen Zugriffs auf einen Bestand als Publikation zu betrachten und unter einer gemeinsamen Perspektive zu untersuchen. Von einem Aspekt der "Tiefe" kann man in diesem Bereich kaum sprechen. In der Regel werden alle digitalen Informationen verfügbar gemacht, wenngleich die digitalen Abbildungen auch oft in schlechterer Qualität veröffentlicht werden, als sie eigentlich in der Archivversion vorliegen. Die verschiedenen Publikationsformen lassen sich eher danach unterscheiden, wie weit sie ihre Daten für einen möglichst einfachen Zugriff nochmals aufbereiten. Man könnte in diesem Sinne von "rudimentärer Publikation" sprechen, wenn z.B. nur eine einfache Suchmaske mit einem Suchfeld als Benutzerschnittstelle angeboten wird oder von einer "umfassenden Publikation", wenn verschiedene komplexe Suchroutinen ermöglicht werden, der Bestand auch auf anderen Wegen (browsing) benutzbar ist und durch zusätzliche Informationen und Hilfen dem Benutzer zugänglich gemacht wird. Dies betrifft nicht die repräsentierenden oder beschreibenden Daten selbst, sondern eher, was für die Veröffentlichung aus ihnen gemacht wird.
2.5.1 Organisation
Die öffentliche Verfügbarkeit eines erschlossenen Bestandes ergibt sich nicht von selbst aus den vorhandenen digitalen Daten. Es ist nach der digitalen Abbildung und der Erhebung von Metadaten ein dritter Schritt nötig, der wieder eigene technische, methodische und organisatorische Konzepte erfordert.
Wer ist für diesen Bereich zuständig und wer führt die Publikation durch? In der Regel nicht die beständehaltenden Institutionen, die meistens auch die Projektleitung haben. Diese sind zwar für die Publikation verantwortlich und stellen sie zur Verfügung, sie erstellen sie aber nur, wenn sie mit einfacher Standardsoftware oder in Anknüpfung an bereits bestehende Publikationssysteme vorgenommen wird. Ein typischer Fall ist hier die Einfügung digital erschlossener Bestände in vorhandene elektronische Kataloge.
Jenseits dieser einfachsten Form der Publikation herrscht die Grundvorstellung der fachlichen Aufgabentrennung vor. Archivare, Bibliothekare und Fachwissenschaftler zählen die Frage nach der Form und der Erstellung der Bestandspublikation in der Regel nicht zu ihren Aufgaben und verfügen auch nicht über entsprechende Spezialkenntnisse und Erfahrungen.Es stellt sich deshalb die Frage nach den Partnern in diesem Bereich. Naheliegend wäre der Gedanke an die Verlage, die traditionell das Gebiet der Publikation, von der Methodik bis hin zur praktischen Erstellung und Verbreitung abdeckten. Für die digitale Bestandserschließung spielen sie aber kaum eine Rolle. Dies kann auch an dem Material liegen, das auf den ersten Blick etwas spröde wirken mag. Es besteht daneben aber eine grundsätzliche Zurückhaltung der Verlage gegenüber digitalen Publikationsformen, für die auch bei ihnen kein Expertenwissen vorhanden ist, deren Marktchancen man nicht abschätzen kann und bei denen man deshalb vor ungewissen Investitionen zurückschreckt. Einige Ausnahmen gibt es aber doch: Zum einen gibt es Verlage wie z.B. Chadwyck-Healey, die sehr umfangreiche Projekte durchführen oder zumindest mitfinanzieren, um z.B. im Bereich der Bibliographien, der Literatur und Literaturgeschichte, der Quellensammlung oder Volltextdatenbasen inhaltsreiche und professionelle Publikationen - zu allerdings horrenden Preisen - anzubieten(57), zum anderen gibt es Verlage wie z.B. K.G.Saur, die digital erschlossenes Material aus den Projekten übernehmen und in relativ schlichter Form, gewissermaßen als Katalog-CD oder Bildsammlungen, vertreiben(58). Das Beispiel von Saur ist eher typisch für die Verlagslandschaft, als das von Chadwyck-Healey. Die meisten Verlage warten noch ab, um die Entwicklung besser abschätzen zu können und publizieren - wenn überhaupt - mit möglichst geringem eigenen Aufwand eher schlichte Versuchsballons als umfassend ausgestaltete Multimedia-Produkte, wobei fraglich ist, ob so ein neuer Markt für digitale Publikationen im wissenschaftlichen oder Publikumsbereich entstehen kann.
Der DFG ist in ihrem Förderbereich ausdrücklich an einer stärkeren Einbindung der Verlage gelegen(59). Viele Bibliotheken sind auch grundsätzlich dazu bereit, entwickeln aber selbst keinen allzu großen Ehrgeiz eine solche Kooperation zu forcieren. Dies mag wieder daran liegen, daß Bibliotheken in einer eigenständigen umfassenden Publikation noch nicht ihre Aufgabe sehen, und wenn doch, so scheinen Verlage geradezu als Konkurrenz angesehen zu werden. Zudem herrscht auch in den beständehaltenden Institutionen ein hohes Maß an Unsicherheit, was den Rechteschutz, zukünftige Publikationsweisen und deren finanzielle Aspekte angeht. Schließlich sieht die Konzeption von Bestandserschließungsvorhaben oft eine unterschiedlich starke Konzentration auf einzelne Problemfelder vor, und dabei steht die Publikation dann am Ende der Liste. Man ist in der Regel der Auffassung, daß es ein Bereich sei, den man später immer noch bearbeiten könne und so ist denn eine Zusammenarbeit mit Verlagen oft lose für die weitere Zukunft vorgesehen, ohne daß konkrete Schritte unternommen würden.
Für die Projekte zu digitalen Bestandserschließung kämen als professionelle Partner noch spezialisierte Agenturen z.B. für Internetpublikationen in Frage. Dies ist aber eine theoretische Alternative - in der Praxis der untersuchten Projekte gab es dazu nur einen einzigen Fall, was wohl - neben ähnlichen Problemen wie mit den Verlagen - auch an den hohen zusätzlichen Kosten liegen dürfte, die mit einer solchen Auftragsvergabe verbunden wären.So könnte seitens der projektleitenden Institutionen doch noch der Wunsch entstehen, die Publikation im eigenen Hause entwickeln und erstellen zu lassen. Aber auch diese Variante ist in den meisten Fällen zu kostenträchtig, zumal es fast unmöglich ist, in öffentlich geförderten Projekten auch Gelder für professionelle EDV-Fachleute zu bekommen, die eine geeignete Publikationsform ausprogrammieren würden. Die DFG lehnt dies z.B. explizit ab und setzt statt dessen auf die beiden Digitalisierungszentren in Göttingen und München, in denen eine umfassende Software entwickelt wird, die auch die Publikation der digital erschlossenen Bestände einschließen soll.
Tatsächlich gibt es einige Projekte, die nicht nur diese Software benutzen wollen, sondern den ganzen Publikationsbereich möglicherweise nach Göttingen auslagern werden(60). Ähnliche Funktionen würden gerne auch externe Dienstleister aus dem Bereich der Digitalisierung wahrnehmen, die versuchen, eine komplette Angebotspalette aufzubauen, die neben dem Bereich des Scannings auch den der Datenverwaltung und schließlich der Publikation umfassen soll.Die meisten Erschließungsprojekte haben einen anderen Weg gewählt. Bei ihnen besteht eine Kooperation mit EDV-Fachleuten aus verschiedenen Bereichen. Häufig sind dies Angehörige von Rechenzentren oder Informatik-Lehrstühlen, die den beständehaltenden Institution oft ohnehin organisatorisch nahe stehen, wenn es sich z.B. um die Bibliothek und das Rechenzentrum derselben Universität handelt. Die Frage der Publikation wird hier durch eine Kooperation gelöst, bei der die EDV-Spezialisten für die Entwicklung geeigneter Benutzerschnittstellen verantwortlich sind und die erschließenden Institutionen die Erstellung von Inhalten in der passenden technischen Form (z.B. in HTML, als Datenbankfile, etc.) übernehmen(61).
Bei einigen Projekten ergeben sich dadurch besondere Probleme, daß das Material auch noch in seiner digital erschlossenen Form auf verschiedene Institutionen verteilt ist, die u.U. sogar unterschiedliche technische Umgebungen verwenden. In solchen Fällen kommt dem Bereich der Publikation die entscheidende Aufgabe zu, eine einheitliche Benutzerschnittstelle bereitzustellen. Obwohl es hier eine organisatorische Notwendigkeit ist, die sich aus der Konzeption eines solchen Projektes ergibt, spielt der Versuch, zu einheitlichen Formen der Publikation zu kommen noch eine darüber hinausgehende Rolle, sind doch erschlossene Bestände dann noch effizienter zu nutzen, wenn sie - ohne neuen Einarbeitungsaufwand in die jeweils spezielle Benutzerschnittstelle - gemeinsam für die eigenen Recherchen herangezogen werden können, oder wenn sogar von einer einheitlichen Oberfläche aus ein Zugriff auf mehrere verteilte Bestände möglich ist. Hier entsteht ein Spannungsverhältnis zwischen möglichst allgemeinen technischen Lösungen zum Zugriff auf die Daten und der Forderung nach umfassenden Publikationen, die dem Benutzer einen einfachen, aber auch komfortablen und informationsreichen Zugang zu speziellen Beständen ermöglichen soll.
2.5.2. Publikationsarten: Buch, CD, Internet
Am Ende eines digitalen Erschließungsprojektes kann ein Buch stehen. Warum auch nicht?! Bestände können digital erschlossen werden und die Ergebnisse dann in Druckform wiedergegeben werden. Einige Projekte im archivischen Bereich oder an Forschungseinrichtungen verfolgen dieses Ziel tatsächlich(62). Es handelt sich aber um wenige Ausnahmen, denn der Informationsverlust, der wegen der unterschiedlichen Strukturen digitaler Medien und Druckmedien unweigerlich eintritt, ist in der Regel offensichtlich und nicht zu vermeiden, sobald komplexere Erschließungsverfahren angewandt werden. Außerdem beinhalten die meisten Erschließunsgprojekte auch die Erstellung digitaler Abbildungen, die zwar ebenfalls druckbar wären, aber nur zu unvertretbaren Kosten und in schlechter Qualität - es sei denn, die Digitalisierung würde bereits eine Auflösung erreichen, die heute meistens nicht angewandt wird. Das gedruckte Buch oder eine andere Form von Ausdruck auf Papier ist in der Regel als zusätzliches Derivat der digitalen Erschließung anzusehen. Für bestimmte Zwecke nützlich und ggf. leicht herstellbar, ist es aber der geleisteten Erschließungsarbeit nicht angemessen.
Wenn hier von einem Derivat die Rede ist, so verweist das auf ein weiteres Kennzeichen digitaler Bestandserschließung. Sie hat die Tendenz zu multiplen Publikationsformen. Die Aufnahme von repräsentierenden Daten und ihre komplexe Erschließung erlauben eine Vielzahl unterschiedlicher Veröffentlichungsformen, in verschiedenen Medien, mit jeweils anderen Auswahlen und divergenten Benutzerschnittstellen.
Als "Standard"-Medium kann dabei derzeit das Internet, genauer das WWW angesprochen werden. Fast alle untersuchten Projekte sind dort bereits einsehbar oder planen für die nächste Zeit eine Veröffentlichung. Dabei muß der allgemein und kostenfrei zugängliche Internetauftritt nicht immer das eigentliche Hauptziel sein. Teilweise dient er einfach der Projektdokumentation oder als Demonstrations- und Werbeversion für eine CD-Publikation oder einen kommerziellen Bereich im Internet.
Für das WWW spricht, daß eine Publikation sehr einfach und schnell realisiert, sowie leicht verändert und sukzessive ausgebaut werden kann. Die meisten Erschließungsprojekte arbeiten mit Datenbanken, die problemlos an das Internet anzubinden sind und für die eine Publikation sich auf die Konstruktion einer Benutzerschnittstelle beschränken kann, mit der jeder Interessent Zugriff auf die Daten erhält. Gleichzeitig kann das Internetangebot jederzeit verändert und ausgebaut werden, gemäß der weiteren Erschließung oder gemäß zusätzlicher Benutzungsmöglichkeiten durch ergänzende Datenbankschnittstellen oder zusätzliche Zugriffsarten wie strukturierte Darstellungen der Inhalte oder Sekundärinformationen.
Das Internet erweist sich so als Probe- und Entwicklungsmedium, aus dem man bei Bedarf auch leicht eine kommerzielle CD-ROM generieren könnte, welche die gleiche Technik verwenden würde. Ebenso bleibt die Option offen, nach der absehbaren Etablierung von E-Commerce-Strukturen im WWW zu bleiben und dort eine dann ausgereifte und professionell gestaltete Publikation zum kontrollierten und gebührenfähigen Zugriff anbieten zu können.
Die Tendenz zum Internet wird auch von den öffentlichen Geldgebern unterstützt, weil man dort eine möglichst allgemeine und kostenfreie Grundversorgung des Publikums mit einem Zugang zu den erschlossenen Beständen gewährleistet sehen möchte. Dies steht aber nicht im Widerspruch zu zusätzlichen Publikationsformen, die mehr Informationen, eine höhere Abbildungsqualität oder eine umfassendere Benutzeroberfläche bieten und die dann durchaus kommerzielle Interessen abdecken können. Auch hier kommt wieder das Prinzip der multiplen Veröffentlichung zum Tragen.Eine grundsätzliche Alternative zum Netz ist die CD-ROM. Teilweise als Träger anderer technischer Lösungen, zumeist aber wieder mit der gleichen technischen Grundlage als weiterentwickeltes oder spezialisiertes und auswählendes Derivat der Gesamterschließung. Die Vorteile der CD liegen in ihrer Fähigkeit, relativ große Datenmengen mit einer Geschwindigkeit nutzen zu können, die das Internet derzeit nicht ermöglicht. Für die Publikation sehr hoch auflösender digitaler Bilder z.B. gibt es zur CD im Moment praktisch keine Alternative. Ein zweiter Vorteil ist, daß die CD-ROM besser in die etablierten Vertriebswege kommerzieller Güter paßt, da sie hier in dem Buch analogen Strukturen publiziert und verkauft werden kann. Der noch ungeklärten Situation im Internet, bei man Bedenken hinsichtlich einer effiziente Kontrolle der Nutzung (verbunden mit der Frage nach Zugriff, Entgelt und Mißbrauch) hegt, steht ein weitgehend verläßlicher Rahmen der CD-Publikation gegenüber. Die CD ist allerdings nicht in gleichem Maße Probe- und Entwicklungsmedium sondern starrer Träger möglichst ausgereifter und umfassend gestalteter Publikationen, die z.B. in Zusammenarbeit mit Verlagen vertrieben werden könnten. Diese Kooperation ist in den meisten Erschließungsprojekten noch nicht gegeben und so ist auch die Erstellung von CD-ROMs zumeist eher eine langfristige Perspektive im Hintergrund der Projektkonzeptionen. Überhaupt ist die zukünftige Entwicklung hier noch offen, da unklar ist, wie die beständehaltenden Institutionen ihre Rolle im Publikationsbereich definieren werden. Neben einem verstärkten Engagement von Bibliotheken und Archiven bei der selbständigen Veröffentlichung ihrer digital erschlossenen Bestände, das dann auch voll entwickelte kommerzielle CD-ROMs umfassen könnte, stehen Abgrenzungsoptionen, die eine Aufgabenteilung mit den Verlagen, z.B. entlang der unterschiedlichen Medien (CD-ROM vs. Internet), der Kommerzialisierung (Grundversorgung vs. käufliche Weiterentwicklungen) oder der Tiefe der Erschließung (flacher Bestandszugang vs. umfassende Informationssammlungen) beinhalten könnten.
Wenn von multiplen Publikationen die Rede ist, so meint das nicht nur die verschiedenen Medien, sondern unter Umständen auch unterschiedliche Veröffentlichungen im gleichen Medium. Dies kann z.B. abgestufte Nutzergruppen betreffen, die Trennung nach kommerziellem oder nicht kommerziellem Produkt und unterschiedliche Auswahlbereiche an Menge der Information oder Qualität der Wiedergabe(63). Das Projekt der ICE/FCR(64) in Graz umfaßt z.B. als Publikationsarten das Internet, mit verschiedenen Stufen der Zugriffsberechtigung, kommerzielle CD-ROMs und schließlich die Abgabe von Datenpaketen auf Anfrage. Grundsätzlich werden auch noch drei Benutzergruppen unterschieden, für die jeweils andere Angebote zur Verfügung stehen. Solche multiplen Publikationsformen sind möglich, weil Erschließungsprojekte mit ihren Datenbasen und dem zugefügten erschließenden Wissen ein komplexes Expertensystem bilden, das offen ist für die Konstruktion unterschiedlicher Benutzeroberflächen. Die Gesamtheit der Daten ist in vielen Fällen gar nicht für jeden Interessenten relevant oder überhaupt benutzbar(65) und so ist es teilweise nur naheliegend, hier differenzierende Angebote zu schaffen.
Mit dem Grazer Beispiel wurde eine weitere Spielart der öffentlichen Informationsbereitstellung angedeutet, bei der allerdings fraglich ist, ob man sie als Publikationsform bezeichnen sollte. Gemeint ist die Abgabe von Daten oder Ausdrucken "on demand", also auf den ausdrücklichen und gezielten Wunsch des Benutzers hin. Meistens handelt es sich dabei um eine Ergänzung, z.B. des Internet-Angebotes und umfaßt Formen, die eben nicht über das Netz zur Verfügung gestellt werden können oder sollen. Dies kann Bereiche betreffen, die nicht elektronisch erfaßt sind, also z.B. Kopien von Dokumenten, die zwar digital erschlossen, aber nicht digital abgebildet worden sind(66). Dies kann aber auch die hoch auflösende Variante von Abbildungen betreffen, die im Internet nur in geringer Auflösung angeboten werden. Dazu können z.B. CDs mit bestimmten Bildauswahlen auf Bestellung hergestellt und kostenpflichtig abgegeben werden. Für andere Interessenten könnten Teile der erschließenden Datenbasen zur Verfügung gestellt werden, zu denen via Internet nur ein beschränkter Zugang besteht, oder die eine andere Datenstruktur haben, welche über Internet-Schnittstellen nicht in vollem Umfang nutzbar ist.(67)
2.5.3. Der Zugriff auf die Inhalte: "browse" und "search"
Benutzerschnittstellen können verschiedene Wege vorgeben, auf denen man zum erschlossenen Material vordringen kann. Hier sind zwei Grundtechniken zu unterscheiden. Zum einen die direkte Datenbankabfrage mittels Suchbegriffen, zum anderen das Auswählen aus Listen oder das Verfolgen von Verknüpfungen. Das erstere könnte man als gezielte, planmäßige Suche beschreiben, die begriffs- und kategorienorientiert eine ganz bestimmte Auswahl aus dem Bestand produziert. Die Schnittstelle verhält sich bei einer Maskenanfrage interaktiv, weil sie in der Regel für jede Anfrage eine neue Antwort, z.B. in Form einer Trefferliste, generiert. Dagegen hat die Technik des "browsens" eher heuristischen Charakter. Sie muß nicht zielgerichtet sein und es muß nicht bekannt sein, wie die Begriffe oder Kategorien eigentlich genau heißen, die gesucht werden. Die Anwendung verhält sich hier statisch, weil alle Informationen schon in einer festen Form, z.B. fest definierten Bildschirmseiten, vorliegen und der Benutzer zwischen diesen gewissermaßen nur hin- und herblättert.
Suchmasken und die mit ihnen möglichen Datenbankabfragen entsprechen sehr gut der Philosophie strukturierter Datenbanken, mit denen die meisten Erschließungsprojekte ihre beschreibenden Informationen verwalten. Meistens werden auf den unterschiedlichen Ebenen der Bestandsgliederung zu jeder Erschließungseinheit Metadaten erhoben, die einem bestimmten Kategorienschema folgen und oft auch einer festen Terminologie unterliegen. Dadurch entstehen gleichmäßig strukturierte Datensammlungen, die durch Programmroutinen leicht unter bestimmten Vorgaben durchsucht werden können. Suchmasken erlauben es, alle Informationen einer Datenbank in beliebiger Selektion oder Verknüpfung von Kriterien und Begriffen auszuwählen und so eine benutzerspezifische Teilmenge herzustellen. Die Suche kann dabei nicht nur auf bestimmte inhaltliche Kategorien abzielen, sondern auch auf unterschiedliche Bereiche beschränkt werden. Hier wäre z.B. eine Suche im Volltext aller Dokumente von einer Suche in den Aufsatztiteln einer Zeitschrift zu unterscheiden(68). Da Erschließungsprojekte oft verschiedene Datenbasen anlegen ist natürlich auch hier eine Auswahl möglich(69). Die Stärke von Suchmasken liegt in der schnellen Beantwortung höchst variabler Anfragen. Die Bearbeiter eines Erschließungsprojektes müssen nicht vorher wissen, welche Fragen einen Benutzer interessieren werden, sondern nur entscheiden, welche Kriterien am ehesten eine sinnvoll differenzierende Auswahl im Bestand ermöglichen, die den Fragestellungen des Benutzers entspricht. Unter einer Benutzeroberfläche können auch verschiedene Suchmasken angeboten werden. Oft bestehen neben den einfachen Routinen noch speziellere Masken, die eine Angabe von zusätzlichen Kategorien und Begriffen und dazu unterschiedliche Verknüpfungsarten zwischen ihnen (und, oder, und nicht, etc.) erlauben. Die Mächtigkeit der Suchmaschinen wird schließlich noch durch die Arbeit mit Platzhaltern gesteigert, so daß auch nach unterschiedlichen Schreibungen oder ganzen Wortfeldern gesucht werden kann.
Als Antwort auf eine Suchanfrage werden meistens Trefferlisten generiert(70). Diese können unterschiedliche Formen haben, die u.U. vom Benutzer ebenfalls vorher auszuwählen sind(71). Sie enthalten Verweise auf die Dokumente oder Dokumentteile, welche die abgefragten Bedingungen erfüllen. Im besten Falle führt der Verweis per Hyperlink direkt zur Anzeige des Dokumentes, sei es in bildlicher oder in textlicher Form oder zur Anzeige sämtlicher beschreibenden Informationen eines Dokumentes.Der Begriff "browse"(72) beschreibt dagegen die Benutzung einer nicht dynamischen Anwendung und ähnelt der Informationssuche, wie es sie auch bisher gab: das Durchstöbern von Katalogen oder Listen, das Blättern in Büchern oder Zeitschriften oder das Verfolgen von Fußnoten. Browsen wird zunächst ermöglicht durch hierarchisch strukturierte und geordnete Auflistungen des Materials. Auf diese Weise sind die gleichen Informationen darstellbar, wie sie in Datenbanken vorliegen. Solche Listen werden allerdings sehr schnell unübersichtlich und müssen einer Auswahl folgen, die sich auf ihre Ordnung und die Kombination von Kategorien bezieht. Sie ermöglichen einen oder mehrere Zugriffswege auf das Material. Dieser Zugriff folgt mehr oder weniger offensichtlichen Strukturen des Bestandes, ist dabei aber nur eine Auswahl aus den unzähligen möglichen Ordnungstrukturen. So bleibt es dem Geschick der Bearbeiter überlassen, eine Systematisierung auszuwählen, die den Erwartungen möglichst vieler Benutzer entspricht. In der praktischen Anwendung wird der Zugriff durch fortschreitendes Auswählen in der hierarchisch jeweils nächsttieferen Ebene erreicht. Vom Zeitschriftentitel gelangt man z.B. zum Jahrgang, von diesem zu den Aufsatztiteln und von diesen zu den Aufsätzen selbst(73). Hier wird schon ersichtlich, daß z.B. für ein Browsen in einem festen Jahrgang (aber über mehrere Zeitschriftentitel) die Anlage einer neuen Listenstruktur erforlich wäre. Einen browsenden Zugriff zu ermöglichen heißt immer, sich für die Anlage bestimmter Ordnungsmuster zu entscheiden.
Strukturierte Listen erlauben wie Datenbankabfragen einen Zugriff auf das gesamte erschlossene Material. Der Begriff des browsens erstreckt sich aber auch auf andere Techniken der Informationssuche. Die im Deutschen mögliche Übersetzung des Begriffes mit "stöbern" beschreibt, daß auch das hin- und herblättern zwischen verschiedenen Dokumenten, das Suchen in thematischen oder anderen Auswahlen, das Lesen zusätzlicher Informationen, die Benutzung weiterer Hilfsmittel (z.B. von Lexika) und das Verfolgen von Verweisen und Hyperlinks Arten des Zugriffs auf das Material sein können. Im Gegensatz zur Anwendung von Suchmasken ist dieses Vorgehen (wie das gesamte browsen) weniger zielgerichtet, präzise und schnell, dafür aber unter Umständen heuristisch ergiebiger.In der Praxis laufender Projekte zur digitalen Bestandserschließung gibt es viele unterschiedliche Konzepte, wie der Benutzer zum erschlossenen Bestand geleitet werden soll - wie ihm also über die Metadaten Zugangswege zu den erschlossenen Daten angeboten werden sollen. Entsprechend hoch ist die Zahl unterschiedlichster Benutzeroberflächen. Diese reichen von umfassenden Publikationen mit mehreren Suchmasken, Überblickslisten, thematisch geleiteten Hinführungen, Zusatzinformationen und anderen Angeboten bis hin zu einfachen Datenbankschnittstellen mit nur einem einfachen Eingabefeld für einen Suchbegriff(74). Tatsächlich ist die Benutzerschnittstelle und die Benutzerführung oft das schwächste Glied in der Kette der digitalen Bestandserschließung. Zwar sind fast immer alle erhobenen Daten auch in irgend einer Weise erreichbar. Die Wege dazu sind aber teilweise sehr beschränkt. Oft werden nur wenige Zugriffsmöglichkeiten angeboten und auf die Bereitstellung weiterer Auswahlhilfen oder zusätzlicher Informationen wird verzichtet, wobei die Auswahl nicht immer für jeden nachvollziehbar sein muß(75).
Eine Beschränkung auf nur eine der Benutzungsweisen "browsen" oder "suchen" ist oft zu beobachten, grundsätzlich aber abzulehnen. Beide Verfahren ermöglichen unterschiedliche Recherchestrategien. Auf eines zu verzichten bedeutet deshalb eine unnötige Reduktion der Benutzbarkeit eines oft mit hohem Aufwand erschlossenen Bestandes!
Suchmaschinen sind mächtige und flexible Hilfsmittel bei der Recherche in großen Datenmengen. Die Auswahl und Kombination von Kategorien und Begriffen erlaubt einen höchst individuellen selektiven Zugriff, der über vorgefertigte Register und hierarchische Auswahllisten niemals ganz abgedeckt werden kann. Eine Beschränkung auf formalisierte Suchroutinen kann aber die Benutzung eines Bestandes auch erschweren! Treffer können nämlich nur dann erzielt werden, wenn die Vorstellungen von Kategorien und verwendeten Begriffen zwischen Benutzer und Bearbeiter übereinstimmen. Wer in einem Bestand nach "Bauer" sucht, wird nichts finden, wenn die Erschließung mit dem Begriff "Landwirt" gearbeitet hat. Das Problem hat verschiedene Dimensionen: Die Auswahl zwischen den Originalbegriffen der Quellen (in unterschiedlicher oder historischer Schreibweise) und einer externen Terminologie, zwischen festem Thesaurus und offenem je nach Bearbeiter und zwischen verschiedenen Sprachen, bei mehrsprachigen Beständen oder internationalen Projekten. Die verwendeten Schlagwortlisten und Thesauren offenzulegen und möglichst direkt mit den Suchmasken zu verknüpfen, ist deshalb eine Mindestforderung, die alle Suchmasken erfüllen sollten. Erfreulicherweise sind gerade in letzter Zeit etliche Projekte zu dieser Praxis übergegangen. Neben den Eingabefeldern für Suchbegriffe können dazu die Listen mit den vorkommenden Begriffen aufgerufen werden. Unter diesen kann dann eine (auch eine mehrfache) Auswahl getroffen und direkt in die Anfrage übernommen werden(76). Das Problem kann hier in der unüberschaubar großen Zahl der vorkommenden Begriffe liegen. Eine Lösung dazu wäre ihre Gruppierung oder hierarchische Ordnung. Das Bildarchiv der Deutschen Kolonialgesellschaft arbeitet z.B. mit einem solchen hierarchischen Thesaurus für geographische Begriffe(77). Ein anderes Projekt in Dänemark hat die begrenzte Verständlichkeit seiner klassifikatorischen Begriffe dadurch erweitert, daß es zu den dänischen Begriffen ein entsprechendes englisches Glossar gibt(78).
Mit der Angabe von Begriffslisten kommt es zu einer Vermischung der Prinzipien des "browsens" und "suchens". Das Problem der Suchmasken besteht darin, daß nur nach etwas gesucht werden kann, von dem man bereits weiß - oder doch vermutet - daß es sich, und zwar genau in dieser Form, im Bestand finden wird. Dagegen unterstützt das browsen eine heuristische Form der Suche. Sie ermöglicht einen Überblick über das Material und läßt erkennen, was sich dort überhaupt finden lassen wird. Der Prozeß der Forschung besteht schließlich auch nur zur Hälfte aus der Beantwortung von Fragen. Die andere Hälfte ist die Entwicklung von Fragen und die Überprüfung, mit welchem Material sich die Fragen beantworten lassen werden.Wenn Suchmasken mit Schlagwortlisten arbeiten, in denen man eine Auswahl trifft, und wenn Zusatzinformationen in einer Bestandserschließung angelegt werden, die wiederum mit einer Suchmaschine befragt werden können, so vermischen sich die Unterschiede zwischen "browse" und "search". Ich halte die Grundunterscheidung dennoch für sinnvoll, weil sie auf grundsätzlich unterschiedliche Strategien verweisen, die komplementären wissenschaftlichen Methoden entsprechen. Sieht man von Volltextsuchen ab, wird zwar beides vom Prinzip der Strukturierung geleitet, das eine ist aber grundsätzlich hierarchisch, inkrementell und statisch, während das andere mit einem direkten Zugriff und der dynamisch Zusammenstellung von Informationen arbeitet. Zu überlegen wäre noch, wie eine Reihe weiterer Zugriffswege systematisch zu fassen sind. Hier ist an die allgegenwärtige Vernetzung von Dokumenten mittels Hyperlinks ebenso zu denken, wie z.B. an den Zugang zu Informationen über geographische Orientierungen mittels Karten.
2.5.4. Die verwendete Technik; Publikationsformate; technische Publikationsumgebungen
Kommerzielle CD-ROMs werden in der Regel mit sogenannten "Autorensystemen" gestaltet. Diese ermöglichen die leichte Einbindung von laufenden Bildern und Tönen, ein gefälliges Layout und eine gute Benutzerführung. Im Bereich der digitalen Bestandserschließung spielen sie aber keine Rolle, weil sie den Grundprinzipien von Offenheit, nicht-proprietärem Standard, leichter Veränderbarkeit und einfacher Anbindung an die zugrundeliegenden Datenbanken wie an das WWW als Publikationsmedium zuwiderlaufen. Es gibt stattdessen einen breiten Konsens über die Verwendung Internet-kompatibler Publikationsformaten, unter denen allerdings auch mehrere Varianten zur Verfügung stehen.
Teilweise werden Publikationen im PDF-Format vorgenommen. Dieses erlaubt die schnelle Erstellung leicht benutzbarer konsistenter Publikationen, die auch gut ausgedruckt werden können. Die Möglichkeiten zur Gestaltung und Strukturierung komplexerer Informationsangebote sind allerdings beschränkt. Eine Publikation mit PDF ist nicht sehr flexibel für Erweiterungen und Veränderungen. Das Format hat seinen Platz, um möglichst ressourcensparend einfache digitale Wiedergaben gedruckter Vorlagen herstellen zu können. Deren traditionelle Strukturen und Nutzungswege, z.B. über Inhaltsverzeichnisse, Blätter- und Zoomfunktionen werden gut transportiert, für tiefere Erschließungsformen und komplexere Informationsstrukturen ist PDF aber nicht geeignet.
Der Regelfall digitaler Bestandserschließung sieht eine Verwaltung der repräsentierenden und beschreibenden Daten in unterschiedlichen Datenbanken oder mittels Auszeichnungssprachen (SGML/XML) vor, deren öffentlicher Zugriff durch spezielle Benutzerschnittstellen ermöglicht wird, welche die Daten in HTML-basierte Ausgaben umformen. Dies gilt sowohl für die Datenbanken, als auch für z.B. nach SGML oder demnächst nach XML ausgezeichnete Dokumente. In fast allen Fällen werden daraus Dokumente generiert, die mit Standard-Browsern anzeigbar sind(79).Die organisatorische und technische Trennung von Erschließung und Publikation mag auf den ersten Blick unnötig und hinderlich scheinen, hat aber auch Vorteile. Auf den mit hohem Arbeitsaufwand hergestellten Datenbasen der Repräsentation und Erschließung können leicht unterschiedliche Publikationsschnittstellen aufgesetzt werden. Hierdurch ist eine hohe Flexibilität möglich, was unterschiedliche Nutzergruppen, die sukzessive Weiterentwicklung der Publikationsformen oder wechselnde Hard- und Softwareumgebungen der Benutzer betrifft. Die Schnittstellen können ohne weiteres ausgetauscht werden, unabhängig von der Verwaltung der eigentlichen Daten. Dies gilt jedenfalls so lange, wie die Ansprüche an eine Publikation und an die zugrundeliegende Schnittstelle die Qualität und Erschließungsstruktur der Bestandsdaten nicht übersteigen. Derzeit wird aber meistens noch mit einer Qualität digitalisiert und in einer Tiefe erschlossen, die in den Publikationen nicht voll ausgeschöpft werden.
Die Interfaces, die eine Benutzeroberfläche herstellen sind teilweise bereits im Datenbank- oder Dokumentenmanagementsystem enthalten, in der Mehrheit der untersuchten Fälle werden sie aber eigens konstruiert und von den kooperierenden EDV-Fachleuten programmiert. Als Technik wird in den meisten Fällen das sogenannte "Common Gateway Interface" (CGI) verwandt, in einigen auch das etwas neuere Prinzip der "Active Server Pages" (ASP). Liegen Auszeichnungsysteme zugrunde, so kommen entweder bereits vorhandene Werkzeuge zur Anwendung(80), oder es werden auch hier spezielle Applikationen (etwa in JAVA) geschaffen, die einen Zugriff auf die Dokumente ermöglichen.Das Grundprinzip ist aber meistens das gleiche: Man kann unterscheiden zwischen den grundlegenden repräsentierenden und erschließenden Daten und ihrer Publikation. Die ersteren liegen in den unterschiedlichsten Formaten und Strukturen vor, werden in einem arbeitsaufwendigen Erschließungsverfahren erstellt, können grundsätzlich verändert und ergänzt werden, bleiben aber tendenziell stabil. Die Publikation ist dagegen variabler: Es können verschiedene Publikationen parallel zur Verfügung gestellt oder sukzessive ergänzt oder gegen neue ausgetauscht werden. Dies entspricht gut den unterschiedlichen Entwicklungsständen von Digitalisierungs- bzw. Erschließungsverfahren auf der einen Seite und den digitalen Publikationsformen auf der anderen Seite. Eine Entwicklung der Formen der Veröffentlichung ist so unabhängig von den einmal festgelegten Strukturen der Digitalisierung und Erschließung möglich. Dazu ist es aber auch nötig, das Verständnis von "Publikation" nicht auf eine einfache Suchroutine zu reduzieren, die nur beschränkte Zugriffswege öffnet. Publikation ist vielmehr als umfassendes Informationsangebot aufzufassen, das einerseits das vorhandene Material (repräsentierende und erschließende Daten) in möglichst guter Qualität und vollständig wiederzugeben in der Lage ist, und dies andererseits gemäß den unterschiedlichen Erwartungen der Benutzer tut. Dies schließt die Bereitstellung multipler Zugriffswege (Übersichten, Auswahllisten, einfache Suchmasken, komplexere Suchmasken) ebenso ein, wie begleitende Erläuterungen und Hilfestellungen. Ein hohes Maß an Automatisierung in der Veröffentlichung (wie es z.B. in den "Komplettlösungen" der Dokumentenmanagementsysteme angestrebt wird) erhöht die Effizienz und die Kompatibilität von Erschließungsprojekten, ist aber der Weiterentwicklung nutzergerechter Publikationsformen nicht unbedingt zuträglich, da die Veröffentlichungsform eng an die Struktur der Datenhaltung angebunden bleibt, während eine umfassende Publikation eben mehr bieten sollte, als eine einfache Wiedergabe der Daten über wenige starre Kanäle.
Für die Ausgabe von Daten oder Texten wird - wie bereits erwähnt - teilweise PDF verwendet, in den meisten Fällen findet jedoch eine Umformung in HTML-Dokumente statt. Automatisch generiert sind sie oft sehr schlicht und entsprechen den zugrundeliegenden Datenbankstrukturen, ohne hier alle Möglichkeiten zur Informationsaufbereitung auszuschöpfen. Layout und Farben z.B. werden jedenfalls nur in geringem Maße dazu herangezogen(81).
Für die Publikation visueller Informationen werden die Archivversionen der Digitisate zumeist in eine niedrigere Auflösung und andere Dateiformate konvertiert. Dies hat vor allem zwei Gründe: zum einen bietet eine Reduktion der Qualität einen impliziten Schutz vor Mißbrauch, zum anderen kommt man so der beschränkten Übertragungskapazität des Internets entgegen. Bilder werden außerdem oft in verschiedenen Auflösungen angeboten, um z.B. über "thumbnails" einen ersten schnellen Überblick zu ermöglichen und je nach Bedarf weitere Darstellungen in unterschiedlicher Dateigröße anzubieten. Wegen der erwarteten Übertragungszeiten versucht man Bilddateien auf Größen zwischen 100 und 200 kb zu reduzieren, will man sehr gute Qualität zur Verfügung stellen, können manchmal auch 300 bis 400 kb erreicht werden. Als Format wird in der Regel JPEG gewählt, manchmal auch GIF, die neuere Alternative PNG findet noch fast keine Anwendung(82). Dies betrifft nur die Internetpublikationen. Für die CD gelten die Beschränkungen der Übertragungszeiten nicht und mit ihrem Verkauf ist meistens auch eine nicht mißbräuchliche Verwendung implizit vereinbart, so daß hier ganz andere Bildqualitäten zur Verfügung gestellt werden können. Da andererseits der Speicherplatz der CD-ROM begrenzt ist, wird auch hier oft nicht die TIFF-Archivversion geliefert, sondern eine komprimierte Fassung in JPEG.
2.5.5. Der Schutz der Inhalte vor Mißbrauch
Bei vielen Archivaren, Bibliothekaren, Dokumentaren oder anderen Menschen, die mit Quellenbeständen zu tun haben, gibt es den diffusen und unausrottbaren Gedanken, ihre Dokumente wären mit einer digitalen Erschließung der Gefahr ausgesetzt, von anderen "gestohlen", "verfälscht" und "mißbraucht" zu werden. Mit den digitalen Medien haben sich zwar einige neue juristische Fragen ergeben, die Prinzipien des Copyright, des Urheberrechtes und anderer Schutzmechanismen gelten aber auch hier.
In der Praxis stellt sich das Problem auch deshalb eher selten, weil z.B. für den Druck oder andere Formen der kommerziellen Publikation eine Bildauflösung nötig wäre, die nur in den wenigsten Erschließungsprojekten zur Verfügung gestellt wird. Es gibt zusätzlich eine ganze Reihe von möglichen Schutzmechanismen: Als organisatorischer Schutz kann der Zugriff durch vorherige Anmeldung(83), Kauf- oder Abonnementverhältnisse, die eine entsprechende Verpflichtung zur Beachtung von Eigentumsrechten beinhalten, kontrolliert werden. Als technischer Schutz können die digitalen Abbildungen mit sichtbaren oder unsichtbaren elektronischen Wasserzeichen versehen werden, oder die Bilder werden in einem Dateiformat gespeichert, das nur mit einem entsprechenden Softwareschlüssel gelesen werden kann.Auch wenn elektronische Wasserzeichen in einigen Projekten angewandt werden, oder die Besitzstempel auf den Originalen einfach direkt mitgescannt werden, ist die am weitesten verbreitete Lösung doch eine noch pragmatischere: In der kostenfreien Nutzungsumgebung des Internet wird nur eine Qualität zur Verfügung gestellt, die zwar vom menschlichen Auge noch halbwegs gut erkennbar ist, für jede weitere Form der Nutzung aber unzureichend wäre.
2.5.6. Zugriffskontrolle, Entgeltregelungen, Refinanzierung
Erschließungsprojekte sind kostenintensive Unternehmungen. Zugleich stehen auch die öffentlichen Informationseinrichtungen wie Bibliotheken und Archive unter einem zunehmenden Druck, selbst zu ihrer Finanzierung beizutragen. Der Gedanke, auch die digital erschlossenen Bestände zur Refinanzierung heranzuziehen, liegt also nahe.
Dazu sind verschiedene Modelle denkbar. Im Internet könnten sehr wohl Gebühren für den Aufruf einzelner Angebote erhoben werden. Ein "pay per view" entspricht allerdings noch nicht dem technischen Entwicklungsstand. Einfacher zu realisieren ist derzeit noch ein Abonnement-System, bei dem der Kunde für einen allgemeinen Zugriff zahlt und ihm dieser durch ein spezielles Paßwort ermöglicht wird(84). Noch einfacher ist der Vertrieb kommerzieller CD-ROMs, z.b. über die etablierten Wege des Buchhandels. Hierbei kann es auch eine Verknüpfung mit Internetangeboten geben. Mit dem Erwerb einer CD kann z.B. ein Zugriff auf Paßwort-geschützte WWW-Bereiche verbunden sein, die auch update-Funktionen wahrnehmen können. Ein Beitrag zur Refinanzierung kann ebenfalls durch die Abgabe von speziellen CDs oder Ausdrucken auf Papier - je nach den besonderen Wünschen eines Benutzers - gewonnen werden. Dies wäre eine fast schon traditionelle Dienstleistung, die ohne weiteres in die Gebührenordnung einer Bibliothek oder eines Archivs eingefügt werden kann. Schließlich bietet die Aufgabenteilung z.B. mit einem Verlag eine weitere Möglichkeit, die für viele Projekte zumindest in der mittel- und langfristigen Planung eine Rolle spielt: Die beständehaltende Institution nimmt dabei die Digitalisierung und eine erste flache Erschließung vor und übergibt einem Verlag diese Vorarbeiten zu einem bestimmten Bereich zur weiteren Ausarbeitung und kommerziellen Verwertung, an deren Ertrag die Institution dann wieder zu beteiligen ist.Dies entspricht der Grundtendenz, aus einem digital erschlossenen Bestand verschiedene Publikationen zu entwickeln. Die oben genannten kommerziellen Modelle schließen sich sowenig gegenseitig aus, wie parallele kostenfreie Angebote. Oft wird es wohl zu einem Szenario kommen, bei dem ein flaches Internet-Angebot mit niedrigen Bildqualitäten unbeschränkt zugänglich sein wird, während gleichzeitig vertiefende Publikationen zu ausgewählten Teilen des Bestandes auf CD-ROM vertrieben und ein umfassend ausgearbeitetes und qualitativ hochwertiges Informationssystem im WWW nur gegen Entgelt genutzt werden kann.
Die Differenzierung der Angebote und ihrer öffentlichen kostenfreien Verfügbarkeit wird auch von dem unterschiedlichen Refinanzierungsdruck bestimmt, unter dem die einzelnen Institutionen stehen. Ist es für einige inzwischen selbstverständlich geworden, diese Möglichkeit im Auge zu behalten, lehnen andere es rundweg ab, da sie ihre Grundaufgabe gerade in einem kostenfreien und allgemein zugänglichen Informationsangebot sehen. Grundsätzliche Unterschiede im Selbstverständnis der Bestände bewahrenden Institutionen mögen auch in der Zukunft bestehen bleiben, werden aber angesichts der multiplen Publikationsformen an Bedeutung verlieren. Möglicherweise wird es hier zu einer konzeptionellen Trennung zwischen einer "Grundversorgung" und einem weitergehenden Informationsangebot kommen, wobei das erstere immer noch zu den kostenfrei anzubietenden Leistungen der Bibliotheken und Archive zählen würde, während das letztere zur Refinanzierung herangezogen werden könnte.
Die Politik der öffentlichen und privaten Geldgeber ist in diesem Bereich von der gleichen Unsicherheit, aber auch von den gleichen Grundoptionen geprägt. Es besteht nach wie vor der Leitgedanke, daß geisteswissenschaftliche Arbeiten, aber auch die Leistungen öffentlicher Bibliotheken und Archive, nicht in erster Linie kommerziellen Zwecken dienen, sondern dem Publikum nach Möglichkeit kostenfrei zugänglich sein sollten. Andererseits gibt es den Wunsch, daß die genannten Institutionen zu ihrer Refinanzierung beitragen, daß ihre Dienstleistungen sich in einer Gebührenordnung wiederfinden, daß im Bereich der Verlage neue kommerzielle Publikationsformen entwickelt oder daß das kulturelle Erbe verstärkt als wirtschaftlicher Faktor genutzt werden sollte. Dies spiegelt sich auch in den Förderprogrammen der DFG wider: Die digital erschlossenen Bestände sollten "grundsätzlich" entgeltfrei zur Verfügung stehen, gleichzeitig könnten Entgelte im Rahmen der allgemeinen Gebührenordnung erhoben werden, wenn es um die Abgabe z.B. von Ausdrucken oder hoch aufgelösten Bildern geht(85), und schließlich ist hier auch noch die Zusammenarbeit mit Verlagen ausdrücklich erwünscht(86).In der Praxis digitaler Bestandserschließung herrscht zumeist der Gedanke vor, daß man sich jetzt erst in einer Phase der (experimentellen) Entwicklung befände, und solche Fragen später zu klären seien. In den Projektanträgen, aber auch in den tatsächlichen Planungen und Konzepten sind diese Punkte oft enthalten, ohne dabei allzu konkret zu sein. Man behält zwar die unterschiedlichen Optionen im Auge, will aber erst Erfahrungen mit dem Bestand und den möglichen Formen seiner Publikation sammeln und insgesamt abwarten, bis sich klarere Tendenzen im allgemeinen Umgang mit digitalen Publikationsformen herauskristallisiert haben, bevor man sich selbst auf bestimmte Vorgehensweisen festlegt.
2.5.7 Der Stand der Publikationsentwicklung
Im Vergleich zur Digitalisierung und zur Erschließung im engeren Sinne ist die Publikation der Ergebnisse der am wenigsten entwickelte Bereich. In der Regel liegt hier nicht der Schwerpunkt eines Erschließungsprojektes bzw. wird die Art und Weise, in der ein erschlossener Bestand schließlich öffentlich zugänglich gemacht wird, nicht als integraler Bestandteil der Erschließung aufgefaßt(87). Die Konzeption von Erschließungsprojekten und die Leitung der Durchführung liegt in der Regel bei der beständehaltenden Institution, die sich oft für die Publikation nicht zuständig fühlt. Gleichzeitig wird diese Aufgabe aber zumindest in konzeptioneller Hinsicht auch nicht von anderen Projektpartnern abgedeckt. Die beteiligten EDV-Fachleute würden zwar die technische Umsetzung besorgen, sind aber auch keine Fachleute für die Entwicklung von Vermittlungskonzepten. Die Zurückhaltung der Verlage wurde schon mehrfach angesprochen. Diese bremst zwar die Entwicklung multimedialer Publikationsformen, hat aber auch positive Nebeneffekte. Da ihre Tendenz zu Erzeugnissen, die möglichst einfach herzustellen und publikumswirksam sind, kaum eine Rolle spielt, bliebe für den wissenschaftlichen Ansatz innerhalb der Erschließung genug Raum, ein gewisses inhaltliches Mindestniveau und die Verwendung von geeigneten Standards durchzusetzen.
Ein wichtiger Grund für die geschilderte Situation ist das Fehlen ausgebildeter und etablierter Publikationsformen, an denen man sich orientieren könnte. "Das Medium hat noch nicht zu seiner Form gefunden" hört man zuweilen als reichlich metaphysische Beschreibung, die aber zu Recht auf das Dilemma hinweist, daß allgemein verbreitete "Standardformen" noch fehlen. Zugleich fehlt es an vielen Stellen aber auch an der Bereitschaft, zu deren Entwicklung beizutragen. Der Bereich der digitalen Bestandserschließung gehört dazu: Die Frage nach der Vermittlung wird oft nicht innerhalb der Projekte gestellt, sondern auf einen späteren Zeitpunkt oder eine andere Projektphase verschoben. Bis dahin dominiert folglich die Orientierung an anderen Vorbildern, sei es die Anlehnung an die bekannten Formen des Buchdrucks, sei es die Übernahme von starren Datenbankkonzepten der Informatik.
Dies führt in den schlechtesten Fällen z.B. zu schlichten Datenbankschnittstellen in Form von einfachen Suchmasken, die durch ein hermetisches Begriffssystem und mangelnde Zusatzinformationen den Zugriff eher erschweren als erleichtern(88). Dies kann auf der anderen Seite auch zu simplen Bildsammlungen führen, die ohne Erschließung im engeren Sinne und in einer teilweise unzureichenden Qualität der Abbildung weder die neuen Möglichkeiten digitaler Abbildungsformen ausschöpfen, noch eine wesentlich verbesserte Benutzung gegenüber der bisherigen Situation erlauben. Das Blättern durch hunderte von Bildern ohne die Möglichkeit gezielter und selektiver Auswahl kann ebenso wenig eine Lösung sein, wie eine Suche in Datenbanken oder ihren Schlagwortfeldern, wenn die potentiell vorkommenden Begriffe nicht offengelegt werden. Die Generierung von Thesauren, und auch deren Systematisierung und Strukturierung sollte zu den Mindestanforderungen an eine Suchmaske gehören, zumal der Arbeitsaufwand zu ihrer Erstellung in einem vertretbaren Rahmen liegen dürfte.
Hier sind allerdings gerade in letzter Zeit durchaus auch positive Entwicklungen zu beobachten. Die frühen Suchmasken werden erweitert, die Schlagwortlisten werden offengelegt und unmittelbar mit den Feldern der Suchmasken verbunden, und die Suchfunktionen um erläuternde Hilfestellungen oder Zugriffsmöglichkeiten nach browse-Konzepten ergänzt. Es setzt sich langsam die Erkenntnis durch, daß auf Datenbanken durchaus vielfältigere Benutzerschnittstellen zugreifen können, und mit einer einfachen Suchmaske das Potential solchermaßen strukturierter Datenhaltung noch lange nicht ausgeschöpft ist.
Die Frage nach der weiteren Entwicklung ist damit aber noch nicht beantwortet. Es ist noch nicht abzusehen, ob z.B. umfassende Dokumentenmanagementsysteme mit integrierten Benutzerinterfaces langfristig eine zufriedenstellende Lösung sein werden, ob das Prinzip der stark strukturierten Datenbanken mit aufgesetzten Nutzungsoberflächen auch im Bereich hoch komplexer geisteswissenschaftlich relevanter Dokumentensammlungen Bestand haben wird, oder sich das Prinzip der Auszeichnungssprachen mit ihren inhärenten Strukturierungen durchsetzen wird. Für den Augenblick sprechen für die ersten beiden Optionen ihre gute Operationabilität, während für letztere die Entwicklung notwendiger Zusatzwerkzeuge noch am Anfang steht. Für die Auszeichnungssysteme spricht aber, daß sie eine Integration von zukunftssicheren Standards mit der langfristigen Sicherung aufwendiger Erschließungsarbeiten und der Möglichkeit unterschiedlicher Publikationsformen verbinden. Sie sind in hohem Maße zukunftssicher, entwicklungsfähig und offen für veränderte Anforderungen. Sie beinhalten nicht die Nachteile technischer "Insellösungen", als die Dokumentenmanagementsysteme oder Datenbank/Interface-Konzeptionen manchmal erscheinen, sondern sind Teil einer weltweiten Entwicklung von Konzepten und Werkzeugen, die auf sie anwendbar sind, auch wenn sie ursprünglich für andere Anforderungen entwickelt werden.
Die Entwicklung neuer Publikationsformen kann sich nur in Wechselwirkung mit den Nutzern vollziehen. Eine abwartende Haltung auf der Seite digitaler Erschließungsprojekte ist deshalb eine Sackgasse. Das eigentliche Ziel, nämlich die verbesserte Benutzung von Dokumentenbeständen, wird so nicht erreicht werden.
Weiter im Text mit: 3. Fazit
Patrick Sahle M.A. (Sahle@uni-koeln.de) - 30. April 1999.