Benutzer:Histo/GBS Digital Humanities
Google Books und Digital Humanities (Konstanz 20. Juni 2017)
BearbeitenWichtige Links
Bearbeiten- Eigene Ermittlungen aus der Anfangszeit von Google Print ab 2005, Archivversion (ich beobachte Google Books von Anfang an und nenne seit etlichen Semestern meine Freiburger Lehrveranstaltung "Google Books und die Wunderwelt digitaler Bibliotheken")
7 Todsünden von Google Books
BearbeitenThese: Google Books ist für geisteswissenschaftliche Recherchen und damit für die Digital Humanities das wichtigste Werkzeug.
Nicht alles, was in Google Books und Google Scholar auffindbar ist, ist in die Websuche integriert.
These: Es gibt zu wenig wissenschaftliche Forschung über Google Books
Fragment (2011) dazu: https://archivalia.hypotheses.org/59945
These: Google Books ändert sich ständig, alle Aussagen können am nächsten Tag überholt sein
Neben gravierenden Mängeln gibt es auch viele lässliche Sünden ...
- Fehlen von Permalinks - https://archivalia.hypotheses.org/64173
- Nicht dauerhafte Einbettungsfunktion - https://archivalia.hypotheses.org/60596
1. Im Vergleich zum Arcanum Google Books waren die frühneuzeitlichen Archive Horte der Transparenz
Bearbeiten"Black box"
Geheimniskrämerei:
Umfang: 20 Mio. Bücher (Harvard: 16)
Scanzentren unzugänglich
Vertrag der BSB München mit Google nicht öffentlich - https://archivalia.hypotheses.org/11434
2. Google kultiviert eine ausgeprägte Urheberrechts-Paranoia und gibt ein schlechtes Beispiel für HathiTrust
BearbeitenEuropäische Bücher nach 1876 (Stand: 2017, moving wall) sind für Nicht-US-Nutzer in der Regel in Google Books nicht in Vollansicht einsehbar.
Suche nach Chroniken in Vollansicht (chronologisch sortiert):
Videotutorial zu Google-Books: https://www.youtube.com/watch?v=d3xPHI_z7fA
Beispiel für einen US-Proxy: http://www.ipconceal.com/
Finke 1889 zum Konstanzer Konzil:
Nutzung ist legal!
Tipp: Nur mit US-Proxy in Vollansicht benutzbare Google Books ins Internet Archive hochladen!
- Siehe auch den #Gemeinfreitag in Archivalia: https://redaktionsblog.hypotheses.org/3313
Tipp: Digitalisate im Internet Archive in Wikisource eintragen!
HathiTrust praktiziert die gleiche übervorsichtige Haltung wie Google mit der gleichen Moving Wall:
Während bei Google auch für US-Nutzer bei europäischen Büchern auch bei ca. 1909 Schluss ist, können Nutzer mit US-IP in HathiTrust Bücher bis einschließlich 1922 ganz lesen.
Von den 15 Mio. Büchern in HathiTrust sind knapp 6 Mio. für US-Nutzer als Public Domain zugänglich.
3. Google Books ist voll von miesen Metadaten
BearbeitenVon einem unüberprüften Import in Literaturverwaltungsprogramme kann nur abgeraten werden.
Screenshot https://f.hypotheses.org/wp-content/blogs.dir/2516/files/2016/06/upload-hohenzollern.jpg
Metadatenfehler werden kaum korrigiert.
Dies beeinträchtigt auch den Ngram-Viewer
- Hintergrund: https://en.wikipedia.org/wiki/Google_Ngram_Viewer
4. Google Books enthält immer noch eine Menge zu schlechter Scans, und auch auf die OCR ist nicht selten zu wenig Verlass
BearbeitenZugegeben: Google Books ist erheblich besser geworden, Scans werden laufend ausgetauscht; die OCR bei Fraktur ist inzwischen gut.
BSB: "Etwa alle zwei Jahre nimmt sich Google die Daten erneut vor und überarbeitet sie. So wurden beispielsweise irgendwann die Finger des Scan-Personals, die anfangs zu sehen waren, entfernt.“ Quelle: https://archivalia.hypotheses.org/64823
Aber es gibt noch genügend unbrauchbare Teile z.B. nicht ausgeklappte Tafeln:
https://books.google.de/books?id=Y5pAAAAAcAAJ&printsec=frontcover&hl=de#v=thumbnail
OCR: Buch von 1613
5. Google bevormundet seine Nutzer bei der Auswahl Suchergebnisse in unerträglicher Weise
BearbeitenBücher werden nicht gefunden, die in Google Books vorhanden sind, und die Suchkriterien erfüllen.
Es geht nicht nur um Ranking (bei umfangreichen Treffermengen), sondern auch um Auswahl (bei kleinen).
Suche nach schusterknecht held
Suche nach schusterknecht held königsberg bringt einen in der vorigen Trefferliste nicht vorhandenen Treffer
Die Filter der erweiterten Suche sind unzulässig.
Zeitfilter versagt:
Google findet mein Buch "Gmünder Chroniken" (Vollansicht) nicht:
Screenshot: https://f.hypotheses.org/wp-content/blogs.dir/2516/files/2017/06/gbs_absurd_1.jpg
Die Suche im Buch ist unzuverlässig:
Screenshot: https://f.hypotheses.org/wp-content/blogs.dir/2516/files/2016/10/gbs_voltmer.jpg
Snippets-Gate im Herbst 2016: https://archivalia.hypotheses.org/60844
Ritter Toggenburg 1940-1960:
- Google Books 20 Treffer
- HathiTrust (fast alles Google Scans) 485 Treffer
- Weiteres Beispiel: https://archivalia.hypotheses.org/63112 (Drei Lieder für eine Singstimme)
Massive Irreführung auch bei der Vollansicht (Google Verlagsprogramm):
Diese Fehler schaden auch der von mir sogenannten Zitatsuche:
Erzähltyp "Heimkehr des Gatten"
Holzapfel Splettstösser
6. Die Trefferlisten sind voller Spam
BearbeitenIn den Trefferlisten sind häufig Bücher zu finden, die ersichtlich nicht relevant sind und nichts mit der Suchanfrage zu tun haben.
(1300 Ergebnisse schnurren auf Seite 2 auf 173 zusammen)
Zum Vergleich: Holzapfel Splettstößer
7. Google vernachlässigt Google Books zunehmend und arbeitet nicht mit der Wissenschaft/Zivilgesellschaft zusammen
BearbeitenScott Rosenberg sprach in einem vor kurzem erschienenen Artikel von den zwei Toden des Google Book Search-Projekts. "Den ersten starb es, nachdem gegen Google Books geklagt wurde. Den zweiten starb es, nachdem Google vor Gericht gesiegt hatte. Denn trotzdem wird das Projekt offenbar nur noch höchst halbherzig weitergeführt“. Quelle: https://archivalia.hypotheses.org/64485
Scheitern des Settlement
Kein Dialog mit Google möglich.
Wo bleibt das Positive?
Bearbeiten(Trivial:) Forderung nach Quellenkritik gilt auch Google Books!
These: Je mehr man sich mit Google Books befasst und kreativ mit den eigenen Suchprozessen umgeht, um so eher ist es möglich, die aufgezählten Beschränkungen zu umgehen oder abzumildern.
Trotz aller Einwände: Google Books ist ein geniales Recherche-Instrument.
Etwas, was Google absolut richtig gemacht hat: Bei mehreren Suchworten werden nur Treffer ausgegeben, die ungefähr auf einer einzigen Seite stehen. Anders HathiTrust:
HathiTrust ist nicht die einzige Volltextsuche aus Google-Scans. Neben HathiTrust bieten Gent, München, Oxford, Den Haag und Wien die von Google gelieferten Scans in eigenen Angeboten an. Volltextsuchen gibt es in München, Wien und Den Haag.
Phrasensuche "Gottfried Pahl"
Google duldet erfreulicherweise das massive Hochladen seiner Scans ins Internet Archive. Im Internet Archive gibt es erst seit kurzem wieder eine einigermaßen funktionierende Volltextsuche (aber: keine Phrasensuche möglich)
Gezielt Metadaten durchsuchen, wie dies Bielefelds Suchmaschine BASE oder die Europeana ermöglichen, weiß ich zu schätzen; aber dies ersetzt keine Volltextsuche. Googles Konzept einer Volltextsuche ist goldrichtig.
Kulturinstitutionen denken meistens, für Volltextsuchen ist Google zuständig, obwohl es kaum etwas Dringenderes gäbe als akademische Volltext-Zusatzangebote zu Google. Niemand kann derzeit Google derzeit ersetzen, aber wir brauchen intelligente Werkzeuge, die seine Unzulänglichkeiten abmildern.
Volltexte der UB Heidelberg:
Zahlreiche deutsche Bibliotheken bieten Digitalisate mit der kommerziellen Software Visual Library an, teilweise auch mit Volltextsuche. Aber es gibt keine die einzelnen Projekte übergreifende Volltextsuche.
Riesiger Bestand an wichtigen Retrodigitalisaten auf dem Verlagsserver von De Gruyter, aber die Volltextsuche ist unzulänglich:
Scheitern der Discovery-Bibliothekssysteme liegt auch an mangelnden Schnipseln (z.B. KonSearch).
- Zu weiteren wichtigen Volltextsuchen: https://archivalia.hypotheses.org/9726 (2012)
Schlussbemerkung
BearbeitenBedenkt man den Rang, den Google Books für die geisteswissenschaftliche Recherche-Arbeit, aber auch für Überlegungen zum Thema Suche/Retrieval hat, erstaunt das weitgehende Versagen der Wissenschaft beim reflektierten Umgang mit dem Angebot.
Es sollte viel mehr veröffentlichte Beobachtungen und Studien zu Google Books geben. Anders als die Websuche ist es für Suchmaschinenoptimierung SEO uninteressant. Um so wichtiger wäre es, dass Wissenschaftler über eines ihrer wichtigsten Instrumente nachdenken.
Es ist falsch, dass sich Wissenschaftsorganisationen und die Politik zu Google Books völlig passiv verhalten. Sie müssten im Interesse der Wissenschaft den - gewiss sehr schwierigen - Dialog mit Google suchen, etwa im Bereich der vergriffenen und verwaisten Werke. An den Grundgedanken des gescheiterten "Settlement" müsste weitergearbeitet werden.
Nicht-kommerzielle und kommerzielle Anbieter von Volltextsuchen sollten stärker zur Zusammenarbeit im Bereich akademischer Metasuchen gedrängt werden.
Das also wäre meine Vision: Lasst tausend vernetzte, also bequem gemeinsam durchsuchbare Volltextsuchen neben Google aufblühen! Vor allem solche, die Googles Fehler vermeiden und seine Vorteile kopieren ...
Nachträge: Rezeption
BearbeitenOpen Password hat obiges redigiert am 12. April 2018 publiziert.