KI-Chatbots brauchen mehr Bücher zum Lernen. Diese Bibliotheken öffnen ihre Regale

CAMBRIDGE, Massachusetts – Alles, was jemals im Internet gesagt wurde, war nur der Anfang, künstliche Intelligenz über die Menschheit zu unterrichten. Technologieunternehmen greifen nun auf einen älteren Wissensspeicher zurück: die Bibliotheksbestände.
Fast eine Million Bücher, die bereits im 15. Jahrhundert veröffentlicht wurden – und in 254 Sprachen – sind Teil einer Sammlung der Harvard University, die am Donnerstag KI-Forschern zur Verfügung gestellt wird. Demnächst werden auch zahlreiche alte Zeitungen und Regierungsdokumente aus der Bostoner Stadtbibliothek verfügbar sein.
Das Öffnen der Tresore mit jahrhundertealten Büchern könnte für Technologieunternehmen ein wahrer Datenschatz sein, da sie sich derzeit mit Klagen lebender Romanautoren , bildender Künstler und anderer auseinandersetzen müssen, deren kreative Werke ohne ihre Zustimmung entwendet wurden, um KI-Chatbots zu trainieren.
„Es ist eine kluge Entscheidung, mit gemeinfreien Daten zu beginnen, da diese derzeit weniger umstritten sind als Inhalte, die noch urheberrechtlich geschützt sind“, sagte Burton Davis, stellvertretender Chefjustiziar bei Microsoft.
Davis sagte, dass Bibliotheken auch „erhebliche Mengen interessanter kultureller, historischer und sprachlicher Daten“ enthielten, die in den Online- Kommentaren der letzten Jahrzehnte fehlten, aus denen KI-Chatbots größtenteils gelernt hätten.
Unterstützt durch „uneingeschränkte Spenden“ von Microsoft und dem ChatGPT-Hersteller OpenAI arbeitet die in Harvard ansässige Institutional Data Initiative mit Bibliotheken auf der ganzen Welt daran, ihre historischen Sammlungen KI-fähig zu machen, und zwar auf eine Weise, die auch den Bibliotheken und den von ihnen betreuten Gemeinschaften zugutekommt.
„Wir versuchen, einen Teil der Macht aus der aktuellen KI-Szene zurück an diese Institutionen zu übertragen“, sagte Aristana Scourtas, die die Forschung am Library Innovation Lab der Harvard Law School leitet. „Bibliothekare waren schon immer die Verwalter von Daten und Informationen.“
Harvards neu veröffentlichter Datensatz „Institutional Books 1.0“ enthält mehr als 394 Millionen gescannte Papierseiten. Eines der ältesten Werke stammt aus dem 15. Jahrhundert – die handschriftlichen Gedanken eines koreanischen Malers über die Kultivierung von Blumen und Bäumen. Die meisten Werke stammen aus dem 19. Jahrhundert und behandeln Themen wie Literatur, Philosophie, Recht und Landwirtschaft. Sie wurden von Generationen von Bibliothekaren sorgfältig aufbewahrt und geordnet.
Es verspricht ein Segen für KI-Entwickler zu sein, die versuchen, die Genauigkeit und Zuverlässigkeit ihrer Systeme zu verbessern.
„Viele der Daten, die im KI-Training verwendet wurden, stammen nicht aus Originalquellen“, sagte Greg Leppert, Geschäftsführer der Dateninitiative und Cheftechnologe am Berkman Klein Center for Internet & Society in Harvard. Diese Büchersammlung gehe „bis auf das physische Exemplar zurück, das von den Institutionen gescannt wurde, die diese Bücher tatsächlich gesammelt haben“, sagte er.
Bevor ChatGPT einen kommerziellen KI-Hype auslöste, machten sich die meisten KI-Forscher keine großen Gedanken über die Herkunft der Textpassagen, die sie aus Wikipedia, aus Social-Media -Foren wie Reddit und manchmal aus riesigen Repositorien raubkopierter Bücher zogen. Sie brauchten lediglich eine Menge von dem, was Informatiker Token nennen – Dateneinheiten, von denen jede einen Teil eines Wortes darstellen kann.
Harvards neue KI-Trainingssammlung umfasst schätzungsweise 242 Milliarden Token – eine für Menschen kaum vorstellbare Menge, aber nur ein Bruchteil dessen, was in die fortschrittlichsten KI-Systeme eingespeist wird. So erklärte beispielsweise die Facebook-Muttergesellschaft Meta, die neueste Version ihres KI-Large-Language-Modells sei mit mehr als 30 Billionen Token aus Texten, Bildern und Videos trainiert worden.
Meta kämpft außerdem gegen eine Klage der Komikerin Sarah Silverman und anderer veröffentlichter Autoren, die dem Unternehmen vorwerfen, ihre Bücher aus „Schattenbibliotheken“ mit Raubkopien zu stehlen.
Nun erheben sich die echten Bibliotheken, wenn auch mit einigen Vorbehalten.
OpenAI, das ebenfalls gegen eine Reihe von Urheberrechtsklagen kämpft, spendete in diesem Jahr 50 Millionen Dollar an eine Gruppe von Forschungseinrichtungen, darunter die 400 Jahre alte Bodleian Library der Universität Oxford, die seltene Texte digitalisiert und bei der Transkription KI einsetzt.
Als das Unternehmen erstmals Kontakt zur Boston Public Library aufnahm, einer der größten Bibliotheken in den USA, machte diese klar, dass alle digitalisierten Informationen für jedermann bestimmt seien, sagte Jessica Chapel, Leiterin der Abteilung für digitale und Online-Dienste.
„OpenAI hatte ein Interesse an riesigen Mengen an Trainingsdaten. Wir haben ein Interesse an riesigen Mengen an digitalen Objekten. Das ist also so eine Art Fall, in dem sich die Dinge annähern“, sagte Chapel.
Digitalisierung ist teuer. So war es beispielsweise für die Bostoner Bibliothek eine mühsame Arbeit, Dutzende französischsprachiger Zeitungen aus Neuengland zu scannen und zu kuratieren, die im späten 19. und frühen 20. Jahrhundert von kanadischen Einwanderern aus Quebec weit verbreitet waren. Da diese Texte nun als Trainingsdaten dienen, können sie Projekte finanzieren, die Bibliothekare ohnehin durchführen möchten.
„Wir haben ganz klar zum Ausdruck gebracht: ‚Hey, wir sind eine öffentliche Bibliothek‘“, sagte Chapel. „Unsere Sammlungen sind für die öffentliche Nutzung bestimmt, und alles, was wir im Rahmen dieses Projekts digitalisieren, wird der Öffentlichkeit zugänglich gemacht.“
Die Digitalisierung der Harvard-Sammlung begann bereits 2006 für einen anderen Technologiegiganten, Google, im Rahmen seines umstrittenen Projekts zur Schaffung einer durchsuchbaren Online-Bibliothek mit über 20 Millionen Büchern.
Google wehrte jahrelang Klagen von Autoren seiner Online-Bibliothek ab , die viele neuere und urheberrechtlich geschützte Werke enthielt. Erst 2016 wurde der Streit beigelegt, als der Oberste Gerichtshof der USA Urteile unterer Gerichte, die Klagen wegen Urheberrechtsverletzungen zurückgewiesen hatten, aufrechterhielt.
Nun hat Google erstmals mit Harvard zusammengearbeitet, um gemeinfreie Bände aus Google Books zurückzuholen und sie KI-Entwicklern zugänglich zu machen. Der Urheberrechtsschutz in den USA beträgt in der Regel 95 Jahre , bei Tonaufnahmen sogar länger.
Wie nützlich all dies für die nächste Generation von KI-Tools sein wird, bleibt abzuwarten, wenn die Daten am Donnerstag auf der Hugging Face-Plattform geteilt werden, die Datensätze und Open-Source-KI-Modelle hostet, die jeder herunterladen kann.
Die Buchsammlung ist sprachlich vielfältiger als typische KI-Datenquellen. Weniger als die Hälfte der Bände ist auf Englisch, obwohl europäische Sprachen, insbesondere Deutsch, Französisch, Italienisch, Spanisch und Latein, weiterhin dominieren.
Eine Büchersammlung, die tief im Denken des 19. Jahrhunderts verwurzelt ist, könne auch für die Bemühungen der Technologiebranche, KI-Agenten zu entwickeln, die ebenso gut planen und schlussfolgern können wie Menschen, „immens wichtig“ sein, sagte Leppert.
„An einer Universität wird viel darüber gelehrt, was es bedeutet, logisch zu denken“, sagte Leppert. „Man erhält viel wissenschaftliches Wissen darüber, wie man Prozesse und Analysen durchführt.“
Gleichzeitig gibt es auch jede Menge veraltete Daten, von widerlegten wissenschaftlichen und medizinischen Theorien bis hin zu rassistischen Narrativen.
„Wenn man mit einem so großen Datensatz arbeitet, gibt es einige heikle Probleme im Zusammenhang mit schädlichen Inhalten und Sprache“, sagte Kristi Mukk, Koordinatorin am Library Innovation Lab der Harvard University. Sie sagte, die Initiative versuche, Leitlinien zur Minderung der Risiken bei der Verwendung der Daten bereitzustellen, um „den Nutzern zu helfen, ihre eigenen fundierten Entscheidungen zu treffen und KI verantwortungsvoll zu nutzen“.
————
Associated Press und OpenAI haben eine Lizenz- und Technologievereinbarung , die OpenAI Zugriff auf einen Teil der Textarchive von AP gewährt.
ABC News