KI-Chatbots benötigen mehr Bücher zum Lernen und mehrere US-Bibliotheken leihen ihnen Bücher.

Alles, was wir im Internet gehört haben, war nur der Anfang, künstliche Intelligenz über die Menschheit zu unterrichten . Jetzt wenden sich Technologieunternehmen einem noch älteren Wissensspeicher zu: den Bücherregalen der Bibliotheken .
Fast eine Million Bücher, die bis ins 15. Jahrhundert zurückreichen – und in 254 Sprachen erschienen – sind Teil einer Sammlung der Harvard University, die kürzlich Forschern zugänglich gemacht wurde . Schätze alter Zeitungen und Regierungsdokumente aus der Boston Public Library werden demnächst ebenfalls hinzukommen.
Das Öffnen der Tresore, um auf jahrhundertealte Bücher zuzugreifen, könnte für Technologieunternehmen , die mit Klagen von Romanautoren, bildenden Künstlern und anderen konfrontiert sind, deren kreative Werke sie ohne deren Zustimmung zum Trainieren von KI-Chatbots verwendet haben , eine Fülle von Daten bedeuten.
„Es ist eine kluge Entscheidung , mit öffentlich zugänglichen Informationen zu beginnen , da diese derzeit weniger umstritten sind als Inhalte, die noch urheberrechtlich geschützt sind“, sagte Burton Davis, stellvertretender General Counsel von Microsoft.
Davis merkte an, dass Bibliotheken auch „riesige Mengen interessanter kultureller, historischer und sprachlicher Daten“ enthalten, die in den letzten Jahrzehnten in den Online-Kommentaren, aus denen KI-Chatbots größtenteils gelernt haben, fehlten. Die Angst vor einem Informationsmangel hat KI-Entwickler zudem dazu veranlasst, auf „synthetische“ Daten zurückzugreifen, die von den Chatbots selbst erstellt wurden und von geringerer Qualität sind.
Mit der Unterstützung uneingeschränkter Spenden von Microsoft und OpenAI – dem Hersteller von ChatGPT – arbeitet die in Harvard ansässige Institutional Data Initiative mit Bibliotheken und Museen auf der ganzen Welt daran, ihre historischen Sammlungen KI-fähig zu machen und zwar auf eine Weise, die auch den von ihnen betreuten Gemeinschaften zugutekommt.
„Wir versuchen, einen Teil der Macht, die derzeit in den Händen der KI liegt, wieder an diese Institutionen zurückzugeben“, sagte Aristana Scourtas, Forschungsleiterin am Library Innovation Lab der Harvard Law School . „Bibliothekare waren schon immer Verwalter von Daten und Informationen.“
Chatbots. Clarín-Archiv.
Der von Harvard veröffentlichte Datensatz „Institutional Books 1.0“ enthält über 394 Millionen gescannte Papierseiten . Eines der ältesten Werke stammt aus dem 15. Jahrhundert: die handschriftlichen Betrachtungen eines koreanischen Malers über den Anbau von Blumen und Bäumen. Die meisten Werke stammen aus dem 19. Jahrhundert und behandeln Themen wie Literatur, Philosophie, Recht und Landwirtschaft – allesamt sorgfältig aufbewahrt und geordnet von Generationen von Bibliothekaren.
Es verspricht, für KI-Entwickler, die die Genauigkeit und Zuverlässigkeit ihrer Systeme verbessern möchten, sehr nützlich zu sein.
„Viele der Daten, die im KI-Training verwendet wurden, stammen nicht aus Originalquellen“, bemerkte Greg Leppert, Geschäftsführer der Dateninitiative und zugleich Chief Technology Officer am Berkman Klein Center for Internet & Society in Harvard, einer Organisation, die sich auf die Erforschung des Cyberspace konzentriert. Diese Büchersammlung deckt „bis hin zum physischen Exemplar ab, das von den Institutionen gescannt wurde, die diese Materialien tatsächlich gesammelt haben“, fügte er hinzu.
Bevor ChatGPT einen kommerziellen Hype um künstliche Intelligenz auslöste, interessierten sich die meisten KI-Forscher nicht besonders für die Herkunft der Textpassagen, die sie aus Wikipedia, Social-Media-Foren wie Reddit und manchmal aus riesigen Datenbanken mit Raubkopien zusammensuchten. Sie benötigten lediglich das, was Informatiker Token nennen: Dateneinheiten, von denen jede ein Wortfragment darstellen kann.
Chatbots.REUTERS/Dado Ruvic/Illustration
Harvards neue KI-Trainingssammlung umfasst schätzungsweise 242 Milliarden Token – eine Menge, die für Menschen kaum vorstellbar ist , aber dennoch nur ein Tropfen auf den heißen Stein im Vergleich zu dem ist, was in die fortschrittlichsten KI-Systeme eingespeist wird. So erklärte beispielsweise Facebooks Muttergesellschaft Meta, dass die neueste Version ihres umfangreichen KI-Sprachmodells mit mehr als 30 Billionen Token trainiert wurde, die aus Texten, Bildern und Videos extrahiert wurden.
Gegen Meta wird außerdem eine Klage der Komikerin Sarah Silverman und anderer veröffentlichter Autoren eingereicht, die dem Unternehmen vorwerfen, ihre Bücher aus „Geisterbibliotheken“ mit Raubkopien zu stehlen.
Nun stellen die königlichen Bibliotheken, wenn auch mit einigen Vorbehalten, ihre Bedingungen.
OpenAI, das ebenfalls mit einer Reihe von Klagen wegen Urheberrechtsverletzungen konfrontiert ist, spendete in diesem Jahr 50 Millionen Dollar an eine Gruppe von Forschungseinrichtungen, darunter die 400 Jahre alte Bodleian Library der Universität Oxford, die seltene Bücher digitalisiert und mithilfe von KI transkribiert.
„Als das Unternehmen sich erstmals an die Boston Public Library wandte, eine der größten Bibliotheken in den Vereinigten Staaten, machte die Bibliothek klar, dass alle digitalisierten Informationen für jedermann verfügbar sein würden“ , erklärte Jessica Chapel, die Leiterin der Abteilung für digitale und Online-Dienste der Bibliothek.
„OpenAI hatte ein Interesse an riesigen Mengen an Trainingsdaten. Wir haben ein Interesse an riesigen Mengen an digitalen Objekten. Hier scheinen sich also die Interessen zu decken “, sagte Chapel.
Digitalisierung ist teuer. Die Bostoner Bibliothek beispielsweise hat in mühevoller Kleinarbeit Dutzende französischsprachiger Zeitungen aus Neuengland gescannt und sortiert, die im späten 19. und frühen 20. Jahrhundert unter kanadischen Einwanderern in Quebec weit verbreitet waren. Da diese Texte nun zum Trainieren von KI genutzt werden, trägt dies zur Finanzierung von Projekten bei, die Bibliothekare ohnehin verfolgen möchten.
Chatbots.REUTERS/Dado Ruvic/Illustration
Mit der Digitalisierung der Harvard-Sammlung wurde bereits 2006 für einen anderen Technologiegiganten, Google, begonnen . Der Konzern plante im Rahmen seines umstrittenen Projekts, eine durchsuchbare Online-Bibliothek mit über 20 Millionen Büchern aufzubauen.
Google wehrte jahrelang Klagen von Autoren wegen seiner Online-Bibliothek ab , die viele neuere, urheberrechtlich geschützte Werke enthielt. Erst 2016 fand das Unternehmen eine Lösung: Der Oberste Gerichtshof der USA bestätigte Urteile unterer Gerichte, die Klagen wegen Urheberrechtsverletzungen abgewiesen hatten.
Nun hat Google erstmals mit Harvard zusammengearbeitet, um Google Books-Bände aus dem öffentlichen Bereich zu extrahieren und den Weg für die Weitergabe an KI-Entwickler zu ebnen. Der Urheberrechtsschutz in den USA gilt in der Regel 95 Jahre, für Tonträger sogar länger.
Die neue Initiative wurde von derselben Gruppe von Autoren begrüßt, die Google wegen seines Buchprojekts verklagten und kürzlich KI-Unternehmen vor Gericht brachten.
„Viele dieser Titel sind nur in den Regalen großer Bibliotheken zu finden. Die Erstellung und Nutzung dieses Datensatzes wird den Zugang zu diesen Bänden und dem darin enthaltenen Wissen erweitern“, sagte Mary Rasenberger, Geschäftsführerin der Writers Guild, in einer Erklärung. „Vor allem wird die Erstellung eines umfassenden juristischen Datensatzes für das Training die Entwicklung neuer KI-Modelle demokratisieren.“
Das von Google bereitgestellte Foto zeigt die beiden Seiten mit Beiträgen für Gemini, Googles KI-Chatbot. EFE/Google
Wie nützlich all dies für die nächste Generation von KI-Tools sein wird, bleibt abzuwarten , da die Daten auf der Hugging Face-Plattform geteilt werden, die Open-Source-KI-Datensätze und -Modelle hostet, die jeder herunterladen kann.
Die Buchsammlung ist sprachlich vielfältiger als die typischen Datenquellen von KI. Weniger als die Hälfte der Bände ist auf Englisch, obwohl europäische Sprachen, insbesondere Deutsch, Französisch, Italienisch, Spanisch und Latein, weiterhin vorherrschend sind.
Eine Sammlung von Büchern, die tief im Denken des 19. Jahrhunderts verwurzelt sind, könnte auch für die Versuche der Technologiebranche, KI-Agenten zu entwickeln, die ebenso gut planen und schlussfolgern können wie Menschen, „immens wichtig“ sein, bemerkte Leppert.
„An einer Universität gibt es jede Menge Lehrmaterial darüber, was logisches Denken bedeutet“, stellte er fest. „Es gibt jede Menge wissenschaftliches Wissen darüber, wie man Prozesse ausführt und Analysen durchführt.“
Gleichzeitig gibt es auch viele veraltete Daten , von diskreditierten wissenschaftlichen und medizinischen Theorien bis hin zu rassistischen und kolonialen Narrativen.
„Wenn man mit einem so großen Datensatz arbeitet, gibt es einige heikle Probleme im Zusammenhang mit schädlichen Inhalten und Sprache“, sagte Kristi Mukk, Koordinatorin des Harvard Library Innovation Lab. Sie sagte, die Initiative wolle Leitlinien zur Minderung der Risiken der Datennutzung bereitstellen und so „den Benutzern helfen, ihre eigenen fundierten Entscheidungen zu treffen und KI verantwortungsvoll zu nutzen“.
Mit Informationen von The Associated Press.
Clarin