Treffen Sie die Autoren
Olli Pitkänen
CLO
Dr. Olli Pitkänen ist ein kompetenter Experte mit umfassender Erfahrung im Bereich IKT und Recht. Er leitet multidisziplinäre Projekte und bietet als Gründer einer IT-Rechtskanzlei und Berater von Unternehmen und der finnischen Regierung Fachwissen zu rechtlichen Aspekten von IKT, geistigen Eigentumsrechten, Datenschutz und Daten.
Sami Jokela
CTO
Dr. Sami Jokela ist eine erfahrene Führungspersönlichkeit mit mehr als 20 Jahren Erfahrung in den Bereichen Daten, Technologie und Strategie, unter anderem bei Nokia, als Mitbegründer von Startups und als Leiter von Accentures Technologie- und Informationswissen.
Waltter Roslin
Rechtsanwalt
Walzer ist Jurist und befasst sich mit Fragen der gemeinsamen Nutzung von Daten, Governance, Datenschutz und Technologie. Er ist ebenfalls Doktorand an der Universität Helsinki, wo er sich mit dem finnischen Erstattungssystem für Arzneimittel beschäftigt.
TEIL I - Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?
Einführung
Künstliche Intelligenz (KI) stellt in vielen Rechtsbereichen neue Herausforderungen dar. Einer dieser Bereiche ist das Urheberrechtssystem, das für eine ganz andere Welt und Zeit entwickelt wurde. Unternehmen und andere Akteure, die KI-Systeme entwickeln oder anwenden, stehen vor Schwierigkeiten, wenn sie versuchen, das Urheberrecht einzuhalten. Diese gibt es vor allem in drei Bereichen:
- Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?
- Ist der Output eines generativen KI-Systems urheberrechtsfähig und wer ist der Urheber, wenn KI in Bereichen eingesetzt wird, die traditionell menschliche Kreativität erfordern?
- Sind KI-Modelle urheberrechtsfähig?
In diesem ersten Teil des dreiteiligen Beitrags analysieren wir das Recht der Urheberrechtsinhaber, KI-Entwickler an der Verwendung urheberrechtlich geschützter Werke in Trainingsdaten zu hindern, insbesondere aus der Sicht des EU-Rechts.
Exklusives Rechts zur Verhinderung von Training AI
Kreative Werke sind durch das Urheberrecht geschützt. Sie wird durch nationale Gesetze, EU-Richtlinien und internationale Verträge geregelt. Alles, was originell ist und zum Ausdruck kommt, ist durch das Urheberrecht geschützt. Das Werk muss nicht registriert oder urheberrechtlich geschützt sein (z. B. ©-Zeichen) und es muss auch nicht künstlerisch sein. Der ursprüngliche Gegenstand muss eine geistige Schöpfung des Urhebers sein, und nur die Elemente, die Ausdruck einer solchen Schöpfung sind, sind urheberrechtlich geschützt. Der Autor muss bei der Erstellung des Werks kreative Entscheidungen getroffen haben.1
Das Verfassen eines längeren Textes wie eines Romans beinhaltet in der Regel kreative Entscheidungen, denn der Autor wählt aus, welche Wörter er verwendet und in welcher Reihenfolge er sie einsetzt. Andererseits ist jedes einzelne Wort dieses Werks nicht urheberrechtsfähig. Daher enthalten größere Texte und sogar längere Auszüge oft genug Originalität, um urheberrechtlich geschützt zu sein, aber ein einzelnes Wort oder einige wenige Wörter, die aus dem Text genommen wurden, sind es nicht.
Was bedeutet das aus Sicht der KI? Beim maschinellen Lernen werden statistische Modelle anhand großer Datenmengen, z. B. Texte oder Bilder, trainiert. Das Modell enthält dann Informationen über die Wahrscheinlichkeiten von Kollokationen verschiedener Wörter oder Elemente eines Bildes. Um genauer zu sein, insbesondere in Bezug auf Large Language Models (LLM), wird der ursprüngliche Trainingstext durch Token (eindeutige numerische Darstellung jedes Worts) ersetzt, woraufhin das Modell trainiert wird, das wahrscheinlichste nächste Token vorherzusagen. Bei der Verwendung des Modells wird ein Prompt-Text als Anfangskontext vorgegeben, der dann in ähnlicher Weise zur Vorhersage der folgenden Token-Folge verwendet wird. Schließlich werden diese Token in Wörter und Sätze umgewandelt. Mit Hilfe eines solchen Modells kann ein generatives KI-System beispielsweise Texte oder Bilder produzieren, die denen von menschlichen Autoren ähneln.
Aus urheberrechtlicher Sicht stellt sich zunächst die Frage, ob in dem Prozess etwas urheberrechtlich Relevantes geschieht. Das bloße Lesen von Texten oder Betrachten von Bildern stellt keine Verletzung des Urheberrechts dar. Auch das Kopieren einzelner Wörter oder ihrer Token stellt keine Verletzung des Urheberrechts dar, da, wie oben erwähnt, einzelne Wörter nicht urheberrechtsfähig sind. Das Kopieren größerer Textabschnitte oder eines ganzen Bildes kann gegen das Urheberrecht verstoßen. So kann das Trainieren eines Modells je nach Trainingsalgorithmus gegen das Urheberrecht verstoßen oder auch nicht: entweder werden die kreativen Entscheidungen des Autors kopiert oder der Abstand zwischen einzelnen Wörtern analysiert. Ein typischer, leicht vereinfachter maschineller Lernprozess besteht darin, den Text zu lesen, potenziell unwichtige Zeichen zu entfernen und das Ergebnis in eine Token-Reihe umzuwandeln. Danach werden die Ergebnisse in der Regel als Token-Vektoren für den Lernprozess gespeichert, der dann mehrfach wiederholt wird. Alternativ kann das Material zunächst unverändert gespeichert und dann während des Lernens umgewandelt werden, was jedoch sehr viel ineffizienter ist als der vorherige Ansatz. Es ist wahrscheinlich, dass die Token-Vektoren auch die Ergebnisse der kreativen Entscheidungen enthalten, die der ursprüngliche Autor getroffen hat. Daher ist es je nach Algorithmus plausibel, dass ein maschinelles Lernverfahren Kopien von Originalwerken anfertigt und daher aus urheberrechtlicher Sicht relevant ist.
Zum Zeitpunkt der Erstellung dieses Artikels hat die New York Times gerade OpenAI und Microsoft wegen Urheberrechtsverletzung verklagt. In einem Beispiel dafür, wie KI-Systeme das Material der Times nutzen, behauptete das Medienhaus, dass ChatGPT fast wortwörtlich Ergebnisse von Wirecutter, der Produktbewertungsseite der Times, wiedergab.2 OpenAI hingegen bestreitet dies. Das Unternehmen sagt, es habe Maßnahmen ergriffen, um versehentliches Auswendiglernen einzuschränken und das Wiederkäuen von Modellausgaben zu verhindern.3 Wir wissen noch nicht, wie der Streit ausgehen wird, aber wenn die Times recht hat, wird ChatGPT von OpenAI wahrscheinlich das Urheberrecht verletzen. Es wäre schwer zu verstehen, wie die Softwareausgabe „fast wortgetreue“ Kopien der Trainingsdaten enthält, wenn diese nicht zuerst in das Modell kopiert werden. Andererseits ist es, wenn OpenAI Recht hat, sehr viel schwieriger zu erkennen, ob in diesem Prozess etwas urheberrechtlich Relevantes geschieht.
Ausnahmen, die ermöglichen Ausbildung
Die zweite Frage lautet: Wenn das Trainieren eines Modells urheberrechtlich relevant ist, gibt es dann eine Ausnahme oder eine Einschränkung im Urheberrecht, die das Trainieren trotzdem erlaubt?
Die starken Ausschließlichkeitsrechte, z. B. das Recht, das Werk zu vervielfältigen, zu verändern, zu verkaufen und auszustellen, die das Urheberrechtsgesetz den Urhebern gewährt, wurden durch Ausnahmen und Beschränkungen auszugleichen versucht. Sie variieren von Land zu Land. Oft werden sie in einem Urheberrechtsgesetz aufgezählt, aber z. B. in den USA sind sie in der Fair-Use-Doktrin enthalten, einer offenen Beschränkung des Urheberrechts. Zu den Ausnahmen gehören in der Regel Vervielfältigungshandlungen von Bibliotheken, Bildungseinrichtungen, Museen oder Archiven sowie flüchtige Aufzeichnungen von Rundfunkanstalten, die Veranschaulichung zu Lehr- oder Forschungszwecken, zum Nutzen von Behinderten, zur Unterrichtung der Öffentlichkeit über aktuelle Ereignisse und zum Zwecke des Zitierens oder Karikierens. Insbesondere ist es in vielen Ländern legal, Kopien von urheberrechtlich geschützten Werken für den privaten Gebrauch anzufertigen. Kürzlich wurde in Artikel 4 der DSM-Richtlinie4Die EU hat die Mitgliedstaaten verpflichtet, eine Ausnahme oder Beschränkung des Urheberrechts für Vervielfältigungen und Auszüge aus rechtmäßig zugänglichen Werken zum Zwecke des Text- und Data-Mining vorzusehen, es sei denn, die Nutzung der Werke wurde von den Rechteinhabern ausdrücklich in geeigneter Weise vorbehalten. Text- und Data-Mining in Forschungseinrichtungen und Institutionen des kulturellen Erbes kann nicht durch einen solchen Vorbehalt eingeschränkt werden (Art. 3).
Es sei darauf hingewiesen, dass das ausschließliche Recht des Urheberrechtsinhabers die Hauptregel ist und Ausnahmen und Beschränkungen eng ausgelegt werden sollten. Daher sollte die Ausnahme oder Einschränkung für Text- und Data-Mining nicht weiter ausgelegt werden, als es in der Richtlinie ausdrücklich vorgesehen ist. Eine interessante Frage ist, ob Text- und Data-Mining in diesem Zusammenhang auch Trainingsverfahren für maschinelles Lernen umfassen. In Artikel 2 wird definiert, dass unter „Text- und Data-Mining“ jede automatisierte Analysetechnik zu verstehen ist, die darauf abzielt, Texte und Daten in digitaler Form zu analysieren, um Informationen zu gewinnen, die unter anderem Muster, Trends und Korrelationen enthalten. Es scheint, dass die meisten Experten darin übereinstimmen, dass diese Definition auch maschinelles Lernen umfasst. Zum Zeitpunkt des Verfassens dieses Artikels liegt uns der endgültige Wortlaut des KI-Gesetzes noch nicht vor, aber auf der Grundlage der aktuellen Entwürfe scheint es, dass das KI-Gesetz eine Klarstellung enthalten wird, dass die Ausnahmeregelung für Data Mining in der DSM-Richtlinie für das Training von KI gilt. Obwohl wir nicht sicher sein können, bis der Europäische Gerichtshof (EuGH) zu dieser Frage Stellung nimmt, gehen wir daher davon aus, dass die Verwendung urheberrechtlich geschützter Werke zum Training künstlicher Intelligenz gemäß Artikel 3 und 4 der DSM-Richtlinie zulässig ist. 3 und 4.
Unter diesem Gesichtspunkt wäre das Training eines Modells mit Daten, die urheberrechtlich geschützte Werke enthalten, rechtmäßig, es sei denn, die Verwendung der Werke wurde von den Rechteinhabern ausdrücklich vorbehalten. Das macht es jedoch nicht legal, ein generatives KI-System zu entwickeln, das Kopien von urheberrechtlich geschützten Werken erzeugt. Das Anfertigen unerlaubter Kopien wäre nicht legal, wenn man nur behauptet, dass der Kopierer KI-Software enthält!
Schlussfolgerungen
Zusammenfassend lässt sich sagen, dass maschinelle Lernverfahren je nach Algorithmus aus urheberrechtlicher Sicht relevant sein können. Wenn beim Training die kreativen Entscheidungen des ursprünglichen Autors eines urheberrechtlich geschützten Werks in den Trainingsdaten kopiert werden, könnte dies die Exklusivrechte des Autors verletzen. Wenn der maschinelle Lernprozess jedoch als Data Mining betrachtet werden kann, kann er unter die in der DSM-Richtlinie definierten Beschränkungen oder Ausnahmen fallen und somit in der EU rechtmäßig sein. Wenn jedoch die Ausgabe eines generativen KI-Systems Kopien der Werke in den Trainingsdaten enthält, kann dies nicht durch diese Einschränkung oder Ausnahme gerechtfertigt werden.
In den folgenden Teilen werden wir zunächst die Urheberschaft von KI-generierten Inhalten erörtern und dann diesen dreiteiligen Beitrag mit Ideen zum Urheberrecht in KI-Modellen abschließen.
Die Experten von 1001 Lakes besprechen diese Themen gerne mit Ihnen, wenn Sie Bedenken bezüglich KI und Urheberrecht haben oder wissen möchten, wie Sie KI unter Einhaltung des Urheberrechts entwickeln und nutzen können.