Herausforderungen für das Urheberrecht im Zeitalter der KI

von Waltter Roslin, Sami Jokela, Olli Pitkänen | 12.2.2024 | AI, Compliance, Copyright, EU-Recht, Künstliche Intelligenz, Verletzung

Treffen Sie die Autoren

Olli Pitkänen

CLO

Dr. Olli Pitkänen ist ein kompetenter Experte mit umfassender Erfahrung im Bereich IKT und Recht. Er leitet multidisziplinäre Projekte und bietet als Gründer einer IT-Rechtskanzlei und Berater von Unternehmen und der finnischen Regierung Fachwissen zu rechtlichen Aspekten von IKT, geistigen Eigentumsrechten, Datenschutz und Daten.

LinkedIn

Sami Jokela

CTO

Dr. Sami Jokela ist eine erfahrene Führungspersönlichkeit mit mehr als 20 Jahren Erfahrung in den Bereichen Daten, Technologie und Strategie, unter anderem bei Nokia, als Mitbegründer von Startups und als Leiter von Accentures Technologie- und Informationswissen.

LinkedIn

Waltter Roslin

Rechtsanwalt

Walzer ist Jurist und befasst sich mit Fragen der gemeinsamen Nutzung von Daten, Governance, Datenschutz und Technologie. Er ist ebenfalls Doktorand an der Universität Helsinki, wo er sich mit dem finnischen Erstattungssystem für Arzneimittel beschäftigt.

LinkedIn

TEIL I - Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?

Einführung

Künstliche Intelligenz (KI) stellt in vielen Rechtsbereichen neue Herausforderungen dar. Einer dieser Bereiche ist das Urheberrechtssystem, das für eine ganz andere Welt und Zeit entwickelt wurde. Unternehmen und andere Akteure, die KI-Systeme entwickeln oder anwenden, stehen vor Schwierigkeiten, wenn sie versuchen, das Urheberrecht einzuhalten. Diese gibt es vor allem in drei Bereichen:

Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?
Ist der Output eines generativen KI-Systems urheberrechtsfähig und wer ist der Urheber, wenn KI in Bereichen eingesetzt wird, die traditionell menschliche Kreativität erfordern?
Sind KI-Modelle urheberrechtsfähig?

In diesem ersten Teil des dreiteiligen Beitrags analysieren wir das Recht der Urheberrechtsinhaber, KI-Entwickler an der Verwendung urheberrechtlich geschützter Werke in Trainingsdaten zu hindern, insbesondere aus der Sicht des EU-Rechts.

Eine Skala mit einer Seite mit Urheberrechtssymbolen und einer Seite mit Symbolen, die KI-Algorithmen darstellen, mit einem Fragezeichen in der Mitte.<br />
Bildunterschrift: "Ausgleich zwischen Urheberrechtsschutz und KI-Entwicklung: Ein rechtliches Dilemma.

Exklusives Rechts zur Verhinderung von Training AI

Kreative Werke sind durch das Urheberrecht geschützt. Sie wird durch nationale Gesetze, EU-Richtlinien und internationale Verträge geregelt. Alles, was originell ist und zum Ausdruck kommt, ist durch das Urheberrecht geschützt. Das Werk muss nicht registriert oder urheberrechtlich geschützt sein (z. B. ©-Zeichen) und es muss auch nicht künstlerisch sein. Der ursprüngliche Gegenstand muss eine geistige Schöpfung des Urhebers sein, und nur die Elemente, die Ausdruck einer solchen Schöpfung sind, sind urheberrechtlich geschützt. Der Autor muss bei der Erstellung des Werks kreative Entscheidungen getroffen haben.1

Das Verfassen eines längeren Textes wie eines Romans beinhaltet in der Regel kreative Entscheidungen, denn der Autor wählt aus, welche Wörter er verwendet und in welcher Reihenfolge er sie einsetzt. Andererseits ist jedes einzelne Wort dieses Werks nicht urheberrechtsfähig. Daher enthalten größere Texte und sogar längere Auszüge oft genug Originalität, um urheberrechtlich geschützt zu sein, aber ein einzelnes Wort oder einige wenige Wörter, die aus dem Text genommen wurden, sind es nicht.

Was bedeutet das aus Sicht der KI? Beim maschinellen Lernen werden statistische Modelle anhand großer Datenmengen, z. B. Texte oder Bilder, trainiert. Das Modell enthält dann Informationen über die Wahrscheinlichkeiten von Kollokationen verschiedener Wörter oder Elemente eines Bildes. Um genauer zu sein, insbesondere in Bezug auf Large Language Models (LLM), wird der ursprüngliche Trainingstext durch Token (eindeutige numerische Darstellung jedes Worts) ersetzt, woraufhin das Modell trainiert wird, das wahrscheinlichste nächste Token vorherzusagen. Bei der Verwendung des Modells wird ein Prompt-Text als Anfangskontext vorgegeben, der dann in ähnlicher Weise zur Vorhersage der folgenden Token-Folge verwendet wird. Schließlich werden diese Token in Wörter und Sätze umgewandelt. Mit Hilfe eines solchen Modells kann ein generatives KI-System beispielsweise Texte oder Bilder produzieren, die denen von menschlichen Autoren ähneln.

Aus urheberrechtlicher Sicht stellt sich zunächst die Frage, ob in dem Prozess etwas urheberrechtlich Relevantes geschieht. Das bloße Lesen von Texten oder Betrachten von Bildern stellt keine Verletzung des Urheberrechts dar. Auch das Kopieren einzelner Wörter oder ihrer Token stellt keine Verletzung des Urheberrechts dar, da, wie oben erwähnt, einzelne Wörter nicht urheberrechtsfähig sind. Das Kopieren größerer Textabschnitte oder eines ganzen Bildes kann gegen das Urheberrecht verstoßen. So kann das Trainieren eines Modells je nach Trainingsalgorithmus gegen das Urheberrecht verstoßen oder auch nicht: entweder werden die kreativen Entscheidungen des Autors kopiert oder der Abstand zwischen einzelnen Wörtern analysiert. Ein typischer, leicht vereinfachter maschineller Lernprozess besteht darin, den Text zu lesen, potenziell unwichtige Zeichen zu entfernen und das Ergebnis in eine Token-Reihe umzuwandeln. Danach werden die Ergebnisse in der Regel als Token-Vektoren für den Lernprozess gespeichert, der dann mehrfach wiederholt wird. Alternativ kann das Material zunächst unverändert gespeichert und dann während des Lernens umgewandelt werden, was jedoch sehr viel ineffizienter ist als der vorherige Ansatz. Es ist wahrscheinlich, dass die Token-Vektoren auch die Ergebnisse der kreativen Entscheidungen enthalten, die der ursprüngliche Autor getroffen hat. Daher ist es je nach Algorithmus plausibel, dass ein maschinelles Lernverfahren Kopien von Originalwerken anfertigt und daher aus urheberrechtlicher Sicht relevant ist.

Zum Zeitpunkt der Erstellung dieses Artikels hat die New York Times gerade OpenAI und Microsoft wegen Urheberrechtsverletzung verklagt. In einem Beispiel dafür, wie KI-Systeme das Material der Times nutzen, behauptete das Medienhaus, dass ChatGPT fast wortwörtlich Ergebnisse von Wirecutter, der Produktbewertungsseite der Times, wiedergab.2 OpenAI hingegen bestreitet dies. Das Unternehmen sagt, es habe Maßnahmen ergriffen, um versehentliches Auswendiglernen einzuschränken und das Wiederkäuen von Modellausgaben zu verhindern.3 Wir wissen noch nicht, wie der Streit ausgehen wird, aber wenn die Times recht hat, wird ChatGPT von OpenAI wahrscheinlich das Urheberrecht verletzen. Es wäre schwer zu verstehen, wie die Softwareausgabe „fast wortgetreue“ Kopien der Trainingsdaten enthält, wenn diese nicht zuerst in das Modell kopiert werden. Andererseits ist es, wenn OpenAI Recht hat, sehr viel schwieriger zu erkennen, ob in diesem Prozess etwas urheberrechtlich Relevantes geschieht.

Ein binärer Codeschnipsel, der ein urheberrechtlich geschütztes Werk (wie ein Buch oder ein Bild) darstellt.<br />
Bildunterschrift: "Decodierung des Urheberrechts: Kann KI geschützte Werke in Innovationen umwandeln?

Ausnahmen, die ermöglichen Ausbildung

Die zweite Frage lautet: Wenn das Trainieren eines Modells urheberrechtlich relevant ist, gibt es dann eine Ausnahme oder eine Einschränkung im Urheberrecht, die das Trainieren trotzdem erlaubt?

Die starken Ausschließlichkeitsrechte, z. B. das Recht, das Werk zu vervielfältigen, zu verändern, zu verkaufen und auszustellen, die das Urheberrechtsgesetz den Urhebern gewährt, wurden durch Ausnahmen und Beschränkungen auszugleichen versucht. Sie variieren von Land zu Land. Oft werden sie in einem Urheberrechtsgesetz aufgezählt, aber z. B. in den USA sind sie in der Fair-Use-Doktrin enthalten, einer offenen Beschränkung des Urheberrechts. Zu den Ausnahmen gehören in der Regel Vervielfältigungshandlungen von Bibliotheken, Bildungseinrichtungen, Museen oder Archiven sowie flüchtige Aufzeichnungen von Rundfunkanstalten, die Veranschaulichung zu Lehr- oder Forschungszwecken, zum Nutzen von Behinderten, zur Unterrichtung der Öffentlichkeit über aktuelle Ereignisse und zum Zwecke des Zitierens oder Karikierens. Insbesondere ist es in vielen Ländern legal, Kopien von urheberrechtlich geschützten Werken für den privaten Gebrauch anzufertigen. Kürzlich wurde in Artikel 4 der DSM-Richtlinie4Die EU hat die Mitgliedstaaten verpflichtet, eine Ausnahme oder Beschränkung des Urheberrechts für Vervielfältigungen und Auszüge aus rechtmäßig zugänglichen Werken zum Zwecke des Text- und Data-Mining vorzusehen, es sei denn, die Nutzung der Werke wurde von den Rechteinhabern ausdrücklich in geeigneter Weise vorbehalten. Text- und Data-Mining in Forschungseinrichtungen und Institutionen des kulturellen Erbes kann nicht durch einen solchen Vorbehalt eingeschränkt werden (Art. 3).

Es sei darauf hingewiesen, dass das ausschließliche Recht des Urheberrechtsinhabers die Hauptregel ist und Ausnahmen und Beschränkungen eng ausgelegt werden sollten. Daher sollte die Ausnahme oder Einschränkung für Text- und Data-Mining nicht weiter ausgelegt werden, als es in der Richtlinie ausdrücklich vorgesehen ist. Eine interessante Frage ist, ob Text- und Data-Mining in diesem Zusammenhang auch Trainingsverfahren für maschinelles Lernen umfassen. In Artikel 2 wird definiert, dass unter „Text- und Data-Mining“ jede automatisierte Analysetechnik zu verstehen ist, die darauf abzielt, Texte und Daten in digitaler Form zu analysieren, um Informationen zu gewinnen, die unter anderem Muster, Trends und Korrelationen enthalten. Es scheint, dass die meisten Experten darin übereinstimmen, dass diese Definition auch maschinelles Lernen umfasst. Zum Zeitpunkt des Verfassens dieses Artikels liegt uns der endgültige Wortlaut des KI-Gesetzes noch nicht vor, aber auf der Grundlage der aktuellen Entwürfe scheint es, dass das KI-Gesetz eine Klarstellung enthalten wird, dass die Ausnahmeregelung für Data Mining in der DSM-Richtlinie für das Training von KI gilt. Obwohl wir nicht sicher sein können, bis der Europäische Gerichtshof (EuGH) zu dieser Frage Stellung nimmt, gehen wir daher davon aus, dass die Verwendung urheberrechtlich geschützter Werke zum Training künstlicher Intelligenz gemäß Artikel 3 und 4 der DSM-Richtlinie zulässig ist. 3 und 4.

Unter diesem Gesichtspunkt wäre das Training eines Modells mit Daten, die urheberrechtlich geschützte Werke enthalten, rechtmäßig, es sei denn, die Verwendung der Werke wurde von den Rechteinhabern ausdrücklich vorbehalten. Das macht es jedoch nicht legal, ein generatives KI-System zu entwickeln, das Kopien von urheberrechtlich geschützten Werken erzeugt. Das Anfertigen unerlaubter Kopien wäre nicht legal, wenn man nur behauptet, dass der Kopierer KI-Software enthält!

Schlussfolgerungen

Zusammenfassend lässt sich sagen, dass maschinelle Lernverfahren je nach Algorithmus aus urheberrechtlicher Sicht relevant sein können. Wenn beim Training die kreativen Entscheidungen des ursprünglichen Autors eines urheberrechtlich geschützten Werks in den Trainingsdaten kopiert werden, könnte dies die Exklusivrechte des Autors verletzen. Wenn der maschinelle Lernprozess jedoch als Data Mining betrachtet werden kann, kann er unter die in der DSM-Richtlinie definierten Beschränkungen oder Ausnahmen fallen und somit in der EU rechtmäßig sein. Wenn jedoch die Ausgabe eines generativen KI-Systems Kopien der Werke in den Trainingsdaten enthält, kann dies nicht durch diese Einschränkung oder Ausnahme gerechtfertigt werden.

In den folgenden Teilen werden wir zunächst die Urheberschaft von KI-generierten Inhalten erörtern und dann diesen dreiteiligen Beitrag mit Ideen zum Urheberrecht in KI-Modellen abschließen.

Die Experten von 1001 Lakes besprechen diese Themen gerne mit Ihnen, wenn Sie Bedenken bezüglich KI und Urheberrecht haben oder wissen möchten, wie Sie KI unter Einhaltung des Urheberrechts entwickeln und nutzen können.

Herausforderungen für das Urheberrecht im Zeitalter der KI

von Waltter Roslin, Sami Jokela, Olli Pitkänen | Februar 12, 2024 | AI, Compliance, Copyright, EU-Recht, Künstliche Intelligenz, Verletzung | 0 Kommentieren

Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?

Lesen Sie mehr

Was hat es mit dem KI-Gesetz auf sich?

von Joel Himanen, Emeline Banzuzi | Dezember 15, 2023 | AI, AI-Gesetz, AIA, EU, EU-Recht, Künstliche Intelligenz, LLM, Vertrauenswürdige KI | 0 Kommentieren

In den frühen Morgenstunden des 9. Dezembers haben das Parlament und der Rat der Europäischen Union schließlich eine vorläufige Einigung über den Inhalt des Gesetzes über künstliche Intelligenz (AIA) erzielt. In diesem Blogbeitrag fassen wir die wichtigsten Inhalte des AIA zusammen und erörtern seine möglichen Auswirkungen und offenen Fragen am Beispiel der Entwicklung und des Einsatzes von Large Language Models (LLM).

Lesen Sie mehr

Vertrauenswürdige Daten für Verantwortung und Nachhaltigkeit

von Marko Turpeinen | November 22, 2023 | Vertrauenswürdige KI | 0 Kommentieren

Daten und KI spielen eine entscheidende Rolle, wenn es darum geht, zu beweisen, dass Unternehmen verantwortungsvoll handeln und ihre Umwelt-, Sozial- und Governance-Ziele (ESG) erfüllen.

Lesen Sie mehr

Was hat es mit dem KI-Gesetz auf sich?

von Joel Himanen, Emeline Banzuzi | 15.12.2023 | AI, AI-Gesetz, AIA, EU, EU-Recht, Künstliche Intelligenz, LLM, Vertrauenswürdige KI

Treffen Sie die Autoren

Emeline Banzuzi

Beraterin für Datenschutz und Data Governance

Emeline Banzuzi ist Rechtsberaterin und Forscherin im dynamischen Bereich von Recht, Technologie und Gesellschaft und verfügt über Fachwissen in den Bereichen Datenschutzberatung, Risikomanagement, Compliance im FinTech-Bereich und akademische Forschung.

Joel Himanen

Datenwissenschaftler

Joel Himanen ist ein vielseitiger Datenwissenschaftler mit Schwerpunkt auf fortschrittlicher Analytik, maschinellem Lernen und künstlicher Intelligenz. Er verfügt über frühere Erfahrungen mit datengesteuerten Nachhaltigkeitsprojekten sowohl im privaten als auch im öffentlichen Sektor.

In den frühen Morgenstunden
von
9. Dezember

th
, die Europäische Union Parlament und Rat haben sich schließlich auf eine vorläufige Einigung über den Inhalt des Gesetz über künstliche Intelligenz (AIA). In diesem Blogbeitrag fassen wir die wichtigsten Inhalte von die AIA und erörtern ihre mögliche Implikationen und offene Fragen am Beispiel der Entwicklung und des Einsatzes von Large Language Models (LLM).

Die Kurzfassung

Die EUGesetz über künstliche Intelligenz zielt darauf ab, die Entwicklung und den Einsatz von KI-Systemen in der EUund gleichzeitig sicherzustellen, dass diese Systeme sicher sind und die Gesundheit, Sicherheit und Grundrechte und Freiheiten der EU-Bürger. Das vorläufige Abkommen sieht vor, dass das Gesetz zwei Jahre nach seinemInkrafttretenInkrafttreten (d.h. nach seiner Veröffentlichung im Amtsblatt der EU)für die Verbote auf sechs Monate verkürzt sie enthält. Das Gesetz betrifft vor allem Auswirkungen auf Anbieter von KI-Systemen, die je nach Risikokategorie ihres Anwendungsfalls reguliert werden. Anwendungsfalles reguliert werden. Auf der Seite der generativen KI stehen die Entwickler von Grundmodellen konfrontiert erhebliche Anforderungen an die Transparenz, Sicherheitsvorkehrungen, und Tests.

Firefly yhteistyö ja läpinäkyvyys datassa sopimukset eu tasolla 17711

Ein bisschen tiefer graben

Der erste Entwurf des Gesetzes wurde im April 2021 veröffentlicht, und seine endgültige Fassung durchläuft derzeit das EU-Gesetzgebungsverfahren. Nach der jüngsten Einigung muss das Gesetz vor der förmlichen Verabschiedung noch sowohl vom Parlament als auch vom Rat bestätigt und rechtlich-sprachlich überarbeitet werden.

Das Gesetz definiert ein „KI-System“ als ein maschinengestütztes System, das mit unterschiedlichem Grad an Autonomie und für explizite oder implizite Ziele Ergebnisse wie Vorhersagen, Empfehlungen oder Entscheidungen erzeugt, die physische oder virtuelle Umgebungen beeinflussen können. Die Verordnung gilt für Anbieter, Aufsteller und Vertreiber von KI-Systemen sowie für „betroffene Personen“, d. h. Einzelpersonen oder Personengruppen, die einem KI-System unterliegen oder anderweitig von ihm betroffen sind.

Der AIA erstellt unterschiedliche Verpflichtungen für Entwickler und Anwender von KI-Systemen, je nachdem welcher Risikoklasse das betreffende System zuzuordnen ist in. Das Gesetz sieht vier Risikokategorien vor, nämlich:

Unannehmbares Risiko: KI-Systeme, die eine eindeutige Bedrohung für die Sicherheit, den Lebensunterhalt und die Rechte des Einzelnen darstellen (z. B. Systeme, die für Social Scoring eingesetzt werden, und Systeme, die gefährdete Gruppen wie Kinder ausbeuten). Die Verwendung dieser Systeme ist verboten.
Hohes Risiko: KI-Systeme, die der Gesundheit, der Sicherheit oder den Grundrechten von Personen erheblichen Schaden zufügen. Beispiele für risikoreiche KI-Systeme sind solche, die für die Verwaltung kritischer Infrastrukturen, Bildung, Beschäftigung, Strafverfolgung und Grenzkontrolle eingesetzt werden. Für Systeme mit hohem Risiko gelten strenge Auflagen, bevor sie auf den Markt gebracht werden können: Anbieter und Betreiber dieser Systeme müssen beispielsweise ein Risikomanagementverfahren für die Risikoermittlung und -minderung entwickeln, geeignete Verfahren für die Datenverwaltung und -steuerung bei der Schulung, Validierung und Prüfung von Datensätzen anwenden, die menschliche Kontrolle ermöglichen, technische Robustheit und Cybersicherheit gewährleisten sowie eine Dokumentation erstellen, die die Einhaltung des AIA nachweist. (Für eine vollständige Liste der Verpflichtungen siehe Art. 9-17 AIA).
Begrenztes Risiko: Beispiele für KI-Systeme mit begrenztem Risiko sind Systeme, die für die Interaktion mit Personen bestimmt sind, z. B. Chatbots und Deep Fakes. Die Compliance-Verpflichtungen für KI mit begrenztem Risiko konzentrieren sich auf die Transparenz: Die Nutzer dieser Systeme müssen eindeutig darüber informiert werden, dass sie mit einem KI-System interagieren.
Geringes Risiko: Beispiele für KI mit minimalem Risiko sind Spam-Filter, KI-gestützte Videospiele und Bestandsverwaltungssysteme. Der AIA erlaubt die freie Verwendung von AI mit minimalem Risiko.

Die Risikokategorien schwankten während der Entwurfsstadien des AIA.

Firefly yhteistyö, turvallisuus, läpinäkyvyys 64884

Auswirkungen für Modellentwickler und -einrichter

Die Entwickler von KI-Modellen und -Anwendungen sind natürlich sehr besorgt über das Gesetz, da es das Potenzial hat, die Entwicklungs- und Nutzungsprozesse massiv zu beeinflussen. In der Endphase des AIA-Vorschlags ist es wichtig, mögliche Szenarien zu bedenken und darüber nachzudenken, welche Auswirkungen das Gesetz auf verschiedene Gruppen im Bereich der künstlichen Intelligenz haben würde.

Betrachten wir das heißeste KI-Thema des Jahres 2023: Große Sprachmodelle (LLM). Eine Möglichkeit, die Lebensdauer des LLM zu betrachten, besteht darin, es in drei Phasen zu unterteilen (vorgelagert bis nachgelagert):
Entwicklung eines Stiftungsmodells (FM)
,
Feinabstimmung
und
Bereitstellung
. Welche Auswirkungen könnte das AI-Gesetz auf diese Phasen haben?

Entwickler von Stiftungsmodellen sind diejenigen, die die „schwere Arbeit“ machen. Sie entwickeln die Modellarchitektur, sammeln und verarbeiten die enormen Datenmengen, die für das Pre-Training des Modells erforderlich sind, und führen das eigentliche Pre-Training durch, bei dem das Modell den Großteil seiner Fähigkeiten erlernt. Es handelt sich dabei um Organisationen, die mit erheblichen Ressourcen ausgestattet sind, da das Sammeln der Daten und insbesondere das rechenintensive Vortraining kostspielige Aktivitäten sind. Da sich dies am stärksten auf das Modell selbst auswirkt, wird ein FM-Entwickler nach dem derzeitigen Vorschlag in Bezug auf die kumulative Menge der für die Modellschulung verwendeten Rechenleistung reguliert werden. Für ein als „high-impact“ eingestuftes FM (mehr als 10^25 Gleitkommaoperationen während der Ausbildung) würden beispielsweise auch strengere Transparenzanforderungen gelten, was die Offenlegung von urheberrechtlich geschütztem Ausbildungsmaterial betrifft. Dies ist eine enorme Anforderung; die für die Vorschulung erforderliche Datenmenge ist so groß, dass der Erfassungsprozess weitgehend automatisiert ist und somit nur eine minimale Kontrolle über den Stoff selbst besteht. Ein interessantes Detail ist, dass nach der jüngsten Vereinbarung Open-Source-Modelle einer geringeren Regulierung unterliegen werden.

Feinstimmgeräte haben einen geringeren, aber dennoch signifikanten Einfluss auf das Modell. Sie nehmen eine vortrainierte FM und trainieren sie auf einem kleineren, spezielleren Datensatz weiter. In gewisser Weise führen sie die gleichen Manipulationen am Modell durch wie der FM-Entwickler, nur in einem kleineren Maßstab. Es stellt sich die interessante Frage: Wie wird die AIA zwischen ihnen unterscheiden? Gelten für Feinabstimmer die gleichen Anforderungen an die Transparenz in Bezug auf die rechnerischen Auswirkungen wie für FM-Entwickler? In jedem Fall haben es die Feinabstimmer leichter, da sie den Inhalt ihrer Datensätze viel besser kontrollieren können.

Modell-Einsatzkräfte (wenn man sie getrennt von den Feinabstimmern betrachtet) haben keine Auswirkungen auf das LLM selbst. Vielmehr entscheiden sie über den endgültigen Anwendungsfall (auch wenn der Feinabstimmer das Modell möglicherweise bereits für diesen Fall trainiert hat) und kontrollieren, wie das Modell verwendet werden kann. Dies bedeutet, dass sie höchstwahrscheinlich dem Großteil der auf Risikokategorien basierenden Regulierung des AIA unterliegen werden. Die Entwickler bauen auch die Software um das FM herum auf, was sich darauf auswirkt, wie das Modell verwendet werden kann, wie seine Eingaben und Ausgaben verarbeitet werden und wie viel Kontrolle der Endnutzer darüber ausüben kann. Folglich könnten die eher „klassischen“ Fragen der Software- und Informationssicherheit zu einem kritischen Teil der AIA-Konformität werden.

Was nun?

Im Moment müssen wir die endgültigen Texte abwarten, um die Einzelheiten des Gesetzes zu verstehen. In der Zwischenzeit muss jedes Unternehmen, das sich mit KI-Systemen befasst, über die Auswirkungen dessen, was wir jetzt wissen, nachdenken. Die Einsatzkräfte müssen sich bereits jetzt ernsthafte Gedanken über die Risikokategorisierung und die folgenden Anforderungen machen. FM-Entwickler stellen sich auf die zusätzliche Arbeit ein, die mit der Kuratierung großer Mengen von Trainingsdaten verbunden ist, und wägen gleichzeitig die Vorteile von Open- und Closed-Source-Entwicklung neu ab.

Herausforderungen für das Urheberrecht im Zeitalter der KI

von Waltter Roslin, Sami Jokela, Olli Pitkänen | Februar 12, 2024 | AI, Compliance, Copyright, EU-Recht, Künstliche Intelligenz, Verletzung | 0 Kommentieren

Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?

Lesen Sie mehr

Was hat es mit dem KI-Gesetz auf sich?

von Joel Himanen, Emeline Banzuzi | Dezember 15, 2023 | AI, AI-Gesetz, AIA, EU, EU-Recht, Künstliche Intelligenz, LLM, Vertrauenswürdige KI | 0 Kommentieren

In den frühen Morgenstunden des 9. Dezembers haben das Parlament und der Rat der Europäischen Union schließlich eine vorläufige Einigung über den Inhalt des Gesetzes über künstliche Intelligenz (AIA) erzielt. In diesem Blogbeitrag fassen wir die wichtigsten Inhalte des AIA zusammen und erörtern seine möglichen Auswirkungen und offenen Fragen am Beispiel der Entwicklung und des Einsatzes von Large Language Models (LLM).

Lesen Sie mehr

Vertrauenswürdige Daten für Verantwortung und Nachhaltigkeit

von Marko Turpeinen | November 22, 2023 | Vertrauenswürdige KI | 0 Kommentieren

Daten und KI spielen eine entscheidende Rolle, wenn es darum geht, zu beweisen, dass Unternehmen verantwortungsvoll handeln und ihre Umwelt-, Sozial- und Governance-Ziele (ESG) erfüllen.

Lesen Sie mehr

Vertrauenswürdige Daten für Verantwortung und Nachhaltigkeit

von Marko Turpeinen | 22.11.2023 | Vertrauenswürdige KI

Meet The Author

Marko Turpeinen

CEO

Dr. Marko Turpeinen is a visionary leader with 25+ years of experience in digital transformation and innovation, having worked at prestigious institutions like MIT Media Lab and EIT Digital, and initiating the global MyData movement at Aalto Univesity.

Data and AI play a crucial role in proving that companies act responsibly and meet their environmental, social and governance (ESG) targets.

An image representing ethical practices, such as a person holding a data globe with care

Current reality is that ESG data practices are inefficient and inaccurate. ESG data comes from a myriad of sources and is of variable quality. Availability of data is spotty, especially when the scope of data collection and analysis extends beyond company’s own borders to its supply chain and partners. There is plenty of manual work involved and every company does the work by themselves. This results in vast amounts of duplicate work.

Collaborative Data Sharing in the Era of CSRD

European Union’s Corporate Sustainability Reporting Directive (CSRD) came into effect in January this year. It modernises and strengthens the rules concerning the ESG information that companies are required to report. Large stock listed companies are expected to begin reporting in 2025 based on their 2024 data, and other companies will follow suit when CSRD is gradually rolled out. Companies subject to the CSRD will have to report according to European Sustainability Reporting Standards (ESRS), provide the reporting in a standardised digital format, and include their business networks (e.g. supply chains) in their environmental impacts.

Very large number of companies will be affected by growing regulatory demands regarding ESG reporting. What if companies could collaborate more efficiently to meet these needs? Instead of every company collecting the data for themselves there would be clear benefits in forming data sharing practices to make sustainability data available for all parties in the ecosystem. This would help to minimize duplicate work for ecosystem participants, and provide better transparency of the whole value chain for all. In a data ecosystem, sustainability improvements can be driven – and even co-funded – by the whole value chain together.

An image portraying a handshake or a group of people collaborating

The Rulebook Approach for Mitigating Risks and Ensuring Fair Data Use in Ecosystems

Despite its clear benefits, data sharing also brings forth several thorny issues regarding business risks, data hygiene, disclosure of trade secrets, corporate security policies, and fair data use. How can a company show that its data and methods can be trusted? How can the ecosystem participants trust each other to not to misuse the data? Do the others get unfair advantage from my data?

Trust-building, fair data use and minimization of risks amongst the ecosystem participants can be tackled by a rulebook approach. Sitra’s fair data economy rulebook model is one leading example of this approach, taking a holistic view to governance of data ecosystems. It helps organizations to form new data sharing networks and implement policies and rules for them.

The rulebook approach also helps data providers and data users to assess any requirements imposed by applicable legislation and contracts appropriately in addition to guiding them in adopting practices that promote the use of data and management of risks. With the aid of the rulebook approach, parties can establish a data network based on mutual trust that shares a common mission, vision, and values. This fosters trust and responsible use of data.

The Imperative of Responsibility and Sustainability in the Industrial Landscape

Responsibility and sustainability have risen as key drivers for creating functioning data ecosystems. This is demonstrated in lighthouse data sharing initiatives, such as Catena-X for the automotive industry. The aim of Catena-X is to grow into a network of more than 200,000 data sharing organizations. Catena-X has picked harmonized and accurate ESG reporting as the most urgent business challenge to be resolved in the ecosystem.

We are headed towards a future where data sharing and collaboration is expected in a massive scale, and potentially influencing everyone who have a stake in the industrial ecosystem. As the importance and impact of these initiatives spread and grow, holistic ESG data governance approach is business critical for building trust in data ecosystems.

Herausforderungen für das Urheberrecht im Zeitalter der KI

von Waltter Roslin, Sami Jokela, Olli Pitkänen | Februar 12, 2024 | AI, Compliance, Copyright, EU-Recht, Künstliche Intelligenz, Verletzung | 0 Kommentieren

Kann das ausschließliche Recht eines Urheberrechtsinhabers, Kopien anzufertigen, KI-Entwickler daran hindern, urheberrechtlich geschützte Werke in Trainingsdaten zu verwenden?

Lesen Sie mehr

Was hat es mit dem KI-Gesetz auf sich?

von Joel Himanen, Emeline Banzuzi | Dezember 15, 2023 | AI, AI-Gesetz, AIA, EU, EU-Recht, Künstliche Intelligenz, LLM, Vertrauenswürdige KI | 0 Kommentieren

In den frühen Morgenstunden des 9. Dezembers haben das Parlament und der Rat der Europäischen Union schließlich eine vorläufige Einigung über den Inhalt des Gesetzes über künstliche Intelligenz (AIA) erzielt. In diesem Blogbeitrag fassen wir die wichtigsten Inhalte des AIA zusammen und erörtern seine möglichen Auswirkungen und offenen Fragen am Beispiel der Entwicklung und des Einsatzes von Large Language Models (LLM).

Lesen Sie mehr

Vertrauenswürdige Daten für Verantwortung und Nachhaltigkeit

von Marko Turpeinen | November 22, 2023 | Vertrauenswürdige KI | 0 Kommentieren

Daten und KI spielen eine entscheidende Rolle, wenn es darum geht, zu beweisen, dass Unternehmen verantwortungsvoll handeln und ihre Umwelt-, Sozial- und Governance-Ziele (ESG) erfüllen.

Lesen Sie mehr