Spawning möchte ethischere KI-Trainingsdatensätze erstellen

Jordan Meyer und Mathew Dryhurst gründeten Spawning AI, um Tools zu schaffen, die Künstlern helfen, mehr Kontrolle darüber auszuüben, wie ihre Werke online verwendet werden. Ihr neuestes Projekt, namens Source.Plus, soll „nicht-verletzende“ Medien für das Training von KI-Modellen kuratieren.

Die erste Initiative des Source.Plus-Projekts ist ein Datensatz, der mit fast 40 Millionen gemeinfreien Bildern und Bildern unter der Creative Commons CC0-Lizenz gesät ist, die es den Urhebern ermöglicht, fast alle rechtlichen Interessen an ihren Werken zu erlassen. Meyer behauptet, dass der Datensatz von Source.Plus trotz seiner im Vergleich zu einigen anderen generativen KI-Trainingsdatensätzen kleineren Größe bereits „qualitativ hochwertig“ genug ist, um ein State-of-the-Art-Bildgenerierungsmodell zu trainieren.

„Mit Source.Plus bauen wir eine universelle ‚Opt-in‘-Plattform“, sagte Meyer. „Unser Ziel ist es, es Rechteinhabern leicht zu machen, ihre Medien zur Verwendung im generativen KI-Training anzubieten - auf ihren eigenen Bedingungen - und für Entwickler reibungslos, dieses Material in ihre Trainings-Workflows zu integrieren.“

Rechteverwaltung

Die Debatte über die Ethik des Trainings generativer KI-Modelle, insbesondere von Kunst-generierenden Modellen wie Stable Diffusion und OpenAIs DALL-E 3, hält unvermindert an und hat massive Auswirkungen auf Künstler, wie auch immer der Staub sich legen mag.

Generative KI-Modelle „lernen“, ihre Ausgaben (z. B. fotorealistische Kunst) zu produzieren, indem sie auf eine große Menge relevanter Daten - in diesem Fall Bilder - trainiert werden. Einige Entwickler dieser Modelle argumentieren, dass fairer Gebrauch ihnen das Schaben von Daten aus öffentlichen Quellen erlaubt, unabhängig vom Urheberrechtsstatus dieser Daten. Andere haben versucht, sich an die Grenze zu halten, indem sie Inhaltsinhaber für ihre Beiträge zu den Trainingsdatensätzen entschädigen oder zumindest ihnen Anerkennung geben.

Meyer, CEO von Spawning, glaubt, dass noch niemand einen besten Ansatz gefunden hat.

„KI-Trainingsdaten werden häufig standardmäßig so verwendet, dass die am leichtesten verfügbaren Daten genutzt werden - die nicht immer fair oder verantwortungsvoll beschafft wurden“, sagte er TechCrunch in einem Interview. „Künstler und Rechteinhaber hatten wenig Kontrolle darüber, wie ihre Daten für KI-Training verwendet werden, und Entwickler hatten keine hochwertigen Alternativen, die es leicht machen, Datenrechte zu respektieren.“

Source.Plus, derzeit in begrenzter Beta verfügbar, baut auf den bestehenden Werkzeugen von Spawning für die Herkunfts- und Nutzungsrechteverwaltung von Kunst auf.

Im Jahr 2022 schuf Spawning HaveIBeenTrained, eine Website, die es Schöpfern ermöglicht, sich aus den Trainingsdatensätzen auszuschließen, die von Anbietern verwendet werden, die mit Spawning zusammenarbeiten, darunter Hugging Face und Stability AI. Nachdem das Unternehmen 3 Millionen US-Dollar Risikokapital von Investoren wie True Ventures und Seed Club Ventures eingesammelt hatte, brachte Spawning ai.text heraus, eine Möglichkeit für Websites, „Berechtigungen“ für KI festzulegen, und ein System - Kudurru - zur Abwehr von Datensammel-Bots.

Source.Plus ist die erste Anstrengung von Spawning, eine Medienbibliothek aufzubauen - und diese Bibliothek selbst zu kuratieren. Der anfängliche Bilddatensatz, PD/CC0, kann für kommerzielle oder Forschungsanwendungen verwendet werden, sagt Meyer.

Die Source.Plus-Bibliothek.
Bildnachweis: Spawning

„Source.Plus ist nicht nur ein Repository für Trainingsdaten; es ist eine Bereicherungsplattform mit Tools zur Unterstützung des Trainingsprozesses“, fuhr er fort. „Unser Ziel ist es, einen hochwertigen, nicht-verletzenden CC0-Datensatz zu haben, der in der Lage ist, ein leistungsstarkes Basismodell für KI innerhalb des Jahres zu unterstützen.“

Unternehmen wie Getty Images, Adobe, Shutterstock und das KI-Startup Bria behaupten, nur fair beschaffte Daten für das Modelltraining zu verwenden. (Getty nennt seine generativen KI-Produkte sogar „kommerziell sicher“.) Aber Meyer sagt, dass Spawning einen „höheren Maßstab“ dafür setzen möchte, was es bedeutet, Daten fair zu beschaffen.

Source.Plus filtert Bilder nach „Opt-Outs“ und anderen Präferenzen von Künstlern für das Training, zeigt Herkunftsinformationen darüber, wie und wo die Bilder beschafft wurden, und schließt Bilder aus, die nicht unter CC0 lizenziert sind, einschließlich solcher mit einer Creative Commons BY 1.0-Lizenz, die eine Zuschreibung erfordert. Und Spawning sagt, dass es auf Copyright-Herausforderungen von Quellen achte, bei denen jemand anderes als die Schöpfer für die Angabe des Urheberrechtsstatus eines Werkes verantwortlich ist, wie beispielsweise Wikimedia Commons.

„Wir haben die gemeldeten Lizenzen der gesammelten Bilder sorgfältig validiert, und fragwürdige Lizenzen wurden ausgeschlossen - ein Schritt, den viele ‚faire‘ Datensätze nicht machen“, sagte Meyer.

Historisch gesehen haben problematische Bilder - einschließlich gewalthaltiger und pornografischer, persönlicher Bilder - Trainingsdatensätze sowohl in der Open- als auch in der kommerziellen Datenverarbeitung geplagt.

Die Verwalter des LAION-Datensatzes wurden gezwungen, eine Bibliothek offline zu nehmen, nachdem Berichte medizinische Aufzeichnungen und Darstellungen sexueller Kindesmissbrauch aufgedeckt hatten; erst in dieser Woche fand eine Studie von Human Rights Watch heraus, dass eines der Repositories von LAION die Gesichter brasilianischer Kinder ohne deren Einwilligung oder Wissen enthielt. Anderswo wurde festgestellt, dass die Adobe-Stock-Medienbibliothek von Adobe, die das Unternehmen zur Schulung seiner generativen KI-Modelle verwendet, einschließlich des kunstgenerierenden Firefly-Bildmodells, KI-generierte Bilder von Konkurrenten wie Midjourney enthielt.

Kunstwerke in der Source.Plus-Galerie.
Bildnachweis: Spawning

Spawning-Lösung ist Klassifizierungsmodelle, die darauf trainiert sind, Nacktheit, Gewalt, persönlich identifizierbare Informationen und andere unerwünschte Teile in Bildern zu erkennen. Da kein Klassifizierer perfekt ist, plant Spawning, es Benutzern zu ermöglichen, den Source.Plus-Datensatz „flexibel“ zu filtern, indem sie die Erkennungsschwellen der Klassifizierer anpassen, sagt Meyer.

„Wir beschäftigen Moderatoren, um den Datenbesitz zu überprüfen“, fügte Meyer hinzu. „Wir haben auch Einrichtungen zur Behebung eingebaut, bei denen Benutzer beanstandete oder möglicherweise verletzende Werke melden können, und der Weg, wie diese Daten konsumiert wurden, kann überprüft werden.“

Kompensation

Die meisten Programme zur Entschädigung von Schöpfern für ihre Beiträge zu generativen KI-Trainingsdaten sind nicht besonders gut verlaufen. Einige Programme verlassen sich auf undurchsichtige Metriken, um die Entschädigung von Schöpfern zu berechnen, während andere Beträge auszahlen, die Künstler als unangemessen niedrig betrachten.

Nehmen wir zum Beispiel Shutterstock. Die Medienbibliothek, die Deals mit KI-Anbietern in Höhe von zehn Millionen Dollar abgeschlossen hat, zahlt in einen „Contributors Fund“ für Kunstwerke, die sie zur Schulung ihrer generativen KI-Modelle verwendet oder an Entwickler von Drittanbietern lizenziert. Aber Shutterstock ist nicht transparent darüber, mit welchen Einnahmen Künstler rechnen können, noch erlaubt es Künstlern, ihre Preise und Bedingungen selbst festzulegen; eine Schätzung von Dritten beziffert die Einnahmen auf 15 US-Dollar für 2.000 Bilder, nicht gerade eine bahnbrechende Summe.

Wenn Source.Plus später in diesem Jahr die Beta verlässt und auf Datensätze über PD/CC0 hinaus erweitert wird, wird es einen anderen Ansatz als andere Plattformen einschlagen, der es Künstlern und Rechteinhabern ermöglicht, ihre eigenen Preise pro Download festzulegen. Spawning wird eine Gebühr erheben, aber nur einen Pauschalbetrag - einen „zehnten eines Pennys“, sagt Meyer.

Kunden können auch entscheiden, Spawning 10 US-Dollar pro Monat zu zahlen - plus die übliche pro Bild-Download-Gebühr - für das Source.Plus Curation-Abonnement, das es ihnen ermöglicht, Sammlungen von Bildern privat zu verwalten, den Datensatz bis zu 10.000 Mal im Monat herunterzuladen und Zugang zu neuen Funktionen zu erhalten, wie „Premium“-Sammlungen und Datenanreicherung, frühzeitig.

Bildnachweis: Spawning

„Wir werden anhand aktueller Branchenstandards und interner Metriken Empfehlungen und Richtlinien geben, aber letztendlich bestimmen die Beitragenden zum Datensatz, was für sie lohnenswert ist“, sagte Meyer. „Wir haben dieses Preismodell absichtlich gewählt, um Künstlern den Löwenanteil des Umsatzes zu geben und es ihnen zu ermöglichen, ihre eigenen Bedingungen für die Teilnahme festzulegen. Wir glauben, dass diese Umsatzaufteilung für Künstler deutlich vorteilhafter ist als die häufigere prozentuale Umsatzaufteilung und zu höheren Ausschüttungen und größerer Transparenz führen wird.“

Sollte Source.Plus die Akzeptanz erlangen, die sich Spawning erhofft, beabsichtigt Spawning, es über Bilder hinaus auf andere Arten von Medien wie Audio und Video auszudehnen. Spawning führt Gespräche mit unbenannten Unternehmen, um ihre Daten auf Source.Plus verfügbar zu machen. Und, so Meyer, könnte Spawning eigene generative KI-Modelle mit Daten aus den Source.Plus-Datensätzen erstellen.

„Wir hoffen, dass Rechteinhaber, die am generativen KI-Wirtschaft teilnehmen möchten, die Möglichkeit dazu haben und angemessen entschädigt werden“, sagte Meyer. „Wir hoffen auch, dass Künstler und Entwickler, die sich bei der Interaktion mit KI unsicher gefühlt haben, die Möglichkeit haben, dies auf eine respektvolle Weise zu tun.“

Sicherlich hat Spawning hier eine Nische zu füllen. Source.Plus scheint einer der vielversprechenderen Versuche zu sein, Künstler in den Entwicklungsprozess generativer KI einzubeziehen - und ihnen Anteile an den Gewinnen aus ihrer Arbeit zu ermöglichen.

Wie meine Kollegin Amanda Silberling kürzlich schrieb, zeigt die Entwicklung von Apps wie der Kunst-Hosting-Community Cara, die nach der Ankündigung von Meta, ihre generativen KI auf Inhalt von Instagram zu trainieren, einschließlich Künstlerinhalt, einen Anstieg der Nutzung verzeichnete, dass die kreative Gemeinschaft einen Wendepunkt erreicht hat. Sie sehnen sich nach Alternativen zu Unternehmen und Plattformen, die sie als Diebe wahrnehmen - und Source.Plus könnte eine lebensfähige sein.

Aber wenn Spawning immer im besten Interesse der Künstler handelt (ein großes Wenn, da Spawning ein von Risikokapitalgebern unterstütztes Unternehmen ist), frage ich mich, ob Source.Plus so erfolgreich hochskalieren kann, wie Meyer es sich vorstellt. Wenn uns die sozialen Medien etwas gelehrt haben, dann dass die Moderation - insbesondere von Millionen von Stücken nutzergenerierten Inhalts - ein unlösbares Problem ist.

Wir werden es bald herausfinden.