OpenAI und Google trainieren KI mit YouTube-Transkripten

09/04/2024
header image

Verwendung von YouTube-Transkripten führt zur Kontroverse um OpenAI und Google


Die Nutzung von YouTube-Videos zum Training von KI-Modellen durch Unternehmen wie OpenAI und Google hat in jüngster Zeit eine Debatte über Datenschutz, Urheberrechte und ethische Standards entfacht. Berichte zeigen, dass sowohl OpenAI als auch Google von Youtube-Transkripten gebrauch gemacht haben, um ihre KI-Algorithmen zu verbessern. Diese Vorgehensweise wirft jedoch zahlreiche Fragen auf, insbesondere in Bezug auf die Rechtmäßigkeit und die potenziellen Auswirkungen auf die Creator dieser Videos sowie auf die User der Plattform.

Ein zentraler Aspekt dieser Debatte ist der mögliche Verstoß gegen Urheberrechte. YouTube-Videos sind urheberrechtlich geschütztes Material, das von den Erstellenden hochgeladen wird. Die Transkripte dieser Videos könnten sensible Informationen enthalten. Die Verwendung ohne entsprechende Genehmigung könnte daher als Verletzung der Rechte der Urhebenden angesehen werden. Google behauptet, nur Videos von autorisierten Creatorn verwendet zu haben. Diese Behauptung steht im Kontrast zu Berichten über OpenAI, denen zufolge das Unternehmen Transkripte von YouTube-Videos genutzt hat, ohne sicherzustellen, dass die Erstellenden diesem Vorgehen zugestimmt haben. In jedem Fall untersagen die Nutzungsbedingungen von Youtube die Verarbeitung von Videos auf der Plattform durch davon unabhängige Quellen. Google könnte dort allerdings auf der sichereren Seite stehen, indem sie dies in einem Update der Nutzungsbedingungen bereits eingeschränkt und Einverständniserklärungen von großen Influencern eingeholt haben. So ist es dem Unternehmen nun möglich, Daten aus Google Docs, Restaurant-Rezensionen, Google Maps und anderen Google-Diensten für KI-Trainings zu nutzen. Expertinnen und Experten sehen hierin aber weiterhin eine zum Teil vorhandene Überschreitung der Urheberrechte.

Sam Altman / OpenAI
Sam Altman / OpenAI

Die Grenzen des KI-Trainings

OpenAI hat mithilfe des Spracherkennungstools Whisper bereits auf viele neue Quellen für das Training von seinen Sprachmodellen zugegriffen. Alleine auf YouTube wurden so bereits über eine Million Stunden an Inhalten für das Training für das aktuellste Modell GPT-4 verwendet.

KI-Unternehmen wie OpenAI und Google stehen vor der Herausforderung, ständig neue Daten für ihre Sprachmodelle zu finden. Dies wird durch ein Forschungsinstitut namens Epoch unterstützt, das darauf hinweist, dass Unternehmen bis 2026 möglicherweise an Grenzen stoßen könnten, wenn es keine neuen Daten mehr gibt. Laut der New York Times werden Daten schneller verwendet, als sie produziert werden, was bedeuten könnte, dass ein Mangel an neuen Datenquellen zu einer Engpasssituation führen würde. Diese Bedenken wurden bereits im Mai 2023 von OpenAI-CEO Sam Altman während einer Rede geäußert. Auch Meta von Mark Zuckerberg ist mit ähnlichen Problemen konfrontiert. Laut Berichten erwägt das KI-Team von Meta den Kauf eines großen Verlags, um an frische Trainingsdaten zu gelangen.

Erwähnte Profile
Startup Google Logo
Startup Google Logo
Google
Google ist ein multinationales Unternehmen, das sich auf internetbezogene Dienstleistungen und Produkte spezialisiert hat.
Flagge us
Mountain View
Mountain View
Flagge us
Mountain View
Mountain View
Folgen
Folgen
Startup Meta Logo
Startup Meta Logo
Meta
Meta ist ein soziales Technologieunternehmen, das es Menschen ermöglicht, Kontakte zu knüpfen, Gemeinschaften zu finden und Unternehmen aufzubauen.
Flagge us
Flagge us
Folgen
Folgen
Startup OpenAI Logo
Startup OpenAI Logo
OpenAI
OpenAI ist ein Unternehmen für KI-Forschung und -Einsatz, das sicherstellen will, dass künstliche Intelligenz der gesamten Menschheit zugute kommt.
Flagge us
San Francisco
San Francisco
Flagge us
San Francisco
San Francisco
Folgen
Folgen
Ähnliche Artikel
SI Logo