OpenAI und Google trainieren KI mit YouTube-Transkripten
Verwendung von YouTube-Transkripten führt zur Kontroverse um OpenAI und Google
Die Nutzung von YouTube-Videos zum Training von KI-Modellen durch Unternehmen wie OpenAI und Google hat in jüngster Zeit eine Debatte über Datenschutz, Urheberrechte und ethische Standards entfacht. Berichte zeigen, dass sowohl OpenAI als auch Google von Youtube-Transkripten gebrauch gemacht haben, um ihre KI-Algorithmen zu verbessern. Diese Vorgehensweise wirft jedoch zahlreiche Fragen auf, insbesondere in Bezug auf die Rechtmäßigkeit und die potenziellen Auswirkungen auf die Creator dieser Videos sowie auf die User der Plattform.
Ein zentraler Aspekt dieser Debatte ist der mögliche Verstoß gegen Urheberrechte. YouTube-Videos sind urheberrechtlich geschütztes Material, das von den Erstellenden hochgeladen wird. Die Transkripte dieser Videos könnten sensible Informationen enthalten. Die Verwendung ohne entsprechende Genehmigung könnte daher als Verletzung der Rechte der Urhebenden angesehen werden. Google behauptet, nur Videos von autorisierten Creatorn verwendet zu haben. Diese Behauptung steht im Kontrast zu Berichten über OpenAI, denen zufolge das Unternehmen Transkripte von YouTube-Videos genutzt hat, ohne sicherzustellen, dass die Erstellenden diesem Vorgehen zugestimmt haben. In jedem Fall untersagen die Nutzungsbedingungen von Youtube die Verarbeitung von Videos auf der Plattform durch davon unabhängige Quellen. Google könnte dort allerdings auf der sichereren Seite stehen, indem sie dies in einem Update der Nutzungsbedingungen bereits eingeschränkt und Einverständniserklärungen von großen Influencern eingeholt haben. So ist es dem Unternehmen nun möglich, Daten aus Google Docs, Restaurant-Rezensionen, Google Maps und anderen Google-Diensten für KI-Trainings zu nutzen. Expertinnen und Experten sehen hierin aber weiterhin eine zum Teil vorhandene Überschreitung der Urheberrechte.
Die Grenzen des KI-Trainings
OpenAI hat mithilfe des Spracherkennungstools Whisper bereits auf viele neue Quellen für das Training von seinen Sprachmodellen zugegriffen. Alleine auf YouTube wurden so bereits über eine Million Stunden an Inhalten für das Training für das aktuellste Modell GPT-4 verwendet.
KI-Unternehmen wie OpenAI und Google stehen vor der Herausforderung, ständig neue Daten für ihre Sprachmodelle zu finden. Dies wird durch ein Forschungsinstitut namens Epoch unterstützt, das darauf hinweist, dass Unternehmen bis 2026 möglicherweise an Grenzen stoßen könnten, wenn es keine neuen Daten mehr gibt. Laut der New York Times werden Daten schneller verwendet, als sie produziert werden, was bedeuten könnte, dass ein Mangel an neuen Datenquellen zu einer Engpasssituation führen würde. Diese Bedenken wurden bereits im Mai 2023 von OpenAI-CEO Sam Altman während einer Rede geäußert. Auch Meta von Mark Zuckerberg ist mit ähnlichen Problemen konfrontiert. Laut Berichten erwägt das KI-Team von Meta den Kauf eines großen Verlags, um an frische Trainingsdaten zu gelangen.