Das KI-Startup ElevenLabs hat seine Text-to-Speech-App Reader nun weltweit auf den Markt gebracht. Die App unterstützt 32 Sprachen und ermöglicht es Nutzern, sich Texte wie Artikel, PDFs und E-Books in verschiedenen Sprachen und Stimmen vorlesen zu lassen. Die App wurde im Juni zunächst in den USA, Großbritannien und Kanada eingeführt. Das Unternehmen bietet auch eine API für verschiedene Geschäftsanwendungen und integriert seine Technologie in Plattformen wie Perplexity und PocketFM.
Opera hat seinen auf KI ausgerichteten Browser „Opera One“ nun auch für iOS veröffentlicht. Der Browser integriert die Aria-KI-Assistentin, die nun auch Sprachbefehle unterstützt und Bilder mit Googles Imagen2-Modell generieren kann. Die Benutzeroberfläche ist für mobile Geräte optimiert, und Funktionen wie eine anpassbare Suchleiste und ein integrierter Werbeblocker sowie ein kostenloses VPN bieten zusätzlichen Komfort und Sicherheit.
Die US-Firma Figure hat den humanoiden Roboter Figure 02 angekündigt, der durch eine Partnerschaft mit OpenAI sprechen kann. Der Roboter ist mit Lautsprechern und Mikrofonen ausgestattet, um mit Menschen zu kommunizieren, was auch die Sicherheit erhöht. Die Hände des Roboters wurden neu gestaltet, um menschlicher zu wirken und einen sicheren Griff zu gewährleisten. Figure 02 soll in Fabriken und Lagern eingesetzt werden und ist auch für den Haushaltsgebrauch geeignet.
Das KI-Startup Suno hat offen zugegeben, urheberrechtlich geschützte Songs der drei großen Musiklabels Universal Music Group, Warner Music Group und Sony Music Group für das Training seines KI-Modells verwendet zu haben. Suno verteidigt sein Vorgehen mit dem Argument, das Scrapen von Songs sei als Fair Use anzusehen, da die kopierten Werke lediglich für technische Prozesse verwendet würden. Die klagende Recording Industry Association of America (RIAA) hält Sunos Vorgehen für „irreführend“.
OpenAI hat eine neue Demo des fortgeschrittenen Sprachmodus von ChatGPT vorgestellt, der vielfältige Akzente und Sprachen unterstützt. Diese Funktion soll die Interaktion mit der KI natürlicher und vielseitiger gestalten. Der neue Sprachmodus ermöglicht es Nutzern, ChatGPT nicht nur Textbefehle zu geben, sondern auch durch gesprochene Befehle in verschiedenen Sprachen und Akzenten zu kommunizieren, was die Benutzerfreundlichkeit erheblich verbessert.
OpenAI hat eine erste Version seines neuen Sprachassistenten für ausgewählte ChatGPT-Plus-Abonnenten freigegeben. Das Update wurde erstmals im Mai vorgestellt und soll ChatGPT in die Lage versetzen, Spracheingaben besser zu verstehen und darauf zu reagieren, einschließlich der Erkennung unterschiedlicher Tonlagen und der Reaktion auf Gesprächsunterbrechungen. Insgesamt präsentierte OpenAI die fünf Sprachoptionen Breeze, Cove, Ember, Juniper und Sky. Letztere erregte wurde nach Kritik wieder entfernt.
OpenAI hat das neue Modell GPT-4o Mini vorgestellt, ein kostengünstigeres und leistungsfähigeres Modell als GPT-3.5, das speziell für Entwickler entwickelt wurde. Es bietet laut Hersteller eine preiswerte Alternative zu teureren Modellen, die hohe Rechenkosten verursachen. Das Modell soll in Zukunft auch multimodale Ein- und Ausgaben unterstützen, einschließlich Video und Audio. Mit 82 Prozent im MMLU-Test für Sprachverständnis übertrifft es ältere Modelle wie GPT-3.5 und konkurriert mit anderen aktuellen Modellen wie Gemini Ultra von Google.
DeepL hat nach eigenen Angaben eine neue Generation von Sprachmodellen eingeführt, die die Qualität und Leistung von Übersetzungen erheblich verbessern sollen. Diese Modelle nutzen eine LLM-Technologie, die speziell für Übersetzungs- und Textbearbeitungsaufgaben entwickelt wurde. Tests hätten gezeigt, dass sie den Übersetzungen der Konkurrenz überlegen sind, wobei DeepL 1,3-mal häufiger als Google Translate und 1,7-mal häufiger als ChatGPT-4 bevorzugt wurde. Für DeepL Pro-Kunden sind die neuen Modelle in ausgewählten Sprachen bereits verfügbar.
Laut dem EY European AI Barometer 2024 befürchten zwei Drittel der österreichischen Arbeitnehmer Stellenabbau durch KI. Nur 15 % dürfen KI am Arbeitsplatz uneingeschränkt nutzen. 78 % wünschen sich mehr Weiterbildungsmöglichkeiten. Die häufigsten KI-Anwendungen sind Texterstellung, Sprachassistenten und Chatbots. Trotz Sorgen über Arbeitsplatzverluste sehen viele KI als ergänzende Technologie zur menschlichen Arbeitskraft. EY betont die Notwendigkeit von Schulungen, um die Vorteile von KI optimal zu nutzen.
Das umfassende Siri-Update von Apple wird erst im Frühjahr 2025 mit iOS 18.4 veröffentlicht. Obwohl einige neue Funktionen und das Design-Upgrade mit Apple Intelligence dieses Jahr eingeführt werden, müssen Nutzer auf präzisere Sprachkommandos und tiefere App-Integration warten. Die Beta-Version für Entwickler soll im Januar 2025 verfügbar sein. Das Update soll Siri in der Lage versetzen, in Apps zu agieren und Aufgaben wie Foto-Editing auszuführen.