Effiziente Spracherkennung für intelligente Sprachassistenten

Spracherkennung
ElevenLabs: Reader weltweit verfügbar

Das KI-Startup ElevenLabs hat seine Text-to-Speech-App Reader nun weltweit auf den Markt gebracht. Die App unterstützt 32 Sprachen und ermöglicht es Nutzern, sich Texte wie Artikel, PDFs und E-Books in verschiedenen Sprachen und Stimmen vorlesen zu lassen. Die App wurde im Juni zunächst in den USA, Großbritannien und Kanada eingeführt. Das Unternehmen bietet auch eine API für verschiedene Geschäftsanwendungen und integriert seine Technologie in Plattformen wie Perplexity und PocketFM.

ElevenLabs: Reader weltweit verfügbar thumbnail
ElevenLabs: Reader weltweit verfügbar thumbnail
19/08/24
API
+4
API
+4
Opera's KI-fokussierter Webbrowser jetzt auf iOS verfügbar

Opera hat seinen auf KI ausgerichteten Browser „Opera One“ nun auch für iOS veröffentlicht. Der Browser integriert die Aria-KI-Assistentin, die nun auch Sprachbefehle unterstützt und Bilder mit Googles Imagen2-Modell generieren kann. Die Benutzeroberfläche ist für mobile Geräte optimiert, und Funktionen wie eine anpassbare Suchleiste und ein integrierter Werbeblocker sowie ein kostenloses VPN bieten zusätzlichen Komfort und Sicherheit.

Opera's KI-fokussierter Webbrowser jetzt auf iOS verfügbar thumbnail
Opera's KI-fokussierter Webbrowser jetzt auf iOS verfügbar thumbnail
14/08/24
Generative AI
+9
Humanoider Roboter Figure 02 spricht dank OpenAI

Die US-Firma Figure hat den humanoiden Roboter Figure 02 angekündigt, der durch eine Partnerschaft mit OpenAI sprechen kann. Der Roboter ist mit Lautsprechern und Mikrofonen ausgestattet, um mit Menschen zu kommunizieren, was auch die Sicherheit erhöht. Die Hände des Roboters wurden neu gestaltet, um menschlicher zu wirken und einen sicheren Griff zu gewährleisten. Figure 02 soll in Fabriken und Lagern eingesetzt werden und ist auch für den Haushaltsgebrauch geeignet.

Humanoider Roboter Figure 02 spricht dank OpenAI thumbnail
Humanoider Roboter Figure 02 spricht dank OpenAI thumbnail
08/08/24
Industrie & Produktion
+8
Suno: Musik-Scraping ist Fair Use

Das KI-Startup Suno hat offen zugegeben, urheberrechtlich geschützte Songs der drei großen Musiklabels Universal Music Group, Warner Music Group und Sony Music Group für das Training seines KI-Modells verwendet zu haben. Suno verteidigt sein Vorgehen mit dem Argument, das Scrapen von Songs sei als Fair Use anzusehen, da die kopierten Werke lediglich für technische Prozesse verwendet würden. Die klagende Recording Industry Association of America (RIAA) hält Sunos Vorgehen für „irreführend“.

Suno: Musik-Scraping ist Fair Use thumbnail
Suno: Musik-Scraping ist Fair Use thumbnail
02/08/24
Künstliche Intelligenz
+5
OpenAI zeigt fortgeschrittenen Sprachmodus

OpenAI hat eine neue Demo des fortgeschrittenen Sprachmodus von ChatGPT vorgestellt, der vielfältige Akzente und Sprachen unterstützt. Diese Funktion soll die Interaktion mit der KI natürlicher und vielseitiger gestalten. Der neue Sprachmodus ermöglicht es Nutzern, ChatGPT nicht nur Textbefehle zu geben, sondern auch durch gesprochene Befehle in verschiedenen Sprachen und Akzenten zu kommunizieren, was die Benutzerfreundlichkeit erheblich verbessert.

OpenAI zeigt fortgeschrittenen Sprachmodus thumbnail
OpenAI zeigt fortgeschrittenen Sprachmodus thumbnail
02/08/24
Generative AI
+4
OpenAI: Sprachassistent für ChatGPT Plus

OpenAI hat eine erste Version seines neuen Sprachassistenten für ausgewählte ChatGPT-Plus-Abonnenten freigegeben. Das Update wurde erstmals im Mai vorgestellt und soll ChatGPT in die Lage versetzen, Spracheingaben besser zu verstehen und darauf zu reagieren, einschließlich der Erkennung unterschiedlicher Tonlagen und der Reaktion auf Gesprächsunterbrechungen. Insgesamt präsentierte OpenAI die fünf Sprachoptionen Breeze, Cove, Ember, Juniper und Sky. Letztere erregte wurde nach Kritik wieder entfernt.

31/07/24
Künstliche Intelligenz
+2
OpenAI stellt GPT-4o Mini vor

OpenAI hat das neue Modell GPT-4o Mini vorgestellt, ein kostengünstigeres und leistungsfähigeres Modell als GPT-3.5, das speziell für Entwickler entwickelt wurde. Es bietet laut Hersteller eine preiswerte Alternative zu teureren Modellen, die hohe Rechenkosten verursachen. Das Modell soll in Zukunft auch multimodale Ein- und Ausgaben unterstützen, einschließlich Video und Audio. Mit 82 Prozent im MMLU-Test für Sprachverständnis übertrifft es ältere Modelle wie GPT-3.5 und konkurriert mit anderen aktuellen Modellen wie Gemini Ultra von Google.

19/07/24
Künstliche Intelligenz
+3
DeepL mit neuem KI-Modell

DeepL hat nach eigenen Angaben eine neue Generation von Sprachmodellen eingeführt, die die Qualität und Leistung von Übersetzungen erheblich verbessern sollen. Diese Modelle nutzen eine LLM-Technologie, die speziell für Übersetzungs- und Textbearbeitungsaufgaben entwickelt wurde. Tests hätten gezeigt, dass sie den Übersetzungen der Konkurrenz überlegen sind, wobei DeepL 1,3-mal häufiger als Google Translate und 1,7-mal häufiger als ChatGPT-4 bevorzugt wurde. Für DeepL Pro-Kunden sind die neuen Modelle in ausgewählten Sprachen bereits verfügbar.

17/07/24
Künstliche Intelligenz
+3
Österreichs Arbeitnehmer befürchten Stellenabbau durch KI

Laut dem EY European AI Barometer 2024 befürchten zwei Drittel der österreichischen Arbeitnehmer Stellenabbau durch KI. Nur 15 % dürfen KI am Arbeitsplatz uneingeschränkt nutzen. 78 % wünschen sich mehr Weiterbildungsmöglichkeiten. Die häufigsten KI-Anwendungen sind Texterstellung, Sprachassistenten und Chatbots. Trotz Sorgen über Arbeitsplatzverluste sehen viele KI als ergänzende Technologie zur menschlichen Arbeitskraft. EY betont die Notwendigkeit von Schulungen, um die Vorteile von KI optimal zu nutzen.

Österreichs Arbeitnehmer befürchten Stellenabbau durch KI thumbnail
Österreichs Arbeitnehmer befürchten Stellenabbau durch KI thumbnail
12/07/24
Bildung
+7
Großes Siri-Update verzögert sich

Das umfassende Siri-Update von Apple wird erst im Frühjahr 2025 mit iOS 18.4 veröffentlicht. Obwohl einige neue Funktionen und das Design-Upgrade mit Apple Intelligence dieses Jahr eingeführt werden, müssen Nutzer auf präzisere Sprachkommandos und tiefere App-Integration warten. Die Beta-Version für Entwickler soll im Januar 2025 verfügbar sein. Das Update soll Siri in der Lage versetzen, in Apps zu agieren und Aufgaben wie Foto-Editing auszuführen.

Großes Siri-Update verzögert sich thumbnail
Großes Siri-Update verzögert sich thumbnail
09/07/24
Apps & Mobile
+4
Mehr laden
SI Logo