Gadgets and Devices

Kannst du mich jetzt hören? KI-Akustik zur Bekämpfung von lautem Audio mithilfe generativer KI

Written by smirow

Laute Aufnahmen von Interviews und Reden sind der Fluch des Lebens eines Tontechnikers. Doch ein deutsches Startup hofft, dieses Problem mit einem einzigartigen technischen Ansatz zu lösen, der generative KI nutzt, um die Klarheit von Stimmen in Videos zu verbessern.

Heute kam AI-coustics mit einer Finanzierung in Höhe von 1,9 Millionen Euro aus dem Verborgenen. Laut Mitbegründer und CEO Fabian Seipel geht die Technologie von AI-coustics über die standardmäßige Geräuschunterdrückung hinaus und funktioniert auf und mit jedem Gerät und Lautsprecher.

„Unsere Kernaufgabe besteht darin, jede digitale Interaktion, sei es bei einer Telefonkonferenz, einem Verbrauchergerät oder einem gelegentlichen Social-Media-Video, so klar wie eine Übertragung aus einem professionellen Studio zu machen“, sagte Seipel in einem Interview mit TechCrunch.

Seipel, von Haus aus Tontechniker, gründete 2021 gemeinsam mit Corvin Jaedicke, Dozent für Maschinelles Lernen an der Technischen Universität Berlin, AI-coustics. Seipel und Jaedicke lernten sich während ihres Audiotechnik-Studiums an der TU Berlin kennen, wo sie oft auf schlechtes Gewissen stießen Tonqualität. Qualität der Online-Kurse und Tutorials, denen sie folgen mussten.

„Wir wurden von einer persönlichen Mission angetrieben: die allgegenwärtige Herausforderung der schlechten Audioqualität in der digitalen Kommunikation zu überwinden“, sagte Seipel. „Obwohl mein Gehör aufgrund der Musikproduktion Anfang 20 leicht beeinträchtigt ist, hatte ich immer Probleme mit Online-Inhalten und Vorträgen, was dazu führte, dass wir uns in erster Linie mit dem Thema Musik beschäftigten. Die Qualität der Sprache und die Verständlichkeit.“

Der Markt für KI-basierte Software zur Geräuschunterdrückung und Sprachverbesserung ist bereits sehr robust. Zu den Konkurrenten von AI-coustics gehören Insoundz, das generative KI nutzt, um gesendete und vorab aufgezeichnete Sprachclips zu verbessern, und Veed.io, eine Videobearbeitungssuite mit Tools zum Entfernen von Hintergrundgeräuschen aus Clips.

Aber Seipel sagt, AI-coustics habe einen einzigartigen Ansatz zur Entwicklung der KI-Mechanismen, die die eigentliche Arbeit der Lärmreduzierung leisten.

Das Startup verwendet ein Modell, das auf Sprachproben trainiert wurde, die im Studio des Startups in Berlin, der Heimatstadt von AI-coustics, aufgezeichnet wurden. Die Leute werden dafür bezahlt, Proben aufzuzeichnen – Seipel würde nicht sagen, wie viele –, die dann einem Datensatz hinzugefügt werden, um das Geräuschreduzierungsmodell von AI-coustics zu trainieren.

„Wir haben einen einzigartigen Ansatz entwickelt, um Audioartefakte und -probleme – z. B. Rauschen, Hall, Komprimierung, bandbegrenzte Mikrofone, Verzerrung, Clipping usw. – während des Trainingsprozesses zu simulieren“, sagte er. sagte Seipel.

Ich wette, einige werden sich über das einzigartige Vergütungssystem von AI-coustics für Urheber ärgern, da sich das Modell, das das Startup entwickelt, auf lange Sicht als recht lukrativ erweisen könnte. (Es gibt eine gesunde Debatte darüber, ob die Ersteller von Trainingsdaten für KI-Modelle Residuen für ihre Beiträge verdienen.) Aber die vielleicht größte und unmittelbarste Sorge ist die Voreingenommenheit.

Es ist allgemein bekannt, dass Spracherkennungsalgorithmen Vorurteile entwickeln können, die letztendlich den Benutzern schaden. Eine in „The Proceedings of the National Academy of Sciences“ veröffentlichte Studie zeigte, dass die Spracherkennung in großen Unternehmen doppelt so häufig dazu führt, dass Audio von schwarzen Sprechern falsch transkribiert wird, als von weißen Sprechern.

Um dem entgegenzuwirken, konzentriert sich AI-coustics laut Seipel auf die Rekrutierung „verschiedener“ Mitwirkender an Sprachproben. Er fügte hinzu: „Größe und Vielfalt sind der Schlüssel zur Beseitigung von Vorurteilen und dafür, dass die Technologie für alle Sprachen, Sprecheridentitäten, Altersgruppen, Akzente und Geschlechter funktioniert.“ »

Es war nicht der wissenschaftlichste Test, aber ich habe drei Videoclips – ein Interview mit einem Bauern aus dem 18. Jahrhundert, eine Fahrdemonstration und einen Protest gegen den israelisch-palästinensischen Konflikt – auf die Plattform „AI-coustics“ hochgeladen, um zu sehen, wie gut er ist mit jedem gearbeitet. . AI-coustics hat tatsächlich sein Versprechen gehalten, die Klarheit zu verbessern; Meiner Meinung nach hatten die verarbeiteten Clips viel weniger Hintergrundgeräusche, die die Lautsprecher übertönten.

Hier ist der Clip eines Bauern aus dem 18. Jahrhundert vor:


Und danach:

Seipel glaubt, dass die Technologie von AI-coustics zur Verbesserung von Echtzeit- und aufgezeichneter Sprache eingesetzt wird und möglicherweise sogar in Geräte wie Soundbars, Smartphones und Kopfhörer integriert wird, um die Klarheit der Stimme automatisch zu verbessern. Momentan, AI-coustics bietet eine Webanwendung und API für die Nachbearbeitung von Audio- und Videoaufnahmen sowie ein SDK, das die AI-coustics-Plattform in bestehende Arbeitsabläufe, Anwendungen und Hardware integriert.

Laut Seipel hat AI-coustics – das Geld durch eine Kombination aus Abonnements, On-Demand-Preisen und Lizenzierung verdient – ​​derzeit fünf Unternehmenskunden und 20.000 Benutzer (obwohl nicht alle zahlen). Die Roadmap für die nächsten Monate sieht vor, das vierköpfige Team des Unternehmens zu erweitern und das zugrunde liegende Sprachverbesserungsmodell zu verbessern.

„Vor unserer Erstinvestition hat AI-coustics einen relativ einfachen Betrieb mit einer geringen Burn-Rate durchgeführt, um den Herausforderungen des Risikokapital-Investmentmarktes standzuhalten“, sagte Seipel. „AI-coustics verfügt mittlerweile über ein großes Netzwerk an Investoren und Mentoren in Deutschland und Großbritannien, die uns beraten. Eine solide Technologiebasis und die Fähigkeit, unterschiedliche Märkte mit derselben Datenbank und Kerntechnologie anzusprechen, geben dem Unternehmen Flexibilität und die Möglichkeit, kleinere Weichenstellungen vorzunehmen.

Auf die Frage, ob Audio-Mastering-Technologien wie AI-Coustics Arbeitsplätze stehlen könnten, wie einige Experten befürchten, wies Seipel darauf hin, dass AI-Coustics das Potenzial habe, die mühsamen Aufgaben zu beschleunigen, die derzeit den menschlichen Toningenieuren obliegen.

„Ein Content-Creation-Studio oder Broadcast-Manager kann Zeit und Geld sparen, indem er Teile des Audioproduktionsprozesses mit AI-Coustics automatisiert und gleichzeitig die beste Sprachqualität beibehält“, sagte er. „Sprachqualität und -verständlichkeit bleiben bei fast allen Verbraucher- oder Profigeräten sowie bei der Produktion oder dem Konsum von Inhalten ein lästiges Problem. Jede Anwendung, bei der Sprache aufgezeichnet, verarbeitet oder übertragen wird, kann potenziell von unserer Technologie profitieren.

Die Finanzierung erfolgte in Form einer Eigenkapital- und Fremdkapitaltranche von Connect Ventures, Inovia Capital, FOV Ventures und Ableton-CFO Jan Bohl.

About the author

smirow

Leave a Comment