„Mit unserem Dienst lassen sich Audioinhalte besser auffinden“
Radioplayer Deutschland wird künftig Metadaten von Audioinhalten mit Hilfe von Audio-Fingerprinting automatisiert erstellen. In der Testphase werden Namen und Interpreten von Musiktiteln erfasst, perspektivisch sollen Wortbeiträge und andere Soundelemente dazukommen. Caroline Grazé, Radioplayer-Geschäftsführerin, über das Potenzial des Dienstes.
Was hat Sie dazu veranlasst, die automatisierte Erstellung von Metadaten zu entwickeln?
Caroline Grazé: Derzeit führen nur etwa 60 Prozent der Radiosender in Deutschland die Metadaten im Stream oder übermitteln sie separat per XML in unsere oder andere Systeme. Wir wollen eine komplette Datendichte herstellen, und so auch für Chancengleichheit bei der Auffindbarkeit sorgen. Vom Dienst selbst profitieren dann nicht nur die Sender, sondern auch die Empfänger der Audio-Streams. Sie wollen schließlich wissen, was sie gerade hören.
Woran liegt es, dass nur knapp zwei Drittel der Sender die Daten zur Verfügung stellen?
Technisch handelt es sich dabei an sich nicht um einen komplexen Prozess, es gibt dafür aber viele Gründe. Oftmals mangelt es den Sendern aber an Personal, Know How oder schlicht an finanziellen Mitteln. Manche Streamingdienstleister bieten die Metadaten als Teil des Services an, sie sind dementsprechend aber etwas kostspieliger. In erster Linie betrifft das Problem also kleinere Stationen mit geringeren Ressourcen.
Mit Ihrem Service werden die Daten für alle Sender bereitgestellt?
Ja, und zwar in einem einheitlichen Format was auf allen Endgeräten dargestellt werden kann. Da nicht jedes Endgerät Instream-Metadaten auslesen kann, ist es wichtig die Daten immer auch separat per Schnittstelle zuzuführen.
Ihr Service nutzt dafür einen Audiofingerabdruck. Wie funktioniert das?
Zunächst haben wir die vorliegenden Daten in eine Audiodatenbank überführt. Unser Dienst erstellt über einen Machine-Learning Prozess automatisiert Spektogramme von diesen bekannten Audio-Daten. Anschließend werden unbekannte Audio-Daten mit den Spektogrammen abgeglichen und erkannt. Die Mechanik ist nicht neu, aber die Art und Weise wie wir das Matching vornehmen, die Prozesse in der Cloud dynamisieren, wie die Datenbank Titel ablegt und in welchen Rhythmen sie das macht, das haben wir alles neu aufgesetzt. Mitte März sind wir in den Probebetrieb gegangen und erstellen vorerst für fünf unserer über 2.300 Stationen ein Liveaudio-Fingerprinting. Bislang läuft es sehr gut, es gab keine Fehler beim Erfassen und die Erkennung ist sehr schnell. Nun rollen wir den Live-Betrieb auf weitere Stationen aus.
Sie versprechen sich davon unter anderem eine bessere Auffindbarkeit von Audio-Angeboten. Inwiefern wird sie erhöht?
Erst vollständige Metadaten ermöglichen es uns, sie mit weiteren Informationen anzureichern, zum Beispiel mit einem Albumcover oder den Tourdaten der Künstler, aber auch die Suche und Empfehlungsalgorithmen profitieren davon. Zum anderen lassen sich die Daten miteinander in Verbindung setzen. Wenn ich zum Beispiel im Auto unterwegs bin und einen bestimmten Interpreten hören möchte, kann ich mit Hilfe der genaueren Titelinformationen einen Sender entdecken, der ihn gerade spielt. Besonders interessant wird das Prinzip bei On Demand-Inhalten. Ausgehend von einem Newsbeitrag, etwa aktuell zur Ukraine, ließen sich dann sehr viel einfacher weitere Inhalte zu dem Thema finden, auch von anderen Publishern. Wer möchte, kann auf diese Weise sehr schnell Themen vertiefen. Das werden wir aber erst in einer Ausbaustufe des Projekts angehen.
Weshalb erst später?
Dafür muss der Dienst um eine Transkription von Speech-To-Text ergänzt werden. Streng genommen handelt es sich dabei um einen anderen Prozess als beim Spektogram-Vergleich der Musik. Zuvor werden wir uns eher damit befassen, dass wir auch andere wiederkehrende Live-Inhalte wie Werbung, Nachrichten-Intros oder Jingles automatisiert erkennen können.
Wie werden die Radiosender von den Metadaten profitieren?
Abgesehen von der Chancengleichheit bei der Auffindbarkeit, könnten die Sender die Daten auch rückverwerten, etwa um Playlisten zu überprüfen. Dies ist unter anderem nützlich für die Sendemeldung an GEMA und GVL, momentan werden diese Titel nur rückblickend erfasst und nachträglich gemeldet. Über die Metadaten ließe sich die Sendemeldung theoretisch sogar in Echtzeit übermitteln. Davon ab verbessern die Daten natürlich alle Services, die auf Musiktiteln beruhen, die Suche und Empfehlungsalgorithmen zum Beispiel. Die Anwendungsfälle und Ausbaustufen sind enorm vielfältig.