Tipps zum AV-Ton

Automatische Lautsprecheranpassung

Beispiel: Bluetooth-Lautsprecher der Firma Teufel
Beispiel: Bluetooth-Lautsprecher der Firma Teufel

Zum gelegentlichen Vorführen im kleinen Rahmen benutze ich seit einiger Zeit einen mobilen Lautsprecher, der auch direkt über Bluetooth direkt mit dem Laptop verbunden werden kann. Wenn man das einmal konfiguriert hat, ist das sehr einfach: Lautsprecher aufstellen, einschalten, fertig.

Mein Lautsprecher wie abgebildet ist relativ klein und leicht, trotzdem aber gut genug, um einen kleinen Raum mit ca. 20 Zuschauern ausreichend zum Vorführen von AV-Schauen zu beschallen.

 

Equalizer APO (https://equalizerapo.com/)
Equalizer APO (https://equalizerapo.com/)

Ein kleines Problem zeigt sich im normalen Betrieb: Der Klang ist etwas basslastig. Selbst die einfache Klangeinstellung am Lautsprecher führt nicht zu einem guten Klangbild.

Eine Lösung ist, den Lautsprecher über ein kleines Mischpult anzusteuern, das eine entsprechende Klangregelung besitzt. Das funktioniert gut, bedeutet aber wieder ein zusätzliches Gerät + Kabel + Netzteil.

Eine andere Lösung ist die Verwendung eines "digitalen Equalizers". Ich habe für mich den Equalizer APO (https://equalizerapo.com/) entdeckt.

 

Equalizer APO

Equalizer APO Device Selector
Equalizer APO Device Selector

Man kann mit einem Equalizer einfach die Klangregelung anpassen. Ich habe das mit ein wenig Ausprobieren gemacht, bis ich zufrieden mit dem Klang war: es bleibt ein kräftiger Bass, aber es "blubbert" nicht mehr so.

Das Schöne ist, dass der Equalizer APO ein OpenSource-Projekt ist.

Was ebenfalls sehr praktisch ist, ist der "Equalizer APO Device Selector". Es werden alle Wiedergabe- und Aufnahmegeräte erkannt, und man kann mit einem einfach zu setzenden Häkchen bestimmen, für welche Wiedergabegeräte (Lautsprecher) die Einstellungen gelten sollen. In meinem Fall (s. Bild) habe ich die Klangkorrektur nur für den Teufel-Lautsprecher aktiviert.

Arbeiten im Hintergrund

Damit bin ich wieder am Anfang: Aufstellen, einschalten, fertig.

Automatisch verbindet sich der Lautsprecher (in meinem Fall über Bluetooth, aber man kann natürlich auch ein Kabel verwenden), und automatisch wird die Klangeinstellung aktiviert. Das alles passiert im Hintergrund, d.h. abgesehen vom korrigierten Klang merke ich keine Änderung. Ich muss kein Programm öffnen oder irgendetwas umschalten, weil der Equalizer APO "weiß", dass er nur aktiv wird, wenn der passende Lautsprecher aktiviert wird. 


Sprache und Musik

Immer wieder erlebe ich bei der Vorführung von AV-Schauen (und sogar beim Anschauen von z.B. Youtube-Videos), dass die Musik zu laut, bzw. der gesprochene Text zu leise ist. Entweder stellt der Vorführer die Lautstärke so ein, dass die Musik gut ausgesteuert ist, und der Zuschauer versteht die Sprache nicht, oder die Lautstärke ist für die Sprache gut eingestellt. Dann brüllt einem die Musik schmerzhaft ins Ohr.

Woran liegt das?

In den allermeisten Fällen verwendet der Autor jeweils eigene Tonspuren (z.B. in M.Objects) für Sprache und Musik (und O-Ton oder anderes). Im Regelfall sind diese beiden Spuren gleich stark ausgesteuert, und genau das führt zu dem genannten Problem.

 

Sprache ist "dünner" als Musik, d.h. das Frequenzspektrum der menschlichen Stimme bei Sprache ist sehr viel kleiner als das Spektrum der Musik. Die Musik nutzt typischerweise das vollständige Hörspektrum aus. Bei gleicher Aussteuerung erscheint die Musik sehr viel lauter.

Einfache Lösung

Die einfache Lösung ist, die Tonspuren unterschiedlich auszusteuern. In meinen Schauen starte ich üblicherweise mit ein oder zwei Tonspuren für die Sprache, sowie 3 oder 4 Tonspuren für die Musik und 2 weiteren Tonspuren für den O-Ton oder Geräuschen.

Während die Sprachspuren auf 0dB (also voll) ausgesteuert sind, ziehe ich die Musikspuren alle auf -9dB. Je nach Musik sollte man das eventuell anpassen. In der Praxis habe ich bereits Werte von -6dB bis -12dB verwendet, aber eigentlich niemals ebenfalls 0dB. Es hängt ein wenig von der Stimme des Sprechers ab (wie "voll" ist seine Stimme?), von der verwendeten Musik (klassisches Einzelinstrument oder Orchester?) und natürlich auch von der beabsichtigten Wirkung. 

Möchte ich, dass "mir die Ohren wegfliegen", wenn ein entsprechender Orchestereinsatz verwendet wird, oder soll die Musik den Bildfluss unterstützen ohne zu aufdringlich oder gar störend zu wirken?

Man sollte übrigens auf darauf achten, dass die Aussteuerung einigermaßen gleichmäßig ist: dabei hilft es mir, die in M.Objects erstellte Audiografik in der Tonspur zu überprüfen. Sie sollte die ganze Spur (in der Vertikalen) ausnutzen, ohne in die Begrenzung zu gehen!


KI für die Sprache

Künstliche Intelligenz wird immer besser und ist kaum mehr wegzudenken auch aus unserem AV-Hobby. Die KI-unterstützte Rauschunterdrückung für Fotos mit hoher ISO schafft per Knopfdruck Ergebnisse, von denen man früher geträumt hätte. Gibt es so etwas auch für die Sprache?

KI-Sprachgenerator

https://elevenlabs.io/de
https://elevenlabs.io/de

Eine Option ist die Verwendung eines Sprachgenerators, z.B. den von ElevenLabs (https://elevenlabs.io/de). Nach einer Registrierung kann man dort seinen Text eintippen (oder per "Copy & Paste" einfügen), eine passende Stimme aussuchen und dann in wenigen Sekunden eine fertige Sounddatei herunterladen. Es ist sinnvoll, ein wenig Zeit bei der Auswahl der Stimme zu verwenden, und ebenfalls wichtig ist die Kontrolle des gesprochenen Textes. Manchmal muss man das Geschriebene "verunstalten", um die KI dazu zu bringen, Dinge richtig auszusprechen. Vor allem bei Namen muss man da kreativ sein. Aber man merkt auch, dass die KI immer besser wird.


Anmerkung: Für die typische Verwendung bei Texten für AV-Schauen habe ich bisher keine Probleme damit gehabt, aber man sollte immer im Hinterkopf behalten, dass die Verwendung der hier beschriebenen KI die eingegebenen Daten ins "WorldWideWeb" schickt, und man nicht sicher ist, wer am Ende Zugriff darauf hat...


Man kann sogar seine eigene Stimme der KI zur Verfügung stellen (nur für sich selber oder für die Allgemeinheit), in dem man einen gesprochenen Text hochlädt.

Interessant ist auch das AudioDubbing, bei dem man ein Video mit Sprache hochlädt, und dann eine Übersetzung in eine andere Sprache verlangt. Ich habe das bereits mit eigenen Schauen ausprobiert, und es ist schon beeindruckend, wenn man seine eigene Stimme auf englisch oder französisch hört mit meinem Text, den man so nie gesprochen hat.

Eine begrenzte Funktion und ein begrenzter Umfang ist kostenlos, wenn man diese Funktion häufiger nutzt, ist eine kostenpflichtige Erweiterung nötig.

KI zur Sprachoptimierung

Eine andere Hilfe kann die KI-Sprachoptimierung sein. Adobe bietet z.B. einen KI-Dienst zu einfachen Verbesserung der Sprache an (https://podcast.adobe.com/de). Eine Registrierung ist erforderlich, und dann gibt es auch eine Zeitbegrenzung des Textes, aber die ist für unsere AV-Zwecke kaum einschränkend.

Die Anwendung ist denkbar einfach: Man lädt eine Audiodatei (MP3) mit dem gesprochenen Text hoch. Nach einer kurzen Wartezeit kann man den Ton abspielen und dabei zwischen Originalton und der verbesserten Version hin- und herschalten. Außerdem kann man die verbesserte Version herunterladen.

Was kann die KI-Optimierung?

Laut Beschreibung kann die KI Hintergrundgeräusche entfernen und Raumhall entfernen. Hintergrundgeräusche sollten bei einer einigermaßen ordentlichen Sprachaufnahme keine große Rolle spielen.

Aber Raumhall bereits bei der Aufnahme zu vermeiden erfordert einigen Aufwand: kaum jemand von uns Amateuren dürfte den Zugang zu einem professionellen Tonstudio haben. Da hilft die KI in beeindruckender Weise!

Beispielaufnahme