banner
Heim / Nachricht / Akustikforscher zerlegen Schall präzise in seine drei Grundbestandteile
Nachricht

Akustikforscher zerlegen Schall präzise in seine drei Grundbestandteile

Aug 22, 2023Aug 22, 2023

13. Juli 2023

Dieser Artikel wurde gemäß dem Redaktionsprozess und den Richtlinien von Science X überprüft. Die Redakteure haben die folgenden Attribute hervorgehoben und gleichzeitig die Glaubwürdigkeit des Inhalts sichergestellt:

faktengeprüft

vertrauenswürdige Quelle

Korrekturlesen

von der Aalto-Universität

Seit mehr als 200 Jahren suchen Forscher nach Möglichkeiten, Schall in seine Grundbestandteile zu zerlegen. In den 1820er Jahren schlug der französische Wissenschaftler Joseph Fourier vor, dass jedes Signal, einschließlich Töne, aus einer ausreichenden Anzahl von Sinuswellen aufgebaut werden könne. Diese Wellen klingen wie Pfeifen, jede hat ihre eigene Frequenz, Lautstärke und Startzeit und sind die Grundbausteine ​​des Klangs.

Bei manchen Klängen, etwa einer Flöte und einer gehauchten menschlichen Stimme, sind jedoch möglicherweise Hunderte oder sogar Tausende von Sinustönen erforderlich, um die ursprüngliche Wellenform exakt zu imitieren. Dies liegt daran, dass solche Klänge eine weniger harmonische, geräuschvollere Struktur aufweisen, in der alle Frequenzen gleichzeitig auftreten. Eine Lösung besteht darin, den Schall in zwei Arten von Komponenten zu unterteilen: Sinus und Rauschen, mit einer geringeren Anzahl pfeifender Sinuswellen und kombiniert mit variablen Geräuschen oder Zischen, um die Nachahmung zu vervollständigen.

Selbst dieses „vollständige“ Zweikomponenten-Klangmodell hat Probleme mit der Glättung der Anfänge von Klangereignissen, wie zum Beispiel Konsonanten in der Stimme oder Trommelklänge in der Musik. Eine dritte Komponente namens Transient wurde um das Jahr 2000 eingeführt, um die Schärfe solcher Geräusche zu modellieren. Allein die Transienten klingen wie Klickgeräusche. Von da an wurde Schall häufig in drei Komponenten unterteilt: Sinus, Rauschen und Transienten.

Das Dreikomponentenmodell aus Sinus, Rauschen und Transienten wurde nun von Forschern des Aalto University Acoustics Lab unter Verwendung von Ideen aus der Hörwahrnehmung, der Fuzzy-Logik und der perfekten Rekonstruktion verfeinert. Ihre Forschungsergebnisse werden im Journal of the Audio Engineering Society veröffentlicht.

Der Doktorand Leonardo Fierro und Professor Vesa Välimäki erkannten, dass die Art und Weise, wie Menschen die verschiedenen Komponenten hören und Pfiffe, Klicks und Zischen voneinander unterscheiden, wichtig ist. Wenn sich ein Klick mit der Zeit ausdehnt, beginnt es zu klingeln und klingt lauter; Im Gegensatz dazu kann die Konzentration auf sehr kurze Töne zu einem gewissen Tonalitätsverlust führen.

Diese Einsicht aus der Hörwahrnehmung wurde mit Fuzzy-Logik gekoppelt: Zu jedem Zeitpunkt kann ein Teil des Klangs zu jeder der drei Klassen von Sinus, Transienten oder Rauschen gehören, nicht nur zu einer von ihnen. Mit dem Ziel einer perfekten Rekonstruktion optimierte Fierro die Art und Weise, wie Schall zerlegt wird.

Bei der erweiterten Methode sind Sinus und Transienten zwei gegensätzliche Klangeigenschaften, und der Klang darf nicht gleichzeitig zu beiden Klassen gehören. Es können jedoch immer noch zwei gegensätzliche Komponententypen gleichzeitig mit Rauschen auftreten. Somit ist die Idee der Fuzzy-Logik eingeschränkt vorhanden. Das Rauschen fungiert als unscharfe Verbindung zwischen Sinus und Transienten und beschreibt alle Nuancen des Klangs, die nicht durch einfache Klicks und Pfiffe erfasst werden. „Es ist, als würde man das fehlende Puzzleteil finden, um die beiden Teile zu verbinden, die vorher nicht zusammenpassten“, sagt Fierro.

Diese verbesserte Zerlegungsmethode wurde in einem Hörtest mit früheren Methoden verglichen. Elf erfahrene Zuhörer wurden einzeln gebeten, mehrere kurze Musikausschnitte und die daraus extrahierten Komponenten mit unterschiedlichen Methoden anzuhören.

Basierend auf den Bewertungen der Zuhörer erwies sich die neue Methode als die beste Methode zur Zerlegung der meisten Geräusche. Nur wenn in einem Musikklang ein starkes Vibrato vorhanden ist, beispielsweise in einer Singstimme oder einer Geige, sind alle Zerlegungsmethoden schwierig, und in diesen Fällen sind einige frühere Methoden überlegen.

Ein Testanwendungsfall für die neue Zerlegungsmethode ist die zeitliche Veränderung von Klang, insbesondere die Verlangsamung von Musik. Dies wurde in einem Präferenz-Hörtest mit der vorherigen Methode des Labors verglichen, die vor einigen Jahren in einer Vergleichsstudie als beste akademische Technik ausgewählt wurde. Auch hier war Fierros neue Methode ein klarer Gewinner.

„Die neue Klangzerlegungsmethode eröffnet viele spannende Möglichkeiten in der Klangverarbeitung“, sagt Professor Välimäki. „Die Verlangsamung des Tons ist derzeit unser Hauptinteresse. Auffällig ist, dass beispielsweise in Sportnachrichten die Zeitlupenvideos immer stumm sind. Der Grund liegt wahrscheinlich darin, dass die Tonqualität in aktuellen Verlangsamungs-Audio-Tools nicht gut genug ist.“ . Wir haben bereits mit der Entwicklung besserer Methoden zur zeitlichen Modifikation begonnen, die ein tiefes neuronales Netzwerk nutzen, um die Dehnung einiger Komponenten zu unterstützen.“

Die hochwertige Klangzerlegung ermöglicht auch neuartige Techniken für das Remixen von Musik. Eine davon führt zu einer verzerrungsfreien Komprimierung des Dynamikbereichs. Die transiente Komponente enthält nämlich häufig die lautesten Spitzen in der Schallwellenform. Daher kann eine einfache Reduzierung des Pegels der transienten Komponente und deren Rückmischung mit den anderen den Peak-to-Peak-Wert des Audiosignals begrenzen.

Mehr Informationen: Leonardo Fierro et al., Enhanced Fuzzy Decomposition of Sound Into Sines, Transients, and Noise, Journal of the Audio Engineering Society (2023). DOI: 10.17743/jaes.2022.0077

Zur Verfügung gestellt von der Aalto-Universität

Mehr Informationen:Zitat