Dirk Sommer: Können Sie kurz erklären, wofür WTA steht?
Rob Watts: Das steht für Watt's Transient Aligned (Filter) und bedeutet, dass ich damit versuche, die Transienten denen auf der originalen Aufnahme anzupassen. Es gab einige theoretische Prinzipien, die ich nutzen konnte. Ich probierte sie aus, und sie machten einen klanglichen Unterschied, aber hauptsächlich beruht die Art und Weise, in der der Algorithmus erstellt wurde, auf Hörtests. Es gab tausende Hörtest mit einem Stückchen Musik von 30 Sekunden Länge, immer wieder mit Änderungen, vor und zurück. Einige Dinge kann man theoretisch entwicklen, aber das meiste nur durch Hörtests. Ich fand heraus, dass ein WTA-Filter mit 256 Taps besser klingt als ein konventionelles Filter mit 2000 Taps. Daher die obige Behauptung, dass man durch die Veränderung des Algorithmus eine zehnfache Verbesserung erreicht. Jetzt haben wir beim HUGO ein Filter mit einer Länge von 26000 Taps und beim MOJO eine ähnliche Länge. Beim DAVE konnte ich das Filter noch einmal verlängern: Das sind jetzt genaugenommen 164000 Taps. Dafür benutze ich 166 DSP-Cores parallel, um die nötigen „Pferdestärken“ zu haben, die erforderlich sind, die Rechenvorgänge auszuführen. Als ich mit dem WTA-Filter begann, benötigte ich 100000 Programm-Zeilen für das Filter. Das war ein ziemlich großes Projekt. Bei der ersten Version bekam ich kein „time enclosure“, also musste ich es noch einmal machen („time enclosure“ ist ein nicht eins zu eins zu übersetzender terminus technicus, der kurz gesagt bedeutet, dass das zeitliche Verhalten eines Programmen zu der Zeitbasis der Hardware passt und das Programm funktioniert. ds). Auch bei der zweiten Version bekam ich kein „time enclosure“, also musste ich es noch einmal machen. Bei der dritten Version bekam ich kein „time enclosure“, also musste ich es noch einmal machen. Schließlich dauerte es neun Monate, bis das Programm lief, ich bekam ein „time enclosure“ und die Software funktionierte auf einem FPGA. Und als ich es des erste Mal ausprobierte, klang es besser, aber ich dachte, dass es keine neun Monate wert war, dies Ding zu programmieren. Es war zwar besser, aber kein Unterschied wie Tag und Nacht. Das hatte nicht die magische Qualität, die der HUGO bietet, nicht diese Verbesserung. HUGO kann den Anfang und das Ende von Noten exakt wiedergeben. HUGO ist zu enormer Geschwindigkeit fähig, was man hört, wenn man schnelle elektronische Musik hört. Und das neu programmierte Filter brachte auch die Veränderungen von Klangfarben rüber. Also dachte ich mir, da ist noch etwas anderes im Spiel, das ich nicht verstehe. Also gab ich das Thema an diesem Punkt auf und arbeitete an etwas anderem.
Als ich beim HUGO das Noise Shaping optimierte, stellte ich fest, dass Veränderung beim Noise Shaping die Wahrnehmung der Bühnentief sehr stark beeinflussen. Die Wahrnehmung räumlicher Tiefe ist ein sehr interessantes Thema, aber etwas, das Audio-Systeme nur sehr schlecht rüberbringen. Wenn man in eine Kirche geht und eine Orgel hört, die 100 Meter entfernt ist, kann man die Augen schließen und die Orgel 100 Meter weit weg lokalisieren. Überhaupt kein Problem. Wenn aber eine Orgel über eine Audio-Anlange wiedergibt, klingt es, als sei sie ein paar Meter und eben nicht hundert Meter entfernt. Das stört mich, das störte mich schon immer. Das ist ein großes Problem bei Audio, dass man Wahrnehmung von Tiefe nicht richtig reproduzieren kann. Was ich beim HUGO merkwürdig fand, dass Veränderungen beim Noise Shaper die Wahrnehmung von Tiefe veränderten. Es war sehr einfach, Unterschiede am Noise Shaper als veränderte Tiefenwahrnehmung zu hören. Zu diesem Zeitpunkt lag die Leistung des Noise Shaping bei etwa 200 Dezibel, das bedeutet ein 1000-fach größeres Auflösungsvermögen, als man bei üblichen High End Audio Noise Shapern bekommt. Ich sollte erklären, dass ein Teil meiner Arbeit darin besteht, Halbleiter-Chips zu entwerfen. Und ich erwarb Patente mit Halbleiter-Herstellern. Vor einigen Wochen habe ich diesen Teil meiner Tätigkeit beendet und arbeite nun Vollzeit für High-End-Audio. Das heißt, dass ich mich in der Entwicklung von D/A-Wandlern auskenne, dass ich mich mit den Problemen und Schwierigkeiten mit Halbleitern auskenne und dass ich weiss, wie Chips hinsichtlich ihrer Entwicklung entstehen. Niemand macht irgendwelche Hörtests. Da wird nur nach Zahlen entwickelt.
Noch einmal zum Noise Shaper: Er besitzt wie gesagt ein 1000-fach höheres Auflösungsvermögen als solche, die in einem „normalen“ Wandler zum Einsatz kommen und 10000 mal mehr Auflösungsfähigkeit als der bei DSD. Und das Auflösungsvermögen sagt etwas über die Tiefendarstellung aus. Eine hohe Auflösung erlaubt es, sehr, sehr kleine Signale genau zu reproduzieren. Die Sache mit dem Noise Shaper verhält sich so: Alles unterhalb des Grundrauschens des Noise Shapers, jede Information, die es da gibt, ist komplett verloren. Bei PCM ist das so: Wenn man Dither benutzt, werden sehr kleine Signale von Rauschen überdeckt, sind aber immer noch vorhanden. Ein PCM-System mit Dither hat eine unendliche Auflösung bei sehr kleinen Signalen. Bei Noise Shapern, die man nicht richtig dithern kann, ist alles unterhalb des Grundrauschens des Noise Shapers weggeworfene Information. Sie ist für immer verloren. Daher ist die Genauigkeit bei sehr kleinen Signalen ein Problem. Indem man also einen Noise Shaper mit 1000-fach höherem Auflösungsvermögen als üblich macht, verbessert man die Wahrnehmung von räumlicher Tiefe.
Fortsetzung folgt...