Einbindung in Internet und Multimedia

Anfallende Datenmengen

Zunächst sollte man sich verdeutlichen, welche Datenmengen bei der Digitalisierung von Musik anfallen.

Eine Sekunde Stereo Signal entspricht:

	44,1 kHz	22 kHz	11 kHz
16 Bit	176 KByte/s 1.411 KBit/s	88 KByte/s 704 KBit/s	44 KByte/s 352 KBit/s
12 Bit	132 KByte/s 1.058 KBit/s	66 KByte/s 528 KBit/s	33 KByte/s 264 KBit/s
8 Bit	88 KByte/s 705 KBit/s	44 KByte/s 352 KBit/s	22 KByte/s 176 KBit/s

Ein Stück mit 3,40 Min in CD-Qualität (44,1 kHz/16 Bit) umfaßt beispielsweise rund 38 MB. Für eine Einbindung in Multimedia- oder Internetanwendungen ist diese Datenmenge nicht praktikabel.

Es ist demnach notwendig, den Umfang der Audiodaten zu reduzieren. Eine Reduktion durch Herabsetzen von Samplingfrequenz und -auflösung (wie in obiger Tabelle zu ersehen) führt zu unerwünschten Nebeneffekten (Abtasttheorem, Quantisierungsrauschen).

Auch durch einen der herkömmlichen nondestruktiven Datenkomprimierungsalgorithmen (Zip, Lharc, Rar, etc.), läßt sich aufgrund der komplexen Strukturen von Audiodaten meist nur eine Reduktion um 5-20% erreichen. Daher wurden für die Speicherung und Ubertragung von Audiosignalen spezielle Verfahren entwickelt.

Verlustlose Datenkompression

Die verlustlose Datenkompression basiert auf Verfahren der linearen Prädiktion mit nachfolgender Entropiecodierung.

Bei der linearen Prädiktion wird für einem Block von Abtastwerten ein Koeffizientensatz bestimmt, auf dessen Grundlage eine Schätzung der Folge der Abtastwerte (Amplitudenverlauf) erfolgt. Je genauer die Schätzung mit dem tatsächlichen Verlauf übereinstimmt, desto geringer ist die Amplitude des Differenzsignals.

Bei der Entropiecodierung wird dann das Differenzsignal in Abhängigkeit von der Verteilungsdichtefunktion des Blocks quantisiert. Abtastwerten mit großer Häufigkeit werden mit kurzen Datenworten, Abtastwerten mit geringer Häufigkeit werden mit längeren Datenworten codiert.

Schließlich wird aus dem bestimmten Koeffizientensatz und dem entropiecodierten Differenzsignal ein Rahmen gebildet, der alle Informationen für die Decodierung beinhaltet.
Die dadurch ereichbaren mittleren Kompressionsraten erlauben in Abhängigkeit von der Statistik des Audiosignals eine Datenreduktion bis 50%.

Verlustbehaftete Datenkompression

Verlustbehaftete Codierungsverfahren ermöglichen unter Ausnutzung psychoakustischer Phänomene wesentlich höhere Kompressionsraten. Allerdings ist die Nachbearbeitung bereits komprimierter Signale sowie die mehrfache Codierung/Decodierung mit zusätzlichen Problemen behaftet.

Diese Codierungsverfahren basieren meist auf folgenden Einzelschritten:

Teilbandzerlegung mit Filterbänken kurzer Latenzzeiten
Bestimmung psychoakustischer Modellparameter basierend auf einer Schätzung der Kurzzeitspektren mit der FFT
Dynamische Bitzuweisung aufgrund psychoakustischer Modellparameter
Quantisierung und Codierung der Teilbandsignale
Zusammensetzung des Datenformats (Rahmen-Bildung)

Beispiel MP3 (nach Wikipedia)

Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden.
Nicht hörbare Frequenzen – das für einen Erwachsenen erfassbare Spektrum deckt etwa den Bereich 20 Hz bis 18 kHz ab – werden im fouriertransfomierten Datenmaterial abgeschnitten. Das ist auch wegen des Abtasttheorems notwendig. Wenn mit niedrigerer Frequenz als 44 kHz abgetastet wird, muss die Grenzfrequenz noch weiter reduziert werden, zum Beispiel auf 10 kHz bei 22 kHz Abtastfrequenz.
So genannte Maskierungseffekte werden genutzt, um weitere Redundanz zu beseitigen. Dabei werden vom Menschen nicht wahrgenommene Töne aus dem Signal weggelassen (zum Beispiel sehr leise Töne in lauter Umgebung oder auch die Obertöne über 20kHz)…
Die Daten, die in sog. Frames vorliegen, werden schließlich Huffman-entropiekodiert.

Psychoakustische Grundlagen

Die Ergebnisse psychoakustischer Untersuchungen von Zwicker bilden die Grundlage zur gehörangepaßten Codierung (Perceptual Coding) von Musiksignalen. Das menschliche Gehör analysiert breitbandige Schallereignisse in sogenannten Frequenzgruppen. Bei der psychoakustischen Codierung wird das Audiosignal anhand der Frequenzgruppen zerlegt und die resultierenden Teilbänder unter Berücksichtigung der absoluten Hörschwelle und von Verdeckungseffekten codiert

Absolute Hörschwelle

Die absolute Hörschwelle ist der Verlauf des Schalldruckpegels in Abhängigkeit von der Frequenz, unterhalb derer keine Signale wahrgenommen werden können.

Verdeckungseffekte

Als Verdeckungseffekt wird die Eigenschaft des menschlichen Gehörs bezeichnet, einer Frequenz mit hohem Pegel benachbarte Frequenzen mit niedrigerem Pegel nicht wahrzunehmen.
Erklingt beispielsweise ein Ton mit 440 Hz bei einer Lautstärke von 60 dB, bleiben in seinem Band alle anderen Frequenzen die leiser als 35 dB sind - also auch das Rauschen - unhörbar. Der notwendige Rauschabstand beträgt demnach nur noch 25 dB und dafür reichen 4 Bit Auflösung aus.

MPEG

Das Akronym MPEG steht für "Motion Pictures Experts Group". Man bezeichnet damit eine von der International Standards Organization (ISO) und der International Electro-Technical Commission (IEC) anerkannte Sammlung von standardisierten Verfahren und Formaten im digitalen Video- und Audiobereich.

MPEG-1 Audio definiert u.a. drei Coder/Decoder, die als Layer I-III bezeichnet werden. Die Algorithmen sind hierarchisch kompatibel, wodurch der Decoder des Layer n in der Lage ist, Signale des Layer n und der darunter zu dekodieren. Die Komplexität der Coder und Decoder steigt mit der Ziffer des Layer, womit eine bessere Qualität bei erhötem Rechenaufwand erreicht wird. Die Bitraten des Ausgangssignals sind auf 32, 44.1 und 48 kHz begränzt.

MPEG-1 (1992)

Layer I

Aufsplitten des Audio-Signals in 32 Frequenzbänder
fixe Segmentierung der Datenblöcke
psychoakustisches Modell zur Bestimmung der Quantisierung
Bitraten von 386 kbps Stereo bei subjektiver CD-Qualität

Layer II

zusätzliche Kodierung der Bit-Allokation, Skalierungsfaktoren und Samples
Bitraten von 256 kbps Stereo bei subjektiver CD-Qualität

Layer III

Erhöhung der Frequenzauflösung durch eine hybride Filterbank
andere Quantisierungsalgorithmen
adaptive Segmentierung
Entropie-Kodierung der quantisierten Werte
Bitraten von 128 kbps Stereo bei subjektiver CD-Qualität
Als Mp3

Zur Informationsseite des Fraunhofer IIS (MPEG1 Layer 3)

Das Layer III Verfahren hat in den letzten Jahren enorm an Bedeutung gewonnen. Es wurde ab 1987 vom EUREKA Projekt EU147 "Digital Audio Broadcasting (DAB)" entwickelt. Entscheidend war dabei die Arbeit der Universität Erlangen (Prof. Dieter Seitzer, Frauenhofer Gesellschaft). Die Qualität ist bei einer Bitrate von unter 128 KBit/s so hoch, daß es beim MoD-Dienst der Telekom und für die DVD (Europa) angewandt wird.

Typische Performance Daten von MPEG-1/2 Layer III:

Subjektive Quality	Bandbreite	Mode	Bitrate	Kompression
"telephone sound"	2.5 kHz	mono	8 Kbps*)	96:1
"Besser als Kurzwelle"	4.5 kHz	mono	16 kbps	48:1
"Besser als Mittlewelle"	7.5 kHz	mono	32 Kbps	24:1
"Ähnlich wie UKW"	11 kHz	stereo	56...64 Kbps	26...24:1
"CD nahe"	15 kHz	stereo	96 Kbps	16:1
"CD nahe"	15 kHz	stereo	112..128 Kbps (128Kbps: Internetstandard)	14..12:1
"CD"	15 kHz	stereo	ab 160 Kbps	10:1
(* Mpeg 2.5 Erweiterung der Frauenhofer Gesellschaft)

Kodierungsmodell MP3:

Quelle: http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html

MPEG-2 (1994)

MPEG-2 Audio arbeitet wie MPEG-1 mit den gleichen Layern. Zusätzliche Erweiterungen:

Mehrkanaltechnik (3 x Front, 2 x Surround, 1 x Bass, 7 x Kommentar/unterschiedliche Sprachen)
Verbesserte räumliche Darstellung
Erweiterung für niedrige Bitraten (16, 22.05 or 24 kHz)
"Mpeg 2.5"-Erweiterung: Bessere Egebnisse durch Beschränkung der bei Bandbreite (Samplerate) bei niedrigen Bitraten: z.B. 8 KHz bei 8 kBit Bitrate
AAC (Advanced Audio Coding) wird als Teil des MPEG spezifiziert

Neben den MPEG-Layern gibt es noch eine Reihe weiterer Kompressionsverfahren wie Vorbis oder Windows Media Audio. Siehe hierzu z.B.: c't-Magazin für Computertechnik, Heft 19/2002, S. 94-109.

MPEG-4 (1998)

Für den Audio-Konsumerbereich sind hier zwei Spezifikationen interessant:

weitere Stärkung des AAC-Komprimierungsverfahrens als 'bessere Konkurrenz' zum etablierten MP3-Verfahren,
das MP4 Containerformat, das es erlaubt, Dateien verschiedener Codecs (darunter AAC und MP3) mit weiteren Informationen und DRM-Funktionen zu 'verpacken'. Es basiert auf Apples QuickTime-Format und bringt so Apple-Produkten einen gewissen Entwicklungsvorsprung. (s.a. MP4 Artikel in Wikipedia)

weitere Audio Codecs (wikipedia links)

WMA (Windows Media Audio)
AAC (Advanced Audio Coding)
ATRAC
OGG
verlustfreie Audiokompression

Digital Rights Management (wikipedia links)

RealAudio

nicht offengelegtes Streaming- und Kompressionsverfahren
Synchronisation von Audio und Video
Interpolation fehlender Datenpäckchen
Protokolle: PNA (bis RealAudio 5.0); RTSP (ab RealAudio G2) auf UDP und/oder TCP
Streaming in Verbindung mit Real Server
Metafiles (*.ram)
Bandwidth Negotiation
Multicasting

Streaming

Als Streaming bezeichnet man Datenübertragungsverfahren, bei denen die Wiedergabe der übertragenen Dateien bereits während der Übertragung erfolgt. Auch bei Mp3-Dateien ist ein Abspielen während des Downloads möglich, Vor/Zurückspulen, Anpassung der Qualität an die zur Verfügung stehende Bandbreite sind allerdings nur durch spezifiische Client/Server-Technik möglich.

Bandwidth Negotiation

Bei der Bandwidth Negotiation werden zwischen Server und Client ständig Daten über die momentane Datenübertragungsrate ausgetauscht, um bei anhaltend zu niedrigen Übertragungsraten auf eine Datei auszuweichen, für die die momentane Verbindungsqualität ausreicht.

UDP/TCP

Im Gegensatz zu den meisten anderen Dateien (Texte, Programmdateien, etc.), hat die Vollständigkeit der Übertragung bei den Multimediainhalten Audio/Bild/Bewegtbild eine geringere Bedeutung. Einzelne Inkonsistenzen können durch geschickte Interpolation verdeckt werden.
Die Anforderung eines Mutlimediaclips durch den RealPlayer geschieht durch eine bidirektionale TCP-Verbindung (Transmission Control Protocol). Die Multimediadaten werden dann auf einem schnelleren UDP-Kanal (User Datagram Protocol) vom Server gesendet. UDP setzt wie TCP auf IP (Internet Protocol) auf, gewährleistet allerdings keine Verifikation der Vollständigkeit einer Übertragung. Pakete, die überhaupt nicht oder nicht rechtzeitig beim Player ankommen, werden interpoliert. Zur Steuerung des Multimedia-Streams bleibt die TCP/IP Verbindung zwischen Client (RealPlayer) und dem RealServer erhalten.

Fazit: wichtigste Verfahren und ihre Verwendung

Sieht man von Real Audio, das ein wenig in die Jahre gekommen ist, und Ogg Vorbis, das wir als Open Source Projekt mit hoffentlich zunehmender Verbreitung unterstützen, ab, so haben sich für die Musikdistribution im Internet zur Zeit folgende Formate durchgesetzt:

MP3 (=MPEG 1; Layer 3) als gängigstes DRM-freies Dateiformat; Dateiendung .mp3
MP3 erlaubt als Kompressionscodec keine erweiterten Funktionen, selbst die bekannten ID3-Tags mit Angabe von Artist, Title etc. sind nur durch einen Trick möglich. Allerdings können die Dateien - wie jede andere Datei auch - mit einem Watermark (z.B. beim Kauf) 'gestempelt' werden
MP4 (=Container mit oder ohne DRM + meistens MP3 oder AAC codierten Daten) als neueres praktisches Containerformat mit hochwertig und effizient codierten Inhalten; Dateiendungen .mp4, .m4a (audio), .m4p (protected audio)
Beispiel: Audiodateien aus dem iTunes-Shop bestehen aus einem MP4 Container mit Apples DRM FairPlay und AAC codierten Inhalten
WMA (=Microsofts proprietäres Audiokompressionsformat mit integrierter DRM Funktionalität); Dateiendungen .wma, .asf (advanced streaming format=streaming container für wma und anders codierte Daten)
WMA ist eng an das Windows-Betriebssystem gebunden, inzwischen erlauben jedoch auch Programme wie iTunes die Konvertierung von nicht DRM beschränkten WMAs in andere Formate

Druckversion XHTML