Einbindung in Internet und Multimedia
Anfallende Datenmengen
Zunächst sollte man sich verdeutlichen, welche Datenmengen bei der Digitalisierung von Musik anfallen.
Eine Sekunde Stereo Signal entspricht:
44,1 kHz | 22 kHz | 11 kHz | |
16 Bit | 176 KByte/s 1.411 KBit/s |
88 KByte/s 704 KBit/s |
44 KByte/s 352 KBit/s |
12 Bit | 132 KByte/s 1.058 KBit/s |
66 KByte/s 528 KBit/s |
33 KByte/s 264 KBit/s |
8 Bit | 88 KByte/s 705 KBit/s |
44 KByte/s 352 KBit/s |
22 KByte/s 176 KBit/s |
Ein Stück mit 3,40 Min in CD-Qualität (44,1 kHz/16 Bit) umfaßt beispielsweise rund 38 MB. Für eine Einbindung in Multimedia- oder Internetanwendungen ist diese Datenmenge nicht praktikabel.
Es ist demnach notwendig, den Umfang der Audiodaten zu reduzieren. Eine Reduktion durch Herabsetzen von Samplingfrequenz und -auflösung (wie in obiger Tabelle zu ersehen) führt zu unerwünschten Nebeneffekten (Abtasttheorem, Quantisierungsrauschen).
Auch durch einen der herkömmlichen nondestruktiven Datenkomprimierungsalgorithmen (Zip, Lharc, Rar, etc.), läßt sich aufgrund der komplexen Strukturen von Audiodaten meist nur eine Reduktion um 5-20% erreichen. Daher wurden für die Speicherung und Ubertragung von Audiosignalen spezielle Verfahren entwickelt.
Verlustlose Datenkompression
Die verlustlose Datenkompression basiert auf Verfahren der linearen Prädiktion mit nachfolgender Entropiecodierung.
Bei der linearen Prädiktion wird für einem Block von Abtastwerten ein Koeffizientensatz bestimmt, auf dessen Grundlage eine Schätzung der Folge der Abtastwerte (Amplitudenverlauf) erfolgt. Je genauer die Schätzung mit dem tatsächlichen Verlauf übereinstimmt, desto geringer ist die Amplitude des Differenzsignals.
Bei der Entropiecodierung wird dann das Differenzsignal in Abhängigkeit von der Verteilungsdichtefunktion des Blocks quantisiert. Abtastwerten mit großer Häufigkeit werden mit kurzen Datenworten, Abtastwerten mit geringer Häufigkeit werden mit längeren Datenworten codiert.
Schließlich wird aus dem bestimmten Koeffizientensatz und dem entropiecodierten Differenzsignal ein Rahmen gebildet, der alle Informationen für die Decodierung beinhaltet.
Die dadurch ereichbaren mittleren Kompressionsraten erlauben in Abhängigkeit von der Statistik des Audiosignals eine Datenreduktion bis 50%.
Verlustbehaftete Datenkompression
Verlustbehaftete Codierungsverfahren ermöglichen unter Ausnutzung psychoakustischer Phänomene wesentlich höhere Kompressionsraten. Allerdings ist die Nachbearbeitung bereits komprimierter Signale sowie die mehrfache Codierung/Decodierung mit zusätzlichen Problemen behaftet.
Diese Codierungsverfahren basieren meist auf folgenden Einzelschritten:
- Teilbandzerlegung mit Filterbänken kurzer Latenzzeiten
- Bestimmung psychoakustischer Modellparameter basierend auf einer Schätzung der Kurzzeitspektren mit der FFT
- Dynamische Bitzuweisung aufgrund psychoakustischer Modellparameter
- Quantisierung und Codierung der Teilbandsignale
- Zusammensetzung des Datenformats (Rahmen-Bildung)
Beispiel MP3 (nach Wikipedia)
- Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden.
- Nicht hörbare Frequenzen – das für einen Erwachsenen erfassbare Spektrum deckt etwa den Bereich 20 Hz bis 18 kHz ab – werden im fouriertransfomierten Datenmaterial abgeschnitten. Das ist auch wegen des Abtasttheorems notwendig. Wenn mit niedrigerer Frequenz als 44 kHz abgetastet wird, muss die Grenzfrequenz noch weiter reduziert werden, zum Beispiel auf 10 kHz bei 22 kHz Abtastfrequenz.
- So genannte Maskierungseffekte werden genutzt, um weitere Redundanz zu beseitigen. Dabei werden vom Menschen nicht wahrgenommene Töne aus dem Signal weggelassen (zum Beispiel sehr leise Töne in lauter Umgebung oder auch die Obertöne über 20kHz)…
- Die Daten, die in sog. Frames vorliegen, werden schließlich Huffman-entropiekodiert.
Psychoakustische Grundlagen
Die Ergebnisse psychoakustischer Untersuchungen von Zwicker bilden die Grundlage zur gehörangepaßten Codierung (Perceptual Coding) von Musiksignalen. Das menschliche Gehör analysiert breitbandige Schallereignisse in sogenannten Frequenzgruppen. Bei der psychoakustischen Codierung wird das Audiosignal anhand der Frequenzgruppen zerlegt und die resultierenden Teilbänder unter Berücksichtigung der absoluten Hörschwelle und von Verdeckungseffekten codiert
Absolute Hörschwelle
Die absolute Hörschwelle ist der Verlauf des Schalldruckpegels in Abhängigkeit von der Frequenz, unterhalb derer keine Signale wahrgenommen werden können.
Verdeckungseffekte
Als Verdeckungseffekt wird die Eigenschaft des menschlichen Gehörs bezeichnet, einer Frequenz mit hohem Pegel benachbarte Frequenzen mit niedrigerem Pegel nicht wahrzunehmen.
Erklingt beispielsweise ein Ton mit 440 Hz bei einer Lautstärke von 60 dB, bleiben in seinem Band alle anderen Frequenzen die leiser als 35 dB sind - also auch das Rauschen - unhörbar. Der notwendige Rauschabstand beträgt demnach nur noch 25 dB und dafür reichen 4 Bit Auflösung aus.
MPEG
Das Akronym MPEG steht für "Motion Pictures Experts Group". Man bezeichnet damit eine von der International Standards Organization (ISO) und der International Electro-Technical Commission (IEC) anerkannte Sammlung von standardisierten Verfahren und Formaten im digitalen Video- und Audiobereich.
MPEG-1 Audio definiert u.a. drei Coder/Decoder, die als Layer I-III bezeichnet werden. Die Algorithmen sind hierarchisch kompatibel, wodurch der Decoder des Layer n in der Lage ist, Signale des Layer n und der darunter zu dekodieren. Die Komplexität der Coder und Decoder steigt mit der Ziffer des Layer, womit eine bessere Qualität bei erhötem Rechenaufwand erreicht wird. Die Bitraten des Ausgangssignals sind auf 32, 44.1 und 48 kHz begränzt.
MPEG-1 (1992)
Layer I
- Aufsplitten des Audio-Signals in 32 Frequenzbänder
- fixe Segmentierung der Datenblöcke
- psychoakustisches Modell zur Bestimmung der Quantisierung
- Bitraten von 386 kbps Stereo bei subjektiver CD-Qualität
- zusätzliche Kodierung der Bit-Allokation, Skalierungsfaktoren und Samples
- Bitraten von 256 kbps Stereo bei subjektiver CD-Qualität
- Erhöhung der Frequenzauflösung durch eine hybride Filterbank
- andere Quantisierungsalgorithmen
- adaptive Segmentierung
- Entropie-Kodierung der quantisierten Werte
- Bitraten von 128 kbps Stereo bei subjektiver CD-Qualität
- Als Mp3
Zur Informationsseite des Fraunhofer IIS (MPEG1 Layer 3)
Das Layer III Verfahren hat in den letzten Jahren enorm an Bedeutung gewonnen. Es wurde ab 1987 vom EUREKA Projekt EU147 "Digital Audio Broadcasting (DAB)" entwickelt. Entscheidend war dabei die Arbeit der Universität Erlangen (Prof. Dieter Seitzer, Frauenhofer Gesellschaft). Die Qualität ist bei einer Bitrate von unter 128 KBit/s so hoch, daß es beim MoD-Dienst der Telekom und für die DVD (Europa) angewandt wird.
Typische Performance Daten von MPEG-1/2 Layer III:
Subjektive Quality | Bandbreite | Mode | Bitrate | Kompression |
"telephone sound" | 2.5 kHz | mono | 8 Kbps*) | 96:1 |
"Besser als Kurzwelle" | 4.5 kHz | mono | 16 kbps | 48:1 |
"Besser als Mittlewelle" | 7.5 kHz | mono | 32 Kbps | 24:1 |
"Ähnlich wie UKW" | 11 kHz | stereo | 56...64 Kbps | 26...24:1 |
"CD nahe" | 15 kHz | stereo | 96 Kbps | 16:1 |
"CD nahe" | 15 kHz | stereo | 112..128 Kbps (128Kbps: Internetstandard) |
14..12:1 |
"CD" | 15 kHz | stereo | ab 160 Kbps | 10:1 |
(* Mpeg 2.5 Erweiterung der Frauenhofer Gesellschaft) |
Kodierungsmodell MP3:
Quelle: http://www.iis.fraunhofer.de/amm/techinf/layer3/index.html
MPEG-2 (1994)
MPEG-2 Audio arbeitet wie MPEG-1 mit den gleichen Layern. Zusätzliche Erweiterungen:
- Mehrkanaltechnik (3 x Front, 2 x Surround, 1 x Bass, 7 x Kommentar/unterschiedliche Sprachen)
- Verbesserte räumliche Darstellung
- Erweiterung für niedrige Bitraten (16, 22.05 or 24 kHz)
- "Mpeg 2.5"-Erweiterung: Bessere Egebnisse durch Beschränkung der bei Bandbreite (Samplerate) bei niedrigen Bitraten: z.B. 8 KHz bei 8 kBit Bitrate
- AAC (Advanced Audio Coding) wird als Teil des MPEG spezifiziert
Neben den MPEG-Layern gibt es noch eine Reihe weiterer Kompressionsverfahren wie Vorbis oder Windows Media Audio. Siehe hierzu z.B.: c't-Magazin für Computertechnik, Heft 19/2002, S. 94-109.
MPEG-4 (1998)
Für den Audio-Konsumerbereich sind hier zwei Spezifikationen interessant:
- weitere Stärkung des AAC-Komprimierungsverfahrens als 'bessere Konkurrenz' zum etablierten MP3-Verfahren,
- das MP4 Containerformat, das es erlaubt, Dateien verschiedener Codecs (darunter AAC und MP3) mit weiteren Informationen und DRM-Funktionen zu 'verpacken'. Es basiert auf Apples QuickTime-Format und bringt so Apple-Produkten einen gewissen Entwicklungsvorsprung. (s.a. MP4 Artikel in Wikipedia)
weitere Audio Codecs (wikipedia links)
- WMA (Windows Media Audio)
- AAC (Advanced Audio Coding)
- ATRAC
- OGG
- verlustfreie Audiokompression
Digital Rights Management (wikipedia links)
RealAudio
- nicht offengelegtes Streaming- und Kompressionsverfahren
- Synchronisation von Audio und Video
- Interpolation fehlender Datenpäckchen
- Protokolle: PNA (bis RealAudio 5.0); RTSP (ab RealAudio G2) auf UDP und/oder TCP
- Streaming in Verbindung mit Real Server
- Metafiles (*.ram)
- Bandwidth Negotiation
- Multicasting
Streaming
Als Streaming bezeichnet man Datenübertragungsverfahren, bei denen die Wiedergabe der übertragenen Dateien bereits während der Übertragung erfolgt. Auch bei Mp3-Dateien ist ein Abspielen während des Downloads möglich, Vor/Zurückspulen, Anpassung der Qualität an die zur Verfügung stehende Bandbreite sind allerdings nur durch spezifiische Client/Server-Technik möglich.
Bandwidth Negotiation
Bei der Bandwidth Negotiation werden zwischen Server und Client ständig Daten über die momentane Datenübertragungsrate ausgetauscht, um bei anhaltend zu niedrigen Übertragungsraten auf eine Datei auszuweichen, für die die momentane Verbindungsqualität ausreicht.
UDP/TCP
Im Gegensatz zu den meisten anderen Dateien (Texte, Programmdateien, etc.), hat die Vollständigkeit der Übertragung bei den Multimediainhalten Audio/Bild/Bewegtbild eine geringere Bedeutung. Einzelne Inkonsistenzen können durch geschickte Interpolation verdeckt werden.
Die Anforderung eines Mutlimediaclips durch den RealPlayer geschieht durch eine bidirektionale TCP-Verbindung (Transmission Control Protocol). Die Multimediadaten werden dann auf einem schnelleren UDP-Kanal (User Datagram Protocol) vom Server gesendet. UDP setzt wie TCP auf IP (Internet Protocol) auf, gewährleistet allerdings keine Verifikation der Vollständigkeit einer Übertragung. Pakete, die überhaupt nicht oder nicht rechtzeitig beim Player ankommen, werden interpoliert. Zur Steuerung des Multimedia-Streams bleibt die TCP/IP Verbindung zwischen Client (RealPlayer) und dem RealServer erhalten.
Fazit: wichtigste Verfahren und ihre Verwendung
Sieht man von Real Audio, das ein wenig in die Jahre gekommen ist, und Ogg Vorbis, das wir als Open Source Projekt mit hoffentlich zunehmender Verbreitung unterstützen, ab, so haben sich für die Musikdistribution im Internet zur Zeit folgende Formate durchgesetzt:
- MP3 (=MPEG 1; Layer 3) als gängigstes DRM-freies Dateiformat; Dateiendung .mp3
MP3 erlaubt als Kompressionscodec keine erweiterten Funktionen, selbst die bekannten ID3-Tags mit Angabe von Artist, Title etc. sind nur durch einen Trick möglich. Allerdings können die Dateien - wie jede andere Datei auch - mit einem Watermark (z.B. beim Kauf) 'gestempelt' werden - MP4 (=Container mit oder ohne DRM + meistens MP3 oder AAC codierten Daten) als neueres praktisches Containerformat mit hochwertig und effizient codierten Inhalten; Dateiendungen .mp4, .m4a (audio), .m4p (protected audio)
Beispiel: Audiodateien aus dem iTunes-Shop bestehen aus einem MP4 Container mit Apples DRM FairPlay und AAC codierten Inhalten - WMA (=Microsofts proprietäres Audiokompressionsformat mit integrierter DRM Funktionalität); Dateiendungen .wma, .asf (advanced streaming format=streaming container für wma und anders codierte Daten)
WMA ist eng an das Windows-Betriebssystem gebunden, inzwischen erlauben jedoch auch Programme wie iTunes die Konvertierung von nicht DRM beschränkten WMAs in andere Formate