Co je to MP3?

V druhé kapitole našeho seriálu o formátu MP3 se alespoň letmo seznámíme s některými pojmy a principy MP3 komprimace zvuku.
MP3 vyjadřuje ve zkratce "MPEG Audio Layer 3", pojem, který označuje světový standard pro komprimaci zvuku. Má ho na svědomí tzv. Motion Picture Experts Group (MPEG) vytvořená při Mezinárodní organizaci pro standardizaci (ISO). Úkolem této odborné skupiny je vývoj a mezinárodní sjednocení komprimovaných formátů určených pro přenos, vysílání a ukládání videa i zvuku. Schválené komplexní formáty se nazývají MPEG-1 a MPEG-2. Součástí těchto standardů je komprimovaná zvuková složka nazývaná Layer (vrstva) I až III. Samostatná zvuková složka typu Layer III, který nabízí nejvyšší kompresi, se stala základem populárního formátu MP3 (občas se můžete setkat i s MP2 soubory, jejichž základem je Layer II).

Komprese dovoluje dosáhnout nízkou rychlost datového toku (bitrate), jež vyjadřuje počet bitů, které využívá jedna sekunda zvukových dat. Obvyklou hodnotou u MP3 souborů je 128 kb/s, což je považováno za dostatečné pro kvalitu blížící se CD. Pro srovnání - datový tok audio dat na kompaktním disku je 1.4 Mb/s.

Vývoj takové technologie byl velmi složitý a vyžadoval rozsáhlou mezinárodní spolupráci. Hlavním vývojovým pracovištěm se stal Fraunhoferův institut a univerzita v Erlangenu v Německu. Samotný princip komprimace zvuku je v zásadě prostý. Vychází z psychoakustického modelu, tedy ze způsobu, jakým člověk (jeho smyslové orgány a mozek) vnímají zvuk. Z uloženého zvuku se odstraní všechny neslyšitelné části a zbylé informace se uloží co nejúsporněji tak, aby z nich šel původní zvuk rekonstruovat (dekódovat).

Jedná se o ztrátovou kompresi - původní a rekonstruovaný zvuk nejsou shodné, z hlediska lidského vnímání jde však (v závislosti na kvalitě kódování) o rozdíl snesitelný, zanedbatelný či dokonce nerozlišitelný. Výsledek závisí na kvalitě kódování a na rychlosti datového toku. Obecně platí, že čím je rychlost datového toku vyšší, tím je zvuk kvalitnější a soubor rozsáhlejší. Proto byla jako kompromis mezi kvalitou a velikostí souboru konsensuálně zvolena zmíněná hodnota 128 kb/s.

Z vlastností, které omezují lidské vnímání zvuku, se využívá sluchového maskování - faktu, že člověk nerozlišuje slabší zvukový signál od silnějšího na sousedním kmitočtu. Dále se využívá maskovací efekt před a po silném zvuku, protože mozku trvá určitou krátkou dobu než zpracuje změnu zvukové úrovně okolo silného zvuku. Při rozhodování se bere v úvahu, že na některé oblasti zvukového spektra je lidský sluch nejcitlivější. Další úspory bitů se dosahuje zvláštním kódováním stereo kanálů, či odříznutím neslyšitelných frekvencí (pro většinu lidí horní část zvukového spektra do 20 kHz).