Tuesday, October 29, 2013

DIGITAL IMAGE CODING

Kompresi citra merupakan suatu aplikasi dari teknik kompresi gambar digital dua dimensi l(x,y) untuk mengurangi redudansi data gambar dalam penyimpanan atau transmisi dalam bentuk yang lebih efisien. Kompresi gambar dapat diklasifikasikan ke dalam dua kategori, yaitu:
·         Lossless
Kompresi lossless mempunyai rasio kompresi yang lebih kecil dibandingkan dengan kompresi lossy, kompresi ini memiliki kelebihan pada gambar yang mempunyai distribusi probabilitas seragam untuk sebuah representasi panjang variable dari pixel gambar. Jenis kompresi ini biasa digunakan untuk menggambar teknis, ikon atau komik, foto atau gambar untuk keperluan medis, dan gambar scan untuk keperluan arsip.
·         Lossy
Kompresi lossy mempunya rasio kompresi yang sangat tinggi, di mana ketika mencapai suatu rasio tertentu dapat disebut sebagai kompresi artifact. Teknik kompresi ini baik untuk digunakan pada gambar – gambar natural, seperti foto.

BASIC OF INFORMATION THEORY FOR IMAGE COMPRESSION



Setiap simbol dapat direpresentasikan menjadi m­-tuple (m-dimensional), dan difenisikan dengan:
ENTROPY CODING
Entropy coding merupakan skema pengodean yang memberikan kode pada simbol untuk mencocokkan panjang kode dengan probabilitas dari simbol. Entropy encoder biasanya digunakan untuk kompresi data dengan mengganti simbol yang memiliki panjangan kode sama dengan simbol diwakili oleh kode yang panjang setiap codeword sebanding dengan probabilitas logaritma negatif. Oleh karena itu, simbol yang paling umum menggunakan kode terpendek. Dua teknik penkodean entropi yang paling popular ada Huffman coding dan arithmetic coding.

Huffman Coding

Dikembangkan oleh David A. Huffman, sebuah entropy encoding algoritma yang digunakan untuk kompresi data lossless. Teknk ini bekerja dengan menggunakann variable length binary code untuk encoding satu set simbol. Tabel variable length code didasarkan pada perkiraan terjadinya probabilitas dari setiap nilai yang mungkin dari simbol. Huffman coding menggunakan metode khusus untuk menentukan representasi setiap simbol dan hasilnya di dalam sebuah prefix. Huffman code menggambarkan simbol yang memiliki frekuensi paling tinggi / paling sering keluar dengan bit string yang lebih pendek dibandingkan yang memiliki frekuensi keluar rendah. Huffman metode kompresi paling efisien pada tipe ini.
Huffman coding sering digunaan sebagai ”back – end” dengan beberapa metode kompresi lainnya. PKZIP codec dan beberapa codec multimedia seperti JPEG dan MPG memiliki front-end skema kompresi lossy yang diikuti oleh lossless huffman coding. Beberapa sifat properti yang terkait dengan Huffman code:
1.      Blok Code
Setiap simbol dipetakan ke dalam urutan sekuen yang tetap (variable - length) kode simbol, tanpa perubahan yang dinamis selama berlangsungnya penggabungan simbol
2.      Instantaneous (Prefix – Free) Code
Decoding  terjadi tanpa mengacu pada urutan simbol tersebut.
3.      Uniquely decodable
Setiap string dari kode simbol diterjemahkan dalam satu cara
4.      Close to Entropy
Rata – rata panjangan kode L, dekat dengan ekspektasi jumlah yang diharapkan dari informasi, entropi H

Arithmetic Coding

Meskipun Huffman coding optimal untuk pengkodean setiap simbol dengan input distribusi probabilitas yang diketahui, arithmetic coding terkadang memiliki kemampuan kompresi yang lebih baik. Dalam penerapanya, arithmetic coding dimulai dengan Huffman coding karena lebih mudah untuk menemukan arithmetic coding dengan menggunakan biner. Arithmetic coding terdiri dari non-block code dengan korespondensi satu – satu antara source dan simbol codeword dari Huffman.
Algoritma kompresi yang menggunakan arithmetic coding dimulai dengan menentukan model probabilistic dari data yaitu dengan memprediksi pola yang akan ditemukan dalam simbol – simbol pesan. Semakin akurat prediksi yang dihasilkan, maka output yang dihasilkan akan semakin optimal.

Context Adaptive Binary Arithmetic Coding (CABAC)

CABAC merupakan teknik yang efisien untuk kondisional entropy coding. Teknik ini biasanya diterapkan pada pengkodean gambar untuk kompresi dokumen level bi (bi-level documents), contohnya gambar hitam dan putih atau gambar faks. Umumnya di dalam CABAC, sebuah array dari variabel dengan masing – masing nilai terkait didefinisikan untuk mewakili distribusi probabilitas yang berbeda (geometris). Sistem CABAC menerapkan mekanisme adaptasi sensitif backward untuk menghitung probabilitas input binary symbol.

Run – Length Coding (RLC)

Skenario yang buruk dari Huffman coding akan terjadi ketika probabilitas dari sebuah simbol lebih besar dari 2-1 – 0.5. Hal ini juga akan terjadi ketika dua source simbol dengan probabilitas yang tidak sama ter-encoded. Kedua situasi ini akan lebih baik jika di-encode menggunakan arithmetic coding atau RLC. RLC akan meng-encode sekuen dari simbol binary dengan data yang berjalan. RLC akan bekerja dengan method lossless coding yang merekam jalannya satuan nilai data dan menghitung lebih akurat dari yang sebelumnya dijalankan.
RLC encoding biasanya dikombinasikan dengan teknik lain, seperti Huffman coding untuk menghasilkan teknik kompresi data yang sangat efisien. RLC method juga dapat digunakan dalam kasus dua dimesi, ketika diketahui alamat pengkodean realatif (RAC) yang biasa digunakan di JBIG2 untuk kompresi dokumen fax bewarna. Penggunaan RLC lebih jauh di manfaatkan pada sekuen multiple simbol dengan satu simbol yang memilii probabilitas lebih tinggi dibandingkan dengan simbol lainnya.

LOSSY IMAGE COMPRESSION
Kompresi lossless tidak cukup baik untuk melakukan kompresi pada gambar yang memiliki bitrate rendah. Melihat kebutuhan yang ada, melalui teknik kompresi lossy kita perlu melakukan pendekatan lebih yang memperhatikan distorsi dan sinyal dari proses kuantisasi. Kuantisasi dapat dijalankan secara spasial atau pada transformasi domain. Hampir semua contoh spasial / transformasi domain dari suatu gambar dapat diasumsikan dengan nilai yang dapat dijelaskan.
Kuantisasi merupakan sebuah non-linear dan operasi irreversible yang dipetakan secara berkelanjutan dalam suatu nilai skalar, yang di mana level dari indeks dapat direpresentasikan dengan sebuah nilai finite number L dari bit. Terdapat dua tipe berbeda dari kuantisasi:
a.       Uniform Quantization
Mendefinisikan set finite dari nilai yang dikombinasikan dengan ruang tertentu untuk memilih bentuk
b.      Non – Uniform Quantization
Terbagi secara tidak beraturan dengan range kuantisasi 2z level yang mungkin dengan ruang yang berbeda
JOINT PHOTGRAPHIC EXPERTS GROUP (JPEG)
JPEG merupakan salah satu standar pengkodean gambar yang cukup terkenal dan komprehensif. Nama JPEG diambil dari komite yang menciptakan kompresi gambar dengan teknik lossy standar ISO/IEC 10918-1/2/3 pada tahun 1994 yang dilanjutkan dengan pewarnaan grayscale dan non-grayscale.
Banyak parameter yang terasosiasi dengan teknik kompresi JPEG. Dengan merubah suatu parameter , dapat menyebabkan ukuran gambar yang dikompres merekonstruksi kualitas dalam range yang cukup besar. Biasanya threshold yang terlihat berbeda dari gambar yang sebenarnya dari rasio kompresi berada di sekitas 10 hingga 20, 1 hingga 2 bit per pixel warna.
Terdapat 3 perbedaan melakukan pengkodean menggunakan mode JPEG, yaitu:
1.      A Lossy Baseline Mode, biasa disebut sebagai penggunaan sekuensial dasar dengan menggunakan teknik kompresi berdasarkan DCT hampir di semua aplikasi. Gambar ter-encode dengan menggunakn single left-to-right, top-tobottom scan.
2.      An Extended Coding Mode, digunakan untuk kompresi dengan hasil yang baik dan ketelitian yang lebih tinggi. Gambar ter-encode dengan menggunakan multiple scan / multiple coarse-to-clear-passes.
3.      A Losssless Encoding Mode, gambar ter-encode dengan ekstrak recovery setiap contoh nilai dari source, sekalipun kompresi ini sulit untuk dibandingkan dengan mode lossy.
DCT-based sequential berdasarkan enkoder:
DCT-based sequential berdasarkan dekoder:
Source Image Data Preparation: Chroma Subsampling

Block – Based Discrete Cosine Transform
Untuk setiap komponen gambar yang menggunakan atau tidak menggunakan chroma subsampling, kita akan mengelompokkan nilai pixel {f(x,y)} menjadi 8 x8 blok untuk discrete transform (DCT), di mana menghasilkan nilai yang sebenarnya dan energy compact frekuensi yang dipetakan {F(u,v)} dari data dua dimensi. Penggunaan DCG digunakan pada informasi yang berfrekuensi tinggi yang tidak terlihat seperti informasi berfrekuensi rendah. Forward DCT (FDCT) dan Inverse DCT (IDCT) untuk 8x8 blok gambar, ditunjukkan dengna persamaan:

 Quantization of DCT Coefficients
Setelah mendapatkan hasil dari FDCT, masing masing 64 koefisien DCT F(u,v), dikuantisasi menggunakan prespecified 64 element yang di dapat dari tabel kuantisasi (normalisasi matrix). Kuantisasi proses ditunjukkan dengan persamaan:
Objektif dari langkah – langkah kuantisasi untuk menghilangkan informasi yang terlihat tidak signifikan. Koefisien berfrekuensi tinggi terkuantisasi lebih akurat dibandingkan dengan yang berfrekuensi rendah. Dekuantisasi merpakan fungsi invers yang mengambil koefisien FDCT dikalikan dengan ukuran langkah Q(u,v) yang mengembalikan hasil untuk representasi nilai yang dijadikan sebagai masukan ke IDCT.

DC Coding and Zigzag Sequence

Hasil dari kuantisasi, koefisien DC biasanya memiliki nilai yang cukup besar. Karena adanya korelasi yang kuat antara koefisien DC pada matriks adjensi 8x8 blok, koefisien DC yang terkuantisasi ter-encode berbeda dari DC yang sebelumnya ada pada blok di encoding order. Terakhir, semua koefisien kuantisasi tersusun menjadi zigzag sekuen.


Entropy Coding

Digunakan untuk memenuhi beberapa tambahan pada kompresi losslessly dengan meng-encode multiple-symbol menggunakan RLC sekuen, dari masing – masing karakteristik statisktik.

Header Information and JPEG Decoding

Dalam keadaan perubahan yang normal pada berkas JPEG, semua parameter kompresi berada di dalam header, sehingga decoder dapat mengembalikan proses. Parameter ini termasuk quantization table dan Huffman coding table.

Trading Off Compression and Picture Quality

Pada gambar berwarna dengan bagian yang cukup komplreks, semua mode berbasis operasi DCT biasanya akan menghasilkan kualitas gambar pada rentang kompresi tertentu. “Bit per pixel” menunjukkan jumlah bit yang dikompres pada gambar, termasuk komponen pencahayaan. Terbagi menjadi 4 rentang pencahayaan:
1.      0.25 – 0.5 bits/pixel
2.      0.5 - 0.75 bits/pixel
3.      0.75 – 1.5 bits/pixel
4.      1.5 – 2.0 bits/pixel
JPEG Progressive Mode
Mode JPEG progressive dibuat dengan tujuan untuk mendukung transmisi gambar secara real-time, di mana hasil yang memiliki kualitas rendah dapat dikirim dan diikuti dengan tetap cepat secara halus dalam waktu yang memungkinkan.
JPEG Hierarchical Mode
Mode ini digunakan untuk merepresentasikan sebuah gambar pada beberapa resolusi. Dengan menggunakan konsep skala spasial, gambar beresolusi tinggi dapat dikodekan sebagai perbedaan dari gambar berikutnya yang lebih kecil dan hanya membutuhkan sedikit bit jika dibandingkan disimpan secara independen pada resolusi yang lebih tinggi. Berikut langkah – langkah melakukan encoding:
1.      Mem-filter downsample dari gambar yang asli
2.      Meng-encode reduced-size menggunakan sekuens DCT, progresif DCT, atau lossless encode
3.      Decode reduced-size gambar
4.      Menggunakan gambar sebagai prediksi reslusi dari gambar yang asli
5.      Mengulangi langkah ke-3 dan ke -4
JPEG Lossless Mode
Mode JPEG ini tidak dapat digunakan pada DCT dikarenakan adanya kesalahan pembulatan oleh kuantisasi koefisien DCT.
JPEG Codestream
JPEG Codestream diilustrasikan sebagai berikut:


 
JPEG  2000
Meskipun penggunaan kompresi gambar menggunakan JPEG 2000 sudah sering digunakan, tetapi kompresi ini memiliki banyak sekali kekurangan, beberapa kekurangan tersebut diantaranya:
1.      Distortion and Artifacts
2.      Ineffective Handling of High Quality Images
3.      Lock of effective color-space support
4.      Ineffective Progressive and Hierarchical Modes
5.      Poor Lossless Compression Performance
Untuk menutupi kekurangan yang ada, makan diciptakan algoritma kompresi JPEG 2000. JPEG 200 merupakan standar kompresi gambar yang berbasis wavelet. Beberapa kelebihan JPEG 2000:
1.      Superior Compression Performance
2.      Multiple Resolution Representation
3.      Progressive Transmission by Pixel and Resolution Accuracy
4.      Lossless and Lossy Compression
5.      Random Codestream Access and Processing
6.      Error Resilecnce
7.      Sequential Buildup Capability
8.      Flexible File Format
Technical Overview of JPEG200
Preprocessing
Spesifikasi RCT:
Inverse RCT:
Discrete Wavelet Transform and Quantization
Lifting algoritma yang digunakan pada wavelet transform:
1.      Split step
2.      Lifting step
3.      Normalization step
Codeblock and Precinct Partition
Contoh parttisi dari wavelet subband
MINDMAP

Tuesday, October 22, 2013

DIGITAL AUDIO CODING

Sistem pendenganran manusia terdiri dari telinga dan otak. Proses masuknya audio terjadi dalam dua cara, yaitu fisiologis dan psikologis. Telinga terdiri dari tiga komponen fisiologis:
1.     Telinga luar, mengarahkan suara melalui saluran telinga menuju gendang telinga
2.    Telinga tengah merubah gelombang tekanan suara menjadi gerakan mekanis pada tiga tulang kecil / ossicles (palu, landasan, dan sanggurdi)
3.    Telinga bagian dalam / rumah koklea, merupakan struktur berbentuk spiral yang digunakan untuk pendengan manusia

HUMAN PSYCHOACOUSTICS

Suara manusia melibatkansifat – sifat psikologis, sebagai contoh telinga manusia merespon secara subyektif terhadap peningkatan volume. Pendengaran manusia memiliki range sekitar 110 desbibe (dB). Selain itu, telinga merespon perubahan volume yang terjadi, sebagai contoh ketika suara bass dapat didengar secara jelas dalam suatu pembicaraan ketika terjadi peningkatan volume / sekitar 60 dB. Berdasarkan sifat – sifat tersebut, terdapat beberapa bagian dari human psychoacoustics:
a.       Hearing sensitivity
Koklea yang terdapat pada telinga manusia dapat mendengar pada kisaran frekuensi 20 Hz – 20 kHz. Selain itu resolusi frekuensi yang dimiliki oleh telinga ktia akan menurun seiring dengan naiknya frekuensi. Oleh karena hal tesebut kita dapat menentukan batas minimum yang dapat didengar, di mana dideteksi sebagai noise oleh pendengar. Dengan mengetahui sensitivitas pada sistem pendengaran, kita memiliki keuntungan khususnya dalam hal kuantitas suara. Sebagai contoh pengambilan kuantitas suara pada proses kompresi data.
b.      Frequency masking
Berdasarkan persepsi pada telinga manusia, perbedaan channel frekuensi dapat saling menginterferensi satu dengan yang lain. Sebagai contoh misalnya kita memainkan beberapa nada pada frekeuensi tertentu pada saat yang bersamaan. Berdasarkan hasil observasi, suara yang paling keras akan membelokkan ambang suara yang lain sesuai dengan logaritma frekuensi dalam satuan kHz dan menjadikan suara terpelan (masked sound) yang tadinya terdengar menjadi tidak terdengar.Efek seperti ini yang disebut dengan frequency masking.


c.       Temporal masking
Tertimpanya suara lemah oleh suara yang lebih keras tidak hanya terjadi apabila suara yang lebih lemah muncul setelah suara yang lebih keras terdengar, tetapi suara lemah yang ada sebelum suara keras juga akan tertutupi oleh suara yang lebih keras. Kedua kondisi ini yang disebut post- ­dan pre-temporal masking.

SUBBAND SIGNAL PROCESSING & POLYPHASE FILTER IMPLEMENTATION
Karena adanya sifat frequency masking pada pendengaran manusia, representasi terbaik untuk mendengarkan diperoleh dengan menggunakan subband atau merubahfilter-bank. Dalam menganalisis masking, bitrate harus disiapkan dan diproses ke dalam frame yang telah ditentukan sinyal audio. Setiap bagianframe code suara mengandung code audio utama, tetapi pada beberapa bagian:
1.      Puncak level di setiap frekuensi subband
2.      Puncak masking di setiap subband
3.      Jumlah bit untuk setiap sampel di setiap subband
Encoder mengambil frame dan audio untuk memisahkannya menjadi beberapa subband dengan tidak terjadi overlap menggunakan filter bank yang mencakup seluruh rentang frekuensi suara.Encoderakan merepesentasikan kuantitas contohsubband, format data,beserta informasi tambahan menjadi code bitstream. Sedangkan, decoder berfungsi untuk membalikkan operasi dari encoder dan mengembalikan kuantitas dan pemadatan bitstream ke frame audio sample.

MPEG-1 AUDIO LAYERS
MPEG-1 (Moving Picture Expert Group) merupakan algoritma kompresi audio yang digunakan sebagai standar internasional pertama  untuk kompresi digital dari high-fidelity audio, diadopsi oleh ISO/IEC PADA AKHIR 1992. Terdapat 3 layer kompresi pada MPEG-1, yaitu:
1.       Layer 1Memiliki kompleksitas paling rendah dan bitrate tertinggi, antara 32-224 kbps per channel dengan target bitrate 192 kbps per channel. Digunakan pada Philip’ Digital Compact Cassette (DCC).
2.       Layer 2Memiliki kompleksitas menengah dan ditargetkan untuk bitrate dengan sekitar 128 kbps per channel.Digunakan pada sinkronisasi penyimpanan video dan audio sekuen pada CD-ROM, full-motion pada CD interkatif (CD-I), permainan multimedia, VCDs, dan DVDs.
3.       Layer 3Memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik, terutama untuk bitrate sekitar 64 kbps per channel, biasanya dinamakan dengan format MP3.
Polyphase Implementation of MPEG-1 Filter Bank
Flow diagram dari ISO MPEG-1 audiostandard filter bank:
MPEG-1 Audio Psychoacoustics
Mengambil keuntungan dari sistem pendengaran manusia yang bergantung pada karakteristik frekuensi dikarenakan adanya masking threshold (untuk frequency masking / temporan masking) pada setiap frekuensi yang diberikan bergantung pada energy sinyal yang terbatas pada frekuensi – frekuensi tersebut untuk mendapatkan kompresi yang paling efisien.
Signal-To-Mask Ratios (SMRs) merupakan rasio dari kekuatan sinyal jangka pendek di setiap subband untuk layer 3 dan ambang masking minimum untuk subband tersebut. Setelah melakukan pemetaan frekuensi berdasarkan Fast Fourier Transform (FFT) terdapat beberapa langkah yang diperlukan untuk melakukan psychoacoustics:
1.      Menggrupkan nilai spectral sesuai dengan critical bandwith
2.      Memisahkan nilai spectral menjadi komponen tonal dan non-tonal berdasarkan puncak spectrum daya audio
3.      Memisahkan berdasarkan komponen tonal dan non-tonal, secara empiris akan menentukan fungsi masking untuk menentukan ambang masking  di seluruh audio yang ada di spectrum
4.      Mengatur batas bawah kemampuan mendengar suara secara empiris menentukan ambang masking mutlak
5.      Mencari ambang untuk setiap masking
6.      Menghitung rasio SMR dan memasukkan nilai yang didapat ke dalam bit (noise) pada alokasi encoder.
Layer3 Audio Bit Allocations
Inner (rate) iteration loop for MP3 rate control:



  Outer (noise and distortion) iteration loop for MP3 rate control:
Perulangan inner dan outer loop akan berakhir ketika terdapat beberapa kondisi berikut:
1.      Tidak adanya  faktor skala subbandayang melebihi distorsi yang diperbolehkan
2.    Iterasi yang terjadi berikutnya akan menyebabkan pengerasan pada subband lain sehingga melebihi nilai yang diperbolehkan
3.      Iterasi selanjutnya akan menyebabkan semua faktor skala subband diperkuat
DOLBY AC3 AUDIO CODEC
Untuk mendapatkan hasil audio yang bersifat superior codingpada multichannel surround sound untuk dapat dimanfaatkan sebagai HDTV tetapi membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo, maka Dolby Inc. mengusulkan dan mengembangkan teknologi AC3 untuk DVD, HDTCV, home theatre system, dan sebagainya.Codec  audio AC3 mengikuti rekomendasi yang dibuat oleh masyarakat untuk SMPTE dengan target bitrate 320 kbps yang diharapkan mampu memberikan kualitas suara  dengan format 70 mm surround-sound yang digunakan pada film sejak 1979. AC3 juga meggunakan psychoacoustic untuk menutupi signal audio yang tidak terdengar.
 Bit Allocation in AC3
Dalam penerapannya, AC3 menggunakan metode backward adaptive.Metode ini bekerja denganmerubah informasi alokasi bit dari codec audio data tanpa menrubah informasi dari encoder. Proses encoding pada AC3 terdiri atas 6 langkah, yaitu:
a.     Melakukan transformasi dari 512 blok yang overlap menjadi sekuen – sekuen frequency-coefficient blok. Masing – masing frekeuensi direpresentasikan sebagai eksponen dan mantisa.
b.      Set dari eksponen di-encode menjadi representasi kasar dari sebuah sinyal spectrum, spectral envelope.
c.       Spectral envelope digunakan untuk mendeteriminasi banyaknya bit yang akan digunakan untuk meng-encode masing – masing mantisa.
d.      Mantisa kemudian dikuantisasi berdasarkan alokasi bit.
e.       Spectral envelope dan mantisa akan dikuantisasi menjadi 6 blok (256 x 6 - 1536) yang akan diformat menjadi AC3 frame.
f.        AC3 bitstream (32 – 640 kbps) merupakan sekuen dari AC3 frame.
Filter Bank
Alokasi bit dapat terjadi pada suatu transformasi berbagi koefisien pada alokasi yang sama atau pada level individu, koefisien yang berdekatan tetapi menerima alokasi yang berbeda.
Spectral Envelope
Setiap koefisien transformasi dikodekan ke dalam bentuk eksponen dan mantisa. Hal tersebut memungkinkan terjadinya dynamic range sementara mantisa sendiri dikodekan dengan presisi terbatas hal ini akan menyebabkan terjadinya kuantisasi noise.Satu set kode eksponen yang direpresentasikan dalam bentuk sinyal spectrum secara keseluruhan akan disebut sebagai spectral envelope.Spectral envelope dikirim setiap 6 blok sekali denganaudio (32 ms), dimana rata – rata data yang dibutuhkan kurang dari 0.39 bit per eksponen.
Coupling
Meskipun teknik pengodean yang dimiliki oleh AC3 sudah sangat kuat, ketika kode tersebut diperasikan pada bitrate yang sangat rendah akan terdapat sebuah kondisi di mana kode akan berjalan di luar dari bit. Ketika kondisi seperti ini terjadi, maka akan dilakukan sebuah teknik coupling.Coupling mengambil keuntungan dari adanya fakta akan sifat telinga manusia yang tidak mampu mendekteksi secara independen adanya sinyal berfrekuensi tinggi dari dua arah yang sangat erat di dalam frekuensi. Ketika kode AC3 mengalami kekurangan bit, maka channel akan secara selektif digabungkan dengan frekuensi tinggi tersebut. Frekuensi yang telah mengalami penggabungkan disebut sebagai coupling frequency.
MPEG-2 ADVANCE AUDIO CODING (AAC)
Pengembangan teknologi dalam pengodean audio dimulai dengan pembuatan audio baru berkualitas 64 kbps per mono channel. Beberapa pendekatan modular yang dgunakan:
1.      Filter bank
2.      Temporal Noise ShapingMerupakan teknik frekuensi domain yang beroperasi pada koefisien spectral yang dihasilkan dari analisis filter bank yang diterkapkan hanya ketika terjadi serangan pre-echos.Teknik ini dibuat untuk menerapkan prediksi linear pada frekuensi secara sementara terhadap sinyal impulsive yang sebagian besar terdiri dari beberapa komponen sinusoidal dalam frekuensi domain.
3.      Prediction / Prediksi
4.      MS StereoMemungkinkan untuk terjadinya peralihan middle atau side stereo secara subband tidak secara keseluruhan frame seperti pada MP3.
5.      Quatization / KuantisasiDengan memungkinkan adanya control yang lebih baik pada resolusi kuantisasi, bitrate yang dihasilkan dapat digunakan lebih efiesien.
6.      Huffman codingMenggunakan variable length codeword  untuk mengurang redundan pada faktor skala dan kuantitas spektrum data. Satu faktor skala Huffman codebook dan 11 spektrum Hufmann codebook digunakan di dalam MPEG-2 AAC.
7.      Bitstream FormatDigunakan untuk menyimpan redudansi serendah mungkin.
MPEG-2 sistem AAC menawarkan hasil dua arah yang berbeda antara kualitas dan kompleksitas. Hal ini dibuat dengan tiga tujuan, yaitu main profile, low complexity (kompleksitas rendah), dan scalable sample rate profil. AAC memberikan kinerja yang baik untuk setiap codec, memiliki kecepatan bit lebih besar dari 64 kbps untuk audio stereo. Secara khusus, pada 96 kbps audio stereo sebanding dengan kualitas MPEG-1 layer 2 (192 kbps) dan MP3 di 128 kbps.
MPEG-4 AAC (HE-AAC)
Merupakan standar audio coding yang paling efisien saat ini. MPEG-4 AAC 30% lebih efisien dari MPEG-2 AAC. Encoder ini dimanfaatkan pada penggunaan internet, mobile, dan broadcast dengan target utntuk kualitasencoding menengah dengan kecepatan 24 kbps perchannel atau lebih tinggi.
 Spectral Band Replication (SBR)
SBR menawarkan adanya peningkatan kinerja bitrate dari audio rendah dan speech codec dengan lebih baik dengan meningkatkan bandwith audio pada bitrate tertentu atau meningkatkan efisiensi pengadean pada tingkat kualitas yang diberikan.
MPEG-4 HE AAC v2
Menggabungkan HE-AAC (AAC +) dengan sebuah parametric stereo (PS) sebuah teknik untuk audio yang memiliki bitrate sangat rendah sperti 32 kbps untuk sebuah input stereo.Teknik PS mentransmisikan satu channel mono gabungan ditambah dengan 2-3 kbps informasi dan mencapai hampir 50% lebih baik apabila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan penggunaan sumber daya terbatas. 3 jenis parameter yang dapat digunakan di dalam sistem PS untuk menggambarkan citra stereo diantaranya:


  1.  Interchannel Intensity Difference (IID), untuk menggembarkan perbedaan intensitas  antar channel.
  2. Interchannel Cross – Correlation (ICC), meggambarkan korelasi silang atau koherensi antar channel. Koherensi diukur sebagai korelasi silang maksimum untuk fungsi waktu / fase.
  3.  Interchannel Phase Difference (IPD), menjelaskan perbedaan fase antar channel.
MINDMAP