Tuesday, October 22, 2013

DIGITAL AUDIO CODING

Sistem pendenganran manusia terdiri dari telinga dan otak. Proses masuknya audio terjadi dalam dua cara, yaitu fisiologis dan psikologis. Telinga terdiri dari tiga komponen fisiologis:
1.     Telinga luar, mengarahkan suara melalui saluran telinga menuju gendang telinga
2.    Telinga tengah merubah gelombang tekanan suara menjadi gerakan mekanis pada tiga tulang kecil / ossicles (palu, landasan, dan sanggurdi)
3.    Telinga bagian dalam / rumah koklea, merupakan struktur berbentuk spiral yang digunakan untuk pendengan manusia

HUMAN PSYCHOACOUSTICS

Suara manusia melibatkansifat – sifat psikologis, sebagai contoh telinga manusia merespon secara subyektif terhadap peningkatan volume. Pendengaran manusia memiliki range sekitar 110 desbibe (dB). Selain itu, telinga merespon perubahan volume yang terjadi, sebagai contoh ketika suara bass dapat didengar secara jelas dalam suatu pembicaraan ketika terjadi peningkatan volume / sekitar 60 dB. Berdasarkan sifat – sifat tersebut, terdapat beberapa bagian dari human psychoacoustics:
a.       Hearing sensitivity
Koklea yang terdapat pada telinga manusia dapat mendengar pada kisaran frekuensi 20 Hz – 20 kHz. Selain itu resolusi frekuensi yang dimiliki oleh telinga ktia akan menurun seiring dengan naiknya frekuensi. Oleh karena hal tesebut kita dapat menentukan batas minimum yang dapat didengar, di mana dideteksi sebagai noise oleh pendengar. Dengan mengetahui sensitivitas pada sistem pendengaran, kita memiliki keuntungan khususnya dalam hal kuantitas suara. Sebagai contoh pengambilan kuantitas suara pada proses kompresi data.
b.      Frequency masking
Berdasarkan persepsi pada telinga manusia, perbedaan channel frekuensi dapat saling menginterferensi satu dengan yang lain. Sebagai contoh misalnya kita memainkan beberapa nada pada frekeuensi tertentu pada saat yang bersamaan. Berdasarkan hasil observasi, suara yang paling keras akan membelokkan ambang suara yang lain sesuai dengan logaritma frekuensi dalam satuan kHz dan menjadikan suara terpelan (masked sound) yang tadinya terdengar menjadi tidak terdengar.Efek seperti ini yang disebut dengan frequency masking.


c.       Temporal masking
Tertimpanya suara lemah oleh suara yang lebih keras tidak hanya terjadi apabila suara yang lebih lemah muncul setelah suara yang lebih keras terdengar, tetapi suara lemah yang ada sebelum suara keras juga akan tertutupi oleh suara yang lebih keras. Kedua kondisi ini yang disebut post- ­dan pre-temporal masking.

SUBBAND SIGNAL PROCESSING & POLYPHASE FILTER IMPLEMENTATION
Karena adanya sifat frequency masking pada pendengaran manusia, representasi terbaik untuk mendengarkan diperoleh dengan menggunakan subband atau merubahfilter-bank. Dalam menganalisis masking, bitrate harus disiapkan dan diproses ke dalam frame yang telah ditentukan sinyal audio. Setiap bagianframe code suara mengandung code audio utama, tetapi pada beberapa bagian:
1.      Puncak level di setiap frekuensi subband
2.      Puncak masking di setiap subband
3.      Jumlah bit untuk setiap sampel di setiap subband
Encoder mengambil frame dan audio untuk memisahkannya menjadi beberapa subband dengan tidak terjadi overlap menggunakan filter bank yang mencakup seluruh rentang frekuensi suara.Encoderakan merepesentasikan kuantitas contohsubband, format data,beserta informasi tambahan menjadi code bitstream. Sedangkan, decoder berfungsi untuk membalikkan operasi dari encoder dan mengembalikan kuantitas dan pemadatan bitstream ke frame audio sample.

MPEG-1 AUDIO LAYERS
MPEG-1 (Moving Picture Expert Group) merupakan algoritma kompresi audio yang digunakan sebagai standar internasional pertama  untuk kompresi digital dari high-fidelity audio, diadopsi oleh ISO/IEC PADA AKHIR 1992. Terdapat 3 layer kompresi pada MPEG-1, yaitu:
1.       Layer 1Memiliki kompleksitas paling rendah dan bitrate tertinggi, antara 32-224 kbps per channel dengan target bitrate 192 kbps per channel. Digunakan pada Philip’ Digital Compact Cassette (DCC).
2.       Layer 2Memiliki kompleksitas menengah dan ditargetkan untuk bitrate dengan sekitar 128 kbps per channel.Digunakan pada sinkronisasi penyimpanan video dan audio sekuen pada CD-ROM, full-motion pada CD interkatif (CD-I), permainan multimedia, VCDs, dan DVDs.
3.       Layer 3Memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik, terutama untuk bitrate sekitar 64 kbps per channel, biasanya dinamakan dengan format MP3.
Polyphase Implementation of MPEG-1 Filter Bank
Flow diagram dari ISO MPEG-1 audiostandard filter bank:
MPEG-1 Audio Psychoacoustics
Mengambil keuntungan dari sistem pendengaran manusia yang bergantung pada karakteristik frekuensi dikarenakan adanya masking threshold (untuk frequency masking / temporan masking) pada setiap frekuensi yang diberikan bergantung pada energy sinyal yang terbatas pada frekuensi – frekuensi tersebut untuk mendapatkan kompresi yang paling efisien.
Signal-To-Mask Ratios (SMRs) merupakan rasio dari kekuatan sinyal jangka pendek di setiap subband untuk layer 3 dan ambang masking minimum untuk subband tersebut. Setelah melakukan pemetaan frekuensi berdasarkan Fast Fourier Transform (FFT) terdapat beberapa langkah yang diperlukan untuk melakukan psychoacoustics:
1.      Menggrupkan nilai spectral sesuai dengan critical bandwith
2.      Memisahkan nilai spectral menjadi komponen tonal dan non-tonal berdasarkan puncak spectrum daya audio
3.      Memisahkan berdasarkan komponen tonal dan non-tonal, secara empiris akan menentukan fungsi masking untuk menentukan ambang masking  di seluruh audio yang ada di spectrum
4.      Mengatur batas bawah kemampuan mendengar suara secara empiris menentukan ambang masking mutlak
5.      Mencari ambang untuk setiap masking
6.      Menghitung rasio SMR dan memasukkan nilai yang didapat ke dalam bit (noise) pada alokasi encoder.
Layer3 Audio Bit Allocations
Inner (rate) iteration loop for MP3 rate control:



  Outer (noise and distortion) iteration loop for MP3 rate control:
Perulangan inner dan outer loop akan berakhir ketika terdapat beberapa kondisi berikut:
1.      Tidak adanya  faktor skala subbandayang melebihi distorsi yang diperbolehkan
2.    Iterasi yang terjadi berikutnya akan menyebabkan pengerasan pada subband lain sehingga melebihi nilai yang diperbolehkan
3.      Iterasi selanjutnya akan menyebabkan semua faktor skala subband diperkuat
DOLBY AC3 AUDIO CODEC
Untuk mendapatkan hasil audio yang bersifat superior codingpada multichannel surround sound untuk dapat dimanfaatkan sebagai HDTV tetapi membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo, maka Dolby Inc. mengusulkan dan mengembangkan teknologi AC3 untuk DVD, HDTCV, home theatre system, dan sebagainya.Codec  audio AC3 mengikuti rekomendasi yang dibuat oleh masyarakat untuk SMPTE dengan target bitrate 320 kbps yang diharapkan mampu memberikan kualitas suara  dengan format 70 mm surround-sound yang digunakan pada film sejak 1979. AC3 juga meggunakan psychoacoustic untuk menutupi signal audio yang tidak terdengar.
 Bit Allocation in AC3
Dalam penerapannya, AC3 menggunakan metode backward adaptive.Metode ini bekerja denganmerubah informasi alokasi bit dari codec audio data tanpa menrubah informasi dari encoder. Proses encoding pada AC3 terdiri atas 6 langkah, yaitu:
a.     Melakukan transformasi dari 512 blok yang overlap menjadi sekuen – sekuen frequency-coefficient blok. Masing – masing frekeuensi direpresentasikan sebagai eksponen dan mantisa.
b.      Set dari eksponen di-encode menjadi representasi kasar dari sebuah sinyal spectrum, spectral envelope.
c.       Spectral envelope digunakan untuk mendeteriminasi banyaknya bit yang akan digunakan untuk meng-encode masing – masing mantisa.
d.      Mantisa kemudian dikuantisasi berdasarkan alokasi bit.
e.       Spectral envelope dan mantisa akan dikuantisasi menjadi 6 blok (256 x 6 - 1536) yang akan diformat menjadi AC3 frame.
f.        AC3 bitstream (32 – 640 kbps) merupakan sekuen dari AC3 frame.
Filter Bank
Alokasi bit dapat terjadi pada suatu transformasi berbagi koefisien pada alokasi yang sama atau pada level individu, koefisien yang berdekatan tetapi menerima alokasi yang berbeda.
Spectral Envelope
Setiap koefisien transformasi dikodekan ke dalam bentuk eksponen dan mantisa. Hal tersebut memungkinkan terjadinya dynamic range sementara mantisa sendiri dikodekan dengan presisi terbatas hal ini akan menyebabkan terjadinya kuantisasi noise.Satu set kode eksponen yang direpresentasikan dalam bentuk sinyal spectrum secara keseluruhan akan disebut sebagai spectral envelope.Spectral envelope dikirim setiap 6 blok sekali denganaudio (32 ms), dimana rata – rata data yang dibutuhkan kurang dari 0.39 bit per eksponen.
Coupling
Meskipun teknik pengodean yang dimiliki oleh AC3 sudah sangat kuat, ketika kode tersebut diperasikan pada bitrate yang sangat rendah akan terdapat sebuah kondisi di mana kode akan berjalan di luar dari bit. Ketika kondisi seperti ini terjadi, maka akan dilakukan sebuah teknik coupling.Coupling mengambil keuntungan dari adanya fakta akan sifat telinga manusia yang tidak mampu mendekteksi secara independen adanya sinyal berfrekuensi tinggi dari dua arah yang sangat erat di dalam frekuensi. Ketika kode AC3 mengalami kekurangan bit, maka channel akan secara selektif digabungkan dengan frekuensi tinggi tersebut. Frekuensi yang telah mengalami penggabungkan disebut sebagai coupling frequency.
MPEG-2 ADVANCE AUDIO CODING (AAC)
Pengembangan teknologi dalam pengodean audio dimulai dengan pembuatan audio baru berkualitas 64 kbps per mono channel. Beberapa pendekatan modular yang dgunakan:
1.      Filter bank
2.      Temporal Noise ShapingMerupakan teknik frekuensi domain yang beroperasi pada koefisien spectral yang dihasilkan dari analisis filter bank yang diterkapkan hanya ketika terjadi serangan pre-echos.Teknik ini dibuat untuk menerapkan prediksi linear pada frekuensi secara sementara terhadap sinyal impulsive yang sebagian besar terdiri dari beberapa komponen sinusoidal dalam frekuensi domain.
3.      Prediction / Prediksi
4.      MS StereoMemungkinkan untuk terjadinya peralihan middle atau side stereo secara subband tidak secara keseluruhan frame seperti pada MP3.
5.      Quatization / KuantisasiDengan memungkinkan adanya control yang lebih baik pada resolusi kuantisasi, bitrate yang dihasilkan dapat digunakan lebih efiesien.
6.      Huffman codingMenggunakan variable length codeword  untuk mengurang redundan pada faktor skala dan kuantitas spektrum data. Satu faktor skala Huffman codebook dan 11 spektrum Hufmann codebook digunakan di dalam MPEG-2 AAC.
7.      Bitstream FormatDigunakan untuk menyimpan redudansi serendah mungkin.
MPEG-2 sistem AAC menawarkan hasil dua arah yang berbeda antara kualitas dan kompleksitas. Hal ini dibuat dengan tiga tujuan, yaitu main profile, low complexity (kompleksitas rendah), dan scalable sample rate profil. AAC memberikan kinerja yang baik untuk setiap codec, memiliki kecepatan bit lebih besar dari 64 kbps untuk audio stereo. Secara khusus, pada 96 kbps audio stereo sebanding dengan kualitas MPEG-1 layer 2 (192 kbps) dan MP3 di 128 kbps.
MPEG-4 AAC (HE-AAC)
Merupakan standar audio coding yang paling efisien saat ini. MPEG-4 AAC 30% lebih efisien dari MPEG-2 AAC. Encoder ini dimanfaatkan pada penggunaan internet, mobile, dan broadcast dengan target utntuk kualitasencoding menengah dengan kecepatan 24 kbps perchannel atau lebih tinggi.
 Spectral Band Replication (SBR)
SBR menawarkan adanya peningkatan kinerja bitrate dari audio rendah dan speech codec dengan lebih baik dengan meningkatkan bandwith audio pada bitrate tertentu atau meningkatkan efisiensi pengadean pada tingkat kualitas yang diberikan.
MPEG-4 HE AAC v2
Menggabungkan HE-AAC (AAC +) dengan sebuah parametric stereo (PS) sebuah teknik untuk audio yang memiliki bitrate sangat rendah sperti 32 kbps untuk sebuah input stereo.Teknik PS mentransmisikan satu channel mono gabungan ditambah dengan 2-3 kbps informasi dan mencapai hampir 50% lebih baik apabila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan penggunaan sumber daya terbatas. 3 jenis parameter yang dapat digunakan di dalam sistem PS untuk menggambarkan citra stereo diantaranya:


  1.  Interchannel Intensity Difference (IID), untuk menggembarkan perbedaan intensitas  antar channel.
  2. Interchannel Cross – Correlation (ICC), meggambarkan korelasi silang atau koherensi antar channel. Koherensi diukur sebagai korelasi silang maksimum untuk fungsi waktu / fase.
  3.  Interchannel Phase Difference (IPD), menjelaskan perbedaan fase antar channel.
MINDMAP


Wednesday, October 16, 2013

DIGITAL SPEECH CODING


Speech dalam bahasa Indonesia merupakan suara yang langsung berasal dari manusia. Speech berbeda dengan audio. Audio merupakan suara yang sudah mengalami suatu proses kompresi ataupun perubahan kualitas dari sumber suara yang kemudian diperdengarkan kembali dalam berbagai format untuk berbagai kepentingan, misalnya sebagai alat peraga. Speech atau suara yang dihasilkan oleh sumber suara (suara manusia) banyak yang kemudian diproses lebih lanjut untuk dijadikan sebagai audio. Saat perubahan sumber suara ke dalam bentuk audio terjadi banyak proses di dalamnya, sebagai contoh suatu sumber suara dapat dikonversi menjadi sinyal elektrik, misalnya melalui microphone.

Tidak hanya pada proses pengolahan sumber suara, pada proses mendengarkan terdapat banyak factor yang mempengaruhi seseorang dalam mendengarkan sumber suara / speech maupun suara dalam bentuk audio. Secara sederhana, sebagai contoh pada umumnya manusia sering mendapati adanya suatu perbedaan antara suara yang didengarkan secara langsung di saat dirinya sendiri sedang berbicara dengan dibandingkan mendengarkan suara yang sama jika direkam (mendengarkan rekaman suara diri sendiri). Contoh lain, jika kita merekam suatu sumber suara dengan menggunakan berbagai macam alat perkem yang berbeda – beda, kemungkinan kita akan mendapatkan hasil yang berbeda pada setiap hasil rekaman dikarenakan adanya perbedaan teknik dan bentuk kompresi pada alat perekam. Hasil kompresi dari masing – masing alat ini yang mempengaruhi kualitas dari suara yang dihasilkan.

Beberapa faktor yang mempengaruhi proses pengubahan suara untuk dapat didengarkan kembali:
·         Bitrate, berada pada cakupan tertentu (800bps – 16kbps) 
·         Delay, semakin rendahnya nilai bitrate maka akan mungkin semakin terjadi suatu delay
·         Kualitas, kualitas suara yang dihasilkan oleh suatu sumber suara, sebelum dan sesudah direkonstruksi
·         Kompleksitas

Proses pengolahan suatu sumber suara, merupakan pengubahan sinyal analog menjadi digital, biasanya dilakukan dengan memanfaatkan metode kompresi yang biasanya proses ini akan menyebabkan penurunan kualitas dari suara asli dengan suara yang dihasilkan setelah proses kompresi.

Dalam suatu proses kompresi (pengolahan suatu sumber suara), pasti akan terjadi suatu pemotongan frame – frame dari suatu sumber suara asli, di mana proses pemotongan yang menyebabkan hilangnya kurang lebih 8 kbps dari suatu sumber suara akan mempengaruhi kualitas suara yang dihasilkan. Semua perhitungan yang dilakukan pada saat kita melakukan suatu kompresi pada gelombang suara didasarkan pada LPC (Linear Predictive Coding). Perhitungan pada LPC didasarkan pada encoder dan decoder yang digunakan saat proses kompresi itu sendiri berjalan. 



Pada dasarnya, secara lengkap LPC melakukan analisis sumber suara asli, waktu pada setiap pitch (pitch period), dan signal power. Analisis ini dilakukan di dalam encoder.



Melalui beberapa perhitungan yang digunakan di dalam LPC dengan memperhatikan beberapa hal yang dianalis pada saat mengencode suara, di dalam proses decode yang terjadi di dalam decoder adanya pemanfaatan sinyal GSM melalui kineja gelombang pulse train. Pulse train merupakan gelombang non – sinusoidal yang dalam hal ini biasa digunakan untuk pemrograman syntheized. 


Setelah melalui beberapa perhitungan yang juga terjadi di dalam proses decode ini nantinya akan menghasilkan synthesized speech. Untuk hasil kualitas suara yang di dapat, jika suara yang dihasilkan masih mengandung randim noise  lebih dari 30% hasil kompresei suara tersebut memiliki kualitas yang rendah.

Mind map digital speech coding:


Monday, September 23, 2013

DIGITAL LIFE IN UBIQUITOUS WORLD

Pembicara: Dito Respati / Head Office Mobile Application Developer Telkomsel

Indonesia merupakan negara yang memiliki angka perkembangan teknologi yang cukup tinggi, baik dari sisi pengetahuan teknologi itu sendiri maupun dari perkembangan dan penggunaan berbagai macam peralatan teknologi untuk menunjuang kebutuhan sehari – hari. Secara nyata kita dapat melihat dan mengamati perkembangan smartphone di Indonesia. Beberapa tahun lalu, diperkirakan pada tahun 2013, akan beredar jutaan merk smartphone lokal di Indonesia, dan kenyataannya 80% dari perkiraan tersebut saat ini sudah hampir terpenuhi. Banyaknya smartphone lokal yang beredar ini menjadi salah satu pangsa pasar yang cukup banyak dimanfaatkan oleh berbagai kalangan di Indonesia. Sebagai contoh, keberadaan smartphone yang menyediakan layanan internet  dengan mudahnya menjadikan smartphone sebagai media untuk berjual beli secara online. Tidak hanya dimanfaatkan untuk berbisnis, keberadaan smartphone ini juga banyak menjadi sasaran baru bagi para pengembang mobile aplikasi. Banyak developer – developer dan mobile market baru yang bermunculan memfasilitasi para pengembang aplikasi untuk menjual aplikasi yang dibuat oleh para pengembang. Tetapi sayangnya, keberadaan para developer – developer di Indonesia masih belum terasosiasi dengan baik.

Sebagai seorang mahasiswa Informatika, tanpa disadari sebenarnya banyak diantara kita yang sudah membuat berbagai macam aplikasi – aplikasi yang di-develop untuk para pengguna smartphone, baik untuk pemenuhan tugas kuliah maupun bagi mereka yang memang memiliki hobi di bidang developing. Oleh karena itu, sebaiknya kita mulai membuka diri dengan dunia luar untuk mengembangkan lebih luas kreativitas yang kita miliki. Mulai bekerja sama dan melirik market / store untuk para application developer yang dapat menjadi langkah awal untuk mengenalkan karya yang kita buat ke dunia luar. Contoh market lokal yang dapat kita jadikan sasaran untuk mengembangkan kreativitas yang kita miliki adalah TemanDev, yaitu developer mobile application yang berada dibawah Telkomsel.


IP Multimedia Subsystem

Melihat secara singkat dari perkembangan teknologi di Indonesia yang merupakan negara berkembang, seharusnya kita dapat membayangkan bagaimana perkembangan teknologi di dunia maju. Dalam perkembangan industri selular, kemajuan teknologi terjadi sangat pesat. Banyaknya kebutuhan manusia yang tidak akan pernah ada habisnya membuat para pengembang dan industri seluler berlomba – lomba untuk dapat memenuhi kebutuhan tersebut.

Diciptakannya berbagai macam robot – robot canggih yang  dapat menggantikan kerja manusia, otomatisasi sistem kerja sebuah mesin dengan memanfaatkan penggunaan sensor – sensor yang mendukung merupakan gambaran mendatang dari teknologi yang akan semakin mempermudah dan membantu kerja manusia, di mana dalam hal ini kita memanfaatkan penggunaan IP Multimedia Subsystem.

IP Multimedia Subsystem merupakan penerapan teknologi yang mengarah pada konvergensi jarinan wireless dan wireline dengan memanfaatkan layanan multimedia yang berjalan di atas keduanya. Teknologi ini ada untuk mengakomodasi kedua tekonologi tersebut dengan layanan data yang tidak terbatas pada layanan suara, tetapi layanan data yang sangat beragam. IMS diciptakan untuk menjembatani operator telekomunikasi seperti (GSM/GPRS/EDGE, UMTS/3G) dengan teknologi internet. Secara garis besar, prinsip kerja jaringan IMS nantinya akan mengintegrasikan antara teknologi wireless dan wireline dengan berbagai layanan yang dapat ditangani, contohnya layanan data dan suara. Dengan adanya prinsip kerja IMS, memungkinkan terciptanya berbagai macam keseimbangan dan otomasisasi pada perkembangan kerja mesin di masa mendatang. Jarvis merupakan contoh IP Multimedia Subsystem.

Sumber:
·         Seminar Digital Life in Ubiuquitous World (IT Fest)
·         http://en.wikipedia.org/wiki/IP_Multimedia_Subsystem
·         http://klikcopas.blogspot.com/2011/10/pengertian-ip-multimedia-subsystem-ims.html