Wednesday, October 16, 2013

DIGITAL SPEECH CODING


Speech dalam bahasa Indonesia merupakan suara yang langsung berasal dari manusia. Speech berbeda dengan audio. Audio merupakan suara yang sudah mengalami suatu proses kompresi ataupun perubahan kualitas dari sumber suara yang kemudian diperdengarkan kembali dalam berbagai format untuk berbagai kepentingan, misalnya sebagai alat peraga. Speech atau suara yang dihasilkan oleh sumber suara (suara manusia) banyak yang kemudian diproses lebih lanjut untuk dijadikan sebagai audio. Saat perubahan sumber suara ke dalam bentuk audio terjadi banyak proses di dalamnya, sebagai contoh suatu sumber suara dapat dikonversi menjadi sinyal elektrik, misalnya melalui microphone.

Tidak hanya pada proses pengolahan sumber suara, pada proses mendengarkan terdapat banyak factor yang mempengaruhi seseorang dalam mendengarkan sumber suara / speech maupun suara dalam bentuk audio. Secara sederhana, sebagai contoh pada umumnya manusia sering mendapati adanya suatu perbedaan antara suara yang didengarkan secara langsung di saat dirinya sendiri sedang berbicara dengan dibandingkan mendengarkan suara yang sama jika direkam (mendengarkan rekaman suara diri sendiri). Contoh lain, jika kita merekam suatu sumber suara dengan menggunakan berbagai macam alat perkem yang berbeda – beda, kemungkinan kita akan mendapatkan hasil yang berbeda pada setiap hasil rekaman dikarenakan adanya perbedaan teknik dan bentuk kompresi pada alat perekam. Hasil kompresi dari masing – masing alat ini yang mempengaruhi kualitas dari suara yang dihasilkan.

Beberapa faktor yang mempengaruhi proses pengubahan suara untuk dapat didengarkan kembali:
·         Bitrate, berada pada cakupan tertentu (800bps – 16kbps) 
·         Delay, semakin rendahnya nilai bitrate maka akan mungkin semakin terjadi suatu delay
·         Kualitas, kualitas suara yang dihasilkan oleh suatu sumber suara, sebelum dan sesudah direkonstruksi
·         Kompleksitas

Proses pengolahan suatu sumber suara, merupakan pengubahan sinyal analog menjadi digital, biasanya dilakukan dengan memanfaatkan metode kompresi yang biasanya proses ini akan menyebabkan penurunan kualitas dari suara asli dengan suara yang dihasilkan setelah proses kompresi.

Dalam suatu proses kompresi (pengolahan suatu sumber suara), pasti akan terjadi suatu pemotongan frame – frame dari suatu sumber suara asli, di mana proses pemotongan yang menyebabkan hilangnya kurang lebih 8 kbps dari suatu sumber suara akan mempengaruhi kualitas suara yang dihasilkan. Semua perhitungan yang dilakukan pada saat kita melakukan suatu kompresi pada gelombang suara didasarkan pada LPC (Linear Predictive Coding). Perhitungan pada LPC didasarkan pada encoder dan decoder yang digunakan saat proses kompresi itu sendiri berjalan. 



Pada dasarnya, secara lengkap LPC melakukan analisis sumber suara asli, waktu pada setiap pitch (pitch period), dan signal power. Analisis ini dilakukan di dalam encoder.



Melalui beberapa perhitungan yang digunakan di dalam LPC dengan memperhatikan beberapa hal yang dianalis pada saat mengencode suara, di dalam proses decode yang terjadi di dalam decoder adanya pemanfaatan sinyal GSM melalui kineja gelombang pulse train. Pulse train merupakan gelombang non – sinusoidal yang dalam hal ini biasa digunakan untuk pemrograman syntheized. 


Setelah melalui beberapa perhitungan yang juga terjadi di dalam proses decode ini nantinya akan menghasilkan synthesized speech. Untuk hasil kualitas suara yang di dapat, jika suara yang dihasilkan masih mengandung randim noise  lebih dari 30% hasil kompresei suara tersebut memiliki kualitas yang rendah.

Mind map digital speech coding:


No comments:

Post a Comment