Mesin Google Terus Belajar Bahasa Indonesia

Sebagai perusahaan teknologi, salah satu yang serius digarap Google adalah investasi di bidang lokalisasi bahasa sehingga makin mudah digunakan pengguna berbagai negara. Di Indonesia, Google berjanji akan terus menyediakan layanan yang makin baik dalam mengenali Bahasa Indonesia.

Termasuk dalam layanan Google Voice Search yang baru diperkenalkan secara resmi di Jakarta, Rabu (16/3/2011). Ini merupakan layananj pencarian berbasis suara di mana pengguan cukup mengucapkan apa yang dicari dan akan muncul hasil pencarian di internet. Mesin ini tidak dijamin 100 persen dapat selalu tepat mengenali Bahasa Indonesia, namun bisa belajar.

"Tentu tergantung bagaimana pengguna mengucapkan kata yang dicari. Kalau pengucapannya jelas di langsung mengerti dan keluar hasil pencarian yang sesuai," kata Henky Prihatna, Indonesia Country Consultant Google di Jakarta, Rabu (16/3/2011). Kalau tidak menemukan kalimat atau frasa yang sesuai, mesin akan memberikan rekomendasi daftar frasa yang mirip. Begitu dipilih, mesin Google akan otomatis belajar frasa baru. Begitulah cara Google belajar Bahasa Indonesia.

Namun, sebelum Google bisa belajar, sebelum diluncurkan layanan tersebut telah lebih dulu belajar mengenali kata, susunan kalimat, dan tata bahasa Indonesia. Bahkan, pengecualian-pengecualian yang banyak ditemukan dalam Bahasa Indonesia.

"Banyak tantangan untuk melokalkan layanan dalam Bahasa Indonesia," kata dia. Pertama, Bahasa Indonesia ada homograf kata yang penulisan sama tapi pengucapan dan artinya berbeda misalnya kata apel (upacara) dan apel (buah), voice search harus bisa membedakan

Kedua, Bahasa Indonesia bahkan setelah ada EYD (ajaan yang disempurnakan) masih banyak kata yang terimbas Bahasa Belanda. Misalnya nama Sukarno dan Soekarno yang pengucapannya sama tapi tulisannya berbeda. Voice search harus dapat mengatasi hal itu.

Ketiga, sebagian orang Indonesia menggunakan kalimat campuran Bahasa Indonesia dan Bahasa Inggris. Layanan harus dapat menegenali kata dalam bahasa berbeda dalam satu kalimat.

Keempat, saat ini belum ada standardisasi pengucapan kata dalam Bahasa Indonesia. EYD baru untuk penulisan, namun untuk pengucapan sangat tergantung akses sehingga prononciation berbeda-beda tergantung asal suku bangsa atau daerah asal penutur.

"Google sejak tahun lalu mengerahkan tenaga dan memberikan waktu bagi para engineer untuk mengumpulan data," jelas Hengky. Ia mengatakan, salah satu caranya adalah melibatkan sukarelawan sebanyak 500 mahasiswa. Mereka diminta mengucapkan daftar kata sehingga terkumpul database hingga ratusan ribu frasa. Database ini kemudian disimpan di cloud server yang akan menerjemahkan dalam teks pencarian.

Menurut cerita hengky yang terlibat langsung dalam proyek tersebut, ia juga dikirim ke salah satu pusat riset Google di New York untuk menyempurnakan model voice search berbahasa Indonesia itu. Mesin duji coba untuk melakukan pencarian dengan suara berkali-kali sampai tingkat kebenaran sebesar mungkin. Dan seiring waktu, mesin belajar frasa-frasa baru dari banyak pengguna layanan.