Microsoft Rilis Fitur Text to Speech, Ini Penjelasan Fiturnya!

Penulis: Atep HilmansyahEditor: Atep HilmansyahRabu, 22 Nov 2023 - 12:19

KURASI MEDIA- Microsoft telah mengumumkan fitur terbaru dalam text-to-speech yang dilengkapi dengan kemampuan penglihatan. Fitur ini memungkinkan pengguna untuk membuat video avatar yang dapat berbicara dengan bantuan input teks. Selain itu, fitur baru ini juga akan mendukung pembuatan bot interaktif yang dilatih menggunakan gambar manusia.

Sistem avatar text-to-speech terbaru ini memiliki kemampuan penglihatan yang memungkinkan pengguna untuk mengembangkan video sintetis dari avatar fotorealistik 2D yang berbicara. Model neural text-to-speech dilatih oleh jaringan neural berdasarkan sampel rekaman video manusia, sementara suara avatar disediakan oleh model suara text-to-text-to-speech.

Avatar text-to-speech ini diharapkan dapat membantu pengguna dalam menciptakan interaksi digital yang lebih menarik, serta membangun berbagai entitas seperti agen percakapan, chatbot, asisten virtual, dan sebagainya. Selain itu, pengembangan fitur ini didesain dengan memperhatikan hak-hak individu dan masyarakat, mendorong transparansi dalam interaksi manusia-komputer, dan mengantisipasi penyebaran konten deepfake yang berbahaya dan menyesatkan.

Microsoft meluncurkan avatar text-to-speech dengan tujuan mempermudah pembuatan video, mengurangi ketergantungan pada metode tradisional yang memakan waktu dan anggaran. Avatar ini dapat membantu pengguna dalam membuat video pelatihan, testimoni pelanggan, pengenalan produk, dan sebagainya, hanya dengan menggunakan input teks.

Dengan kehadiran Layanan Azure OpenAI dan neural text-to-speech, interaksi percakapan menjadi lebih alami. Avatar ini dapat digunakan untuk menciptakan interaksi digital yang menarik, serta membangun berbagai entitas seperti agen percakapan, asisten virtual, chatbot, dan lainnya.

Microsoft menyediakan tiga alur kerja pembuatan konten, yaitu TTS audio synthesizer, text analyser, dan TTS avatar video synthesizer. Perusahaan saat ini menawarkan dua fitur avatar text-to-speech terpisah, yaitu avatar text-to-speech bawaan dan avatar text-to-speech khusus. Avatar bawaan dapat digunakan langsung oleh pelanggan di Azure, dengan kemampuan berbicara dalam berbagai bahasa dan suara berdasarkan input teks.

Proses pembuatan konten video melalui avatar text-to-speech melibatkan pembuatan skrip berbicara untuk avatar, yang dapat menggunakan teks biasa atau Synthesis Markup Language (SSML). SSML membantu menyetel suara avatar dengan pengucapan, ekspresi istilah, serta gerakan tertentu. Setelah skrip siap, Azure TTS 3.1 API digunakan untuk mensintesis video, termasuk penentuan karakter avatar, gaya, dan format video. Tambahan konten seperti gambar, video dengan teks, animasi, dan ilustrasi dapat dimasukkan untuk memperkaya video akhir. Semua aset, termasuk video avatar, konten, dan musik latar, dapat digabungkan untuk menciptakan pengalaman video yang kaya.