Teknologi speech-to-text microsoft

Microsoft hari ini mengumumkan preview swasta baru dari Custom Recognition Intelligence Service (CRIS), alat yang sangat disesuaikan yang dapat memberikan aplikasi Siri seperti fungsi speech-to-text. Juga hari ini Microsoft membuka preview publik untuk dua set antarmuka pemrograman aplikasi (API) yang menawarkan pengembang teknologi yang dapat memahami siapa yang bicara dalam rekaman audio dan apa yang muncul di video.

Semua teknologi ini berada di bawah Proyek Oxford, sebuah inisiatif untuk memberikan pengembang pihak ketiga untuk mengakses kecerdasan buatan yang Microsoft telah membangun selama bertahun-tahun. Google juga bergerak turun di jalan ini, misalnya dengan rilis dari Cloud Vision API.

Microsoft mengumumkan alat deteksi emosi di Proyek Oxford bulan lalu dan juga mengumumkan bahwa versi beta publik untuk pengakuan pembicara akan tersedia pada akhir tahun ini. Nah itu yang tersedia, menurut sebuah posting blog hari ini dari teknologi Microsoft dan penelitian manajer program senior Ryan Galgon. API dapat baik memverifikasi dan mengidentifikasi speaker, sedangkan API video yang dapat melacak wajah, mendeteksi gerakan untuk latar belakang stasioner dan menstabilkan konten video.

speech-to-text-microsoft

Tetapi alat yang lebih menarik di sini adalah CRIS. Berikut deskripsi tingkat tinggi Microsoft tersedia bulan lalu:

Alat ini membuat lebih mudah bagi orang untuk menyesuaikan pengenalan suara untuk lingkungan yang menantang, seperti ruang publik yang bising. Sebagai contoh, sebuah perusahaan dapat menggunakannya untuk membantu penggunaan alat pidato pengakuan tim yang lebih baik saat bekerja di lantai toko keras atau pusat perbelanjaan yang sibuk. Hal ini juga dapat digunakan untuk membantu sebuah aplikasi lebih memahami orang-orang yang secara tradisional memiliki masalah dengan pengenalan suara, seperti nonpenutur asli atau mereka yang cacat.

Ketika pengembang mendaftar untuk menggunakan layanan ini, Microsoft bertanya apakah mereka terbiasa dengan pidato ke teks teknologi seperti HTK, Kaldi dan SRILM, atau hanya pengguna asisten pribadi digital teknologi dari Google, Apple, atau tentu saja Microsoft sendiri .

Memang seperti Galgon disebutkan, “Beberapa tahun terakhir menyaksikan peningkatan luar biasa dalam kinerja sistem pengenalan pembicara”. Sekarang pengembang akan dapat mengambil keuntungan dari teknologi.

Leave a Reply

Your email address will not be published. Required fields are marked *