百度推出 SwiftScribe 網頁程式能將音訊轉化為文字,轉化效率較人工速記快 1.67 倍。人工智慧中的語音辨識技術將改變完全依賴人工的速記業現狀。
用戶可在 PC 端打開 SwiftScribe 網頁程式,選取 wav 和 mp3 格式的文件上傳,系統就能馬上進行處理,時長 1 分鐘的音訊文件可以在 30 秒內轉換完成。用戶可使用鍵盤快捷鍵就能進行加快播放、倒帶和添加換行符號等操作,處理完成後,只需人工調整大小寫、標點及部分拼寫細節即可快捷、準確地 完成音訊轉換。
百度新一代深度語音辨識系統 Deep Speech 2,該系統曾被《麻省理工科技評論》評為「2016 年十大突破技術」之一。通過利用長達數千小時的語音數據訓練,Deep Speech 2 可以不斷「學習」從語音中辨識特定的字或詞。百度語音辨識的準確率能夠達到 97%,已經超過了人對語音的辨識能力。在 2016 年推出了程式 DeepSpeech2 的安卓輸入法 TalkType,讓用戶能夠用語音快速輸入文字。
中國的智慧語音及語言技術、人工智慧技術研究公司科大訊飛,先前已經推出了以語音轉文字為核心業務的轉抄服務平台——訊飛聽見網。據該網站介紹,科大訊飛的機器轉抄服務一小時音訊需約 5 分鐘轉抄成稿。如果是音質清晰、咬字標準的音訊,轉換正確率可達 90% 以上。
目前百度 SwiftScribe 音訊轉換服務免費對外開放。據百度方面人士透露,未來希望將該程式轉向商業化軟體發展。
沒有留言:
張貼留言