科大訊飛發(fā)布智能錄音筆和首款TWS耳機,突破離線轉寫技術難點

2020-09-02 11:12:07 sunmedia 2969


9月1日消息,剛剛,科大訊飛連發(fā)三款訊飛智能錄音筆新品,型號分別為SR901、SR702和SR101,以及首款智能TWS耳機iFLYBUDS。其中,SR901和SR702首次搭載離線轉寫功能,支持OCR文字提取,進一步延續(xù)了SR系列在智能轉寫、AI高清降噪和智能編輯等方面的優(yōu)勢,SR101是訊飛首款500元級錄音筆,相比同價位產品也有著硬件優(yōu)勢和軟件功能上的突破。

訊飛還面向商務人士的溝通和記錄需求,推出首款立體聲無線耳機(TWS)iFLYBUDS,擁有通話實時轉寫、智能撥號識別、通話譯文三大核心AI功能。

科大訊飛副總裁兼消費者事業(yè)群副總裁李傳剛

自2019年5月訊飛首款帶屏錄音筆——訊飛智能錄音筆SR系列推出后,國內錄音筆市場隨之掀起了以AI技術為依托的品類創(chuàng)新浪潮。

作為今年科大訊飛的首場線下新品發(fā)布會,此次訊飛不僅補全了智能錄音筆SR系列從入門到旗艦、再到尊享版市場的拼圖,同時其首款TWS耳機的發(fā)布,也意味著訊飛智能語音和轉寫技術業(yè)務邊界的突破。

“秉承著高效辦公、智慧生活的理念,訊飛消費者業(yè)務已實現(xiàn)連續(xù)三年大于30%的增速,甚至今年逆勢增長,在618中獲得22項單品冠軍?!笨拼笥嶏w聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁在現(xiàn)場談到。

在他看來,訊飛在AI轉寫賽道上,不僅希望能為文字工作者的記錄場景賦能,更希望成為每個人的知識管理工具。讓每一位用戶在忙碌之中,依然可以輕松地備忘信息、捕捉靈感、記錄觀點?!白屛覀円煌_啟高效記錄新時代!”胡郁信心滿滿地說到。

那么,這次訊飛將會給我們帶來它在智能轉寫賽道上的哪些技術和場景應用創(chuàng)新?這些創(chuàng)新背后又展露了訊飛哪些行業(yè)創(chuàng)新的戰(zhàn)略和思考?來看現(xiàn)場發(fā)布干貨給我們的答案。

科大訊飛聯(lián)合創(chuàng)始人&執(zhí)行總裁胡郁

一、讓錄音筆長眼睛:首推離線轉寫與OCR識別功能

與上一代產品相比,訊飛SR901和SR702智能錄音筆的軟硬件性能在轉寫、降噪、智能編輯等方面都有了明顯升級,同時還新增了不少小而美的AI新功能,如OCR能力、圖片拍攝識別文字、拍攝視頻實現(xiàn)字幕等。

1、智能轉寫:支持無網轉寫及12種方言

轉寫功能的創(chuàng)新升級可謂是訊飛此次發(fā)布的重頭戲。

為了幫助用戶進一步解決在無網絡環(huán)境下轉寫,以及隱私內容轉寫的需求,SR901和SR702錄音筆升級了語音轉文字引擎,行業(yè)首發(fā)離線轉寫功能。讓用戶無需在4G/Wi-Fi網絡下就能實現(xiàn)語音實時轉寫并立即保存轉寫文字。

針對多語言、多語種的無縫切換識別和轉寫,訊飛推出新一代識別(轉寫)引擎——端到端新引擎,優(yōu)化迭代了端到端語音識別框架。除了純中文與純英文模式識別外,端到端新引擎還支持中英混合識別場景,以及普通話-部分方言識別。

三款錄音筆在方言和語種轉寫,以及專業(yè)領域轉寫方面也進行了升級,支持粵語、河南話等12種方言轉寫;藏語、維吾爾語2種少數民族語言轉寫;中、英、日、韓等8種語言轉寫;財經貿易、醫(yī)療、IT科技等7大專業(yè)領域的轉寫。

2、拾音降噪:最遠拾音15米,可實現(xiàn)超遠距離錄音與轉寫

硬件方面,SR901采用2顆哈曼MEMS定向麥克風+10顆全向麥克風,SR702采用2顆定向麥克風和6顆矩陣麥克風,SR10采用1顆定向麥克風+2顆矩陣麥克風,且支持AI拾音降噪。

據稱,訊飛錄音筆最遠拾音距離為15米,并且還能根據不同場景自動匹配場景算法。同時,它還采用非人聲過濾,能夠自動跳過沒有人聲的冗余錄音,節(jié)約用戶整理錄音的時間。

實際上,訊飛錄音筆還采用了前端降噪技術,基于自研神經網絡與傳統(tǒng)信號處理深度結合的降噪算法(SSA-IME),不僅能有效降低環(huán)境干擾噪聲,還可消除干擾說話人的聲音,從而大幅降低語音識別的處理難度。

據了解,該技術使訊飛錄音筆在無喇叭的情況下,3-10米遠距離轉寫效果提升30%;有喇叭的情況下,超遠距離(20-50m)演講場景轉寫效果為90%以上,這也體現(xiàn)了訊飛在遠距離降噪轉寫技術上的領先性。

3、智能編輯:上線多人會議說話人分離

針對多人交談會議場景,訊飛錄音筆上線了其與ASR聯(lián)合建模的說話人分離方案。

此外,三款訊飛錄音筆升級了6項智能編輯功能:

智能語義分段:根據語義上下文進行分段,提升用戶針對轉寫文檔的瀏覽體驗;

自動區(qū)分講話人:根據錄音及轉寫結果自動區(qū)分標注講話人,針對多人討論場景,用戶還可快速檢索目標說話人數據;

口語規(guī)整:可過濾語氣詞、重復詞、無意義詞,優(yōu)化轉寫內容;

智能摘要:對錄音內容進行全面的語義理解與分析,自動抽取關鍵信息,形成摘要結果;

個人詞庫:用戶可提前輸入專屬詞匯,實現(xiàn)轉寫時的智能編輯優(yōu)化;

文件分享:支持文件分享功能,用戶可自定義多種導出格式或模板,同時在文件編輯結束后,可選擇文件分享至郵件。

4、絕招:看圖識字,還能給視頻配字幕

除了聲音記錄和轉寫之外,訊飛在三款新錄音筆上也添加了圖像方面的創(chuàng)新應用,如支持OCR文字識別、圖片拍攝識別文字、拍攝視頻實現(xiàn)字幕等。

硬件方面,訊飛智能錄音筆SR901為后置三攝,包括1300萬高像素主攝像頭、800萬像素120°超大廣角攝像頭、800萬像素長焦攝像頭;SR702為800萬像素數字變焦后置單攝。

功能方面,SR901和SR702錄音筆能夠提取并實時記錄圖片上的文字內容,還可錄制視頻,進行實時收音。

有意思的是,訊飛錄音筆拍攝完成并導出視頻文件時,支持自動生成字幕和后期編輯字幕,為錄音筆增添了新的圖像/視頻交互體驗。

二、解密:訊飛如何突破離線轉寫技術難點?

在這次訊飛智能錄音筆SR系列的小爆發(fā)背后,是其長達多年的技術積累和創(chuàng)新。

據智東西了解,此次發(fā)布中最大的技術亮點在于離線轉寫功能。不過,由于離線轉寫對硬件和算法方面都有著較高的要求,因此實現(xiàn)這項技術并非易事。

硬件方面,離線轉寫與離線聽寫有著很大差異。

離線聽寫多以短語音為主,數據是偶爾性調用,對瞬間運算能力有較大要求;離線轉寫多以長語音為主,數據調用一般持續(xù)1小時或數小時以上,對硬件的長時間算力、CPU功耗和散熱情況等要求更高。

軟件方面,離線轉寫需適配訊飛的離線轉寫算法,實現(xiàn)與云端相當的實時性和準確性。同時,還要確保整機在長時間的轉寫過程中,溫度始終維持在合適范圍內,這也是離線轉寫算法的關鍵難點。

針對這些難點,訊飛的轉寫技術主要從兩個方面進行了優(yōu)化和創(chuàng)新。

一方面,訊飛錄音筆采用CPU主頻自適應調整、線程數動態(tài)調度等方式來緩解設備發(fā)熱情況,以確保設備處于離線轉寫運行時工作頻率始終保持穩(wěn)定。這樣不僅能保障離線轉寫的實時性和準確性,還能保證整機溫度的適宜。

另一方面,訊飛離線轉寫采用和在線轉寫幾乎相同的核心算法,針對錄音筆硬件的特性與指標進行裁剪與適配,包括模型蒸餾、定點化運算、多幀并行等技術,以實現(xiàn)流暢運行的目的。

基于這些突破,訊飛離線轉寫功能在此次新推出的智能錄音筆上實現(xiàn)了首次落地。據了解,與云端轉寫相比,訊飛錄音筆離線轉寫所損失的準確率低于相對10%。

三、訊飛首款TWS耳機iFLYBUDS的三大核心亮點

訊飛的創(chuàng)新發(fā)布不僅僅是智能錄音筆,還有智能TWS耳機iFLYBUDS。

作為訊飛的首款智能TWS耳機,iFLYBUDS在誕生之初就將目標瞄準了商務應用市場,滿足商務人士在自駕、通勤和會議等多場景中,進行高效記錄和溝通的需求。

具體來看,訊飛智能TWS耳機iFLYBUDS有三大核心優(yōu)勢,分別為通話實時轉寫、智能撥號識別、通話譯文。

iFLYBUDS通話轉文字的功能,均支持iPhone和安卓手機,并不需要獲得手機的通話錄音權限,只需聲音通過耳機即可在App上實現(xiàn)通話語音的轉寫。

1、通話實時轉寫

iFLYBUDS支持常規(guī)電話和網絡電話,包括微信語音、騰訊會議和釘釘語音等。在多人會議場景下,iFLYBUDS還支持自動區(qū)分講話人,方便用戶快速查找通話內容。

通話時,用戶可隨時通過一鍵錄音功能,將通話過程轉文字,轉寫準確率達98%;通話結束后,iFLYBUDS將形成智能摘要,自動提煉通話重點內容,并支持對通話內容的多終端(手機端和電腦端)分享和編輯。

2、智能語音撥號

針對商務人士通訊錄中聯(lián)系人重名、同音等情況,iFLYBUDS支持用戶通過多種方式區(qū)分人名,以快速找到正確聯(lián)系人,提升撥號效率。

一方面,用戶可通過純語音交互,只說聯(lián)系人姓名即可撥號;另一方面,用戶還能通過詞語舉例、歸屬地名稱區(qū)分的方式讓耳機快速撥號,如“章子怡的章、立早章”、“北京的章總”。

3、通話譯文對照

在外貿商務交流場景中,用戶時常會遇到專業(yè)詞生僻等語言溝通障礙。

為了解決這一用戶需求,iFLYBUDS在用戶進行英語通話時,能變身“翻譯官”,幫助用戶將通話內容實時轉譯為漢字,輔助用戶英語溝通。

除了三大核心功能外,iFLYBUDS在音質、連接、延遲、續(xù)航和降噪方面也有著自己的特色。

其中在續(xù)航方面,iFLYBUDS支持2.5小時通話時長,4小時聽歌時長,若搭配充電盒使用,可實現(xiàn)最長通話10小時,最長聽歌20小時。

在極限使用場景下,iFLYBUDS同時進行通話+錄音+轉寫的續(xù)航為2小時,搭配充電盒的最長使用時長為6小時。

降噪方面,iFLYBUDS的智能降噪功能采用雙麥克風拾音,CVC降噪算法,保證用戶在機場、健身房等嘈雜環(huán)境中的清晰流暢通話體驗。

此外,iFLYBUDS還支持智能語音助手、自定義輕擊耳機交互和佩戴檢測等功能。

訊飛消費者業(yè)務擴軍智能錄音筆,新玩法押注TWS賽道

科大訊飛堅持做源頭技術自主創(chuàng)新,我們很榮幸在2019年被列入“實體清單”。胡郁在發(fā)布會上笑稱。

美國當地時間2019年10月7日,美國聯(lián)邦政府宣布,將28家中國企業(yè)實體加入“實體管制清單”,禁止這些企業(yè)購買美國產品。而被列入實體管制清單的多為國內人工智能領域國際領先企業(yè)。

盡管如此,據發(fā)布會上公布數據顯示,2019年、2020年,“我們(科大訊飛)的智能錄音筆在天貓、京東電商平臺超過其他錄音筆產品總和。”

也是在這個過程中,訊飛生態(tài)產業(yè)鏈中開發(fā)者團隊數量從2017年1月的53萬、累計終端17億發(fā)展到今天的開發(fā)者團隊142萬、累計終端數29.6億。

據胡郁介紹稱,目前科大訊飛的核心技術分為兩個方面:第一,參與國家重大戰(zhàn)略規(guī)劃方向——教育、醫(yī)療、智慧城市、智慧司法等。在這些方面,通過科大訊飛的人工智能專家系統(tǒng)替代相關領域工作人員繁重的工作,提高工作效率;第二,服務廣大消費者。目前科大訊飛發(fā)布的消費類產品已經覆蓋移動場景、家庭場景、辦公場景、生活場景、學習場景。2017-1019年,科大訊飛的消費者業(yè)務從每年6億收入、3億毛利增長到30億收入、15億毛利。

今年上半年除去因為疫情影響導致翻譯機市場波動以外,其他硬件產品實現(xiàn)了200%的增長。

而今年下半年,對于國內人工智能產業(yè)來說,仍是一個逆風期,科大訊飛仍需要繼續(xù)努力。

回顧過去幾年錄音筆行業(yè)的發(fā)展,一面是傳統(tǒng)錄音筆市場的破局,一面是AI技術的迅速發(fā)展與落地。

科大訊飛作為一家國內老牌智能語音企業(yè),緊緊地抓住了傳統(tǒng)行業(yè)變革與新技術迸發(fā)的發(fā)展機遇,與過去自身長達20余年的語音技術基因相碰撞,從而催生出AI錄音筆的新品類市場。

這既是訊飛的優(yōu)勢,也是它的挑戰(zhàn)。從最初簡簡單單的錄音筆到一塊帶屏智能錄音筆,再到如今訊飛智能錄音筆SR系列的補全,訊飛圍繞語音技術的AI布局始終具有創(chuàng)新性和挑戰(zhàn)性。

尤其是訊飛首款智能TWS耳機的誕生,不僅實現(xiàn)了AI轉寫等技術在多個設備的落地和創(chuàng)新應用,還進一步擴張了自身AI戰(zhàn)略版圖,將智能語音和轉寫賽道的邊界拓寬到錄音筆行業(yè)之外。

至此,訊飛以智能語音為基礎的產品品類在AI轉寫賽道的布局,已愈發(fā)地多元化。同時,訊飛基于這些技術所帶來的跨邊界融合,也給整個錄音筆和可穿戴設備行業(yè)的創(chuàng)新應用與發(fā)展,提供了一個新的思考路徑和解決方向。

未來,訊飛消費者業(yè)務或將繼續(xù)打破不同模態(tài)技術之間的應用與融合,將自身業(yè)務的邊界拓寬到更遠的領域。

文章來源: 智東西

商媒在線
免責聲明:商媒在線所提供的信息及圖片除原創(chuàng)外,有部分資訊和圖片從網絡等媒體收集而來,版權歸原作者及媒體網站所有,商媒在線力求保存原有的版權信息并盡可能注明來源;部分因為操作上的原因可能已將原有信息丟失,敬請原作者諒解,如果您對商媒在線所載文章及圖片版權的歸屬存有異議,請立即通知商媒在線,商媒在線將立即予以刪除,同時向您表示歉意!

最新資訊