近日,小紅書旗下的 FireRed 團(tuán)隊推出了全新的開源語音識別模型——FireRedASR。該模型作為基于大模型構(gòu)建的語音識別系統(tǒng),在多個標(biāo)準(zhǔn)測試集中都斬獲了極為優(yōu)異的成績,無疑為中文語音識別技術(shù)帶來了重大突破。
FireRedASR 的核心指標(biāo)是字錯誤率(CER),該指標(biāo)越低,表示模型的識別效果越好。在最近的公開測試中,F(xiàn)ireRedASR 的 CER 達(dá)到了3.05%,較之前的最佳模型 Seed-ASR 降低了8.4%。這一結(jié)果顯示出 FireRed 團(tuán)隊在語音識別技術(shù)上的創(chuàng)新能力。
FireRedASR 模型分為兩種核心結(jié)構(gòu):FireRedASR-LLM 和 FireRedASR-AED。前者專注于極致的語音識別精度,后者則在準(zhǔn)確率與推理效率之間實現(xiàn)了良好的平衡。團(tuán)隊提供了不同規(guī)模的模型和推理代碼,以滿足各種應(yīng)用場景的需求。
在多個日常應(yīng)用場景中,F(xiàn)ireRedASR 同樣展現(xiàn)了強(qiáng)大的性能。在由短視頻、直播和語音輸入等多種來源組成的測試集中,F(xiàn)ireRedASR-LLM 的 CER 相較于業(yè)內(nèi)領(lǐng)先的服務(wù)提供商降低了23.7% 至40%。特別是在需要歌詞識別的場景中,該模型的表現(xiàn)尤為突出,CER 實現(xiàn)了50.2% 至66.7% 的相對降低。
此外,F(xiàn)ireRedASR 還在中文方言和英語場景中表現(xiàn)優(yōu)異,其 CER 在 KeSpeech 和 LibriSpeech 測試集上顯著優(yōu)于之前的開源模型,證明其在多種語言環(huán)境中的魯棒性和適應(yīng)性。
FireRed 團(tuán)隊希望通過開源這一新模型,推動語音識別技術(shù)的發(fā)展和應(yīng)用,為語音交互的未來貢獻(xiàn)力量。所有模型和代碼已在 GitHub 上公開,鼓勵更多開發(fā)者和研究者參與其中。
Copyright 2025 //m.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號-1 網(wǎng)站地圖