一、服務(wù)器端需要部署的模型類別
語音轉(zhuǎn)文本模型(STT),即語音識(shí)別模型:服務(wù)器端部署或在機(jī)器人端實(shí)現(xiàn)。
自然語言理解模型(NLU):服務(wù)器端部署。
文本語言大模型(LLM):可采用私有化部署到本地的方案。也可采用通過API調(diào)用大廠LLM的方案。
文本合成語音模型(TTS):服務(wù)器端部署。
二、服務(wù)端功能需求
接收機(jī)器人端傳來的語音,將將語音轉(zhuǎn)文本后進(jìn)行意圖識(shí)別。
如果是“喚醒意圖”,則向機(jī)器人發(fā)送“喚醒指令”文本。
如果是“語音控制意圖”,則向機(jī)器人發(fā)送“控制指令”文本。
如果是聊天意圖,則將機(jī)器人端傳來的語音進(jìn)行處理后,生成回復(fù)語音返回給機(jī)器人。處理鏈路大致為:speech → STT → NLU → LLM → TTS → audio_response。
三、機(jī)器人端功能需求
提供機(jī)器人端SDK,機(jī)器人端通過調(diào)用API(C++)向服務(wù)端發(fā)送語音數(shù)據(jù)。
如果語音喚醒功能是在機(jī)器人本地實(shí)現(xiàn),則需要提供語音喚醒功能的SDK。
已完結(jié) 2025-04-19發(fā)布
招標(biāo)-按項(xiàng)目付費(fèi)