服務區(qū)域:全國
服務內容全部包含:
大模型,GPU,手機端,嵌入式部署。模型壓縮,精度有競爭力。性能有競爭力。支持多batch。支持自定義模型。
支持fp8量化。有精度召回的手段。更擅長性能優(yōu)化,從系統(tǒng)到底層匯編級優(yōu)化。
服務優(yōu)勢:
1. 有多年深度學習模型部署經驗。
2. 有大模型GPU,NPU實際部署經驗。
3. 量化精度在業(yè)內具有優(yōu)勢。
4. 吞吐,延時在業(yè)內具有競爭力。
服務前需客戶提供的信息:
模型名稱, 用于確認是否可以支持。
模型大小, 用于評估模型的吞吐和性能。
模型定義, 轉換模型必須
模型權重(非必須) 用戶測試精度和性能
測試數(shù)據(jù) 用于測試效果
性能測試平臺 用于測試實際效果
其他:
硬件平臺差異導致性能差異。
系統(tǒng)框架