OpenAI發現將推理成本減半的新方法

來源 Jinse_news
金色財經報道,據一位知曉相關討論的知情人士透露,有一則此前從未對外披露的消息:本月早些時候,OpenAI 工程師向部分同事表示,依託幾項全新研發的優化技術,他們找到了一套方案,能將模型推理成本削減一半以上。工程師將這套新技術應用於無免費 / 付費賬號訪客使用 ChatGPT 的場景後,一度把所需英偉達圖形處理器(GPU)數量壓至僅數百塊 —— 這一數字低得令人震驚。目前外界尚不清楚 OpenAI 實現此番算力效率大幅提升的具體技術手段,業內常用優化方案大致包括:量化壓縮、鍵值緩存、批量處理用戶查詢而非逐條單獨運算,以及將部分請求分流至功耗更低的輕量化模型或模型分片進行應答。
免責聲明:僅供參考。 過去的表現並不預示未來的結果。
goTop
quote