魔搭+ 函数计算_ 一键部署,缩短大模型选型到生产的距离
引言
面對魔搭 ModelScope 社區提供的海量模型,用戶希望快速進行選型并生產使用起來,但在此之前,卻一定會面臨算力管理難、模型部署難等一系列問題,那么能否實現快速把選定的模型部署在云端功能強大的 GPU 上,由云端負責服務,擴展,保護和監控模型服務,同時免于運維和管理云上算力等基礎設施呢?魔搭ModelScope +函數計算 FC 給了這樣一種方案。
魔搭+函數計算,一鍵部署模型上云
魔搭 ModelScope 社區模型服務 SwingDeploy 支持將模型從魔搭社區的模型庫一鍵部署至用戶阿里云賬號的云資源上,并根據模型資源要求為用戶自動推薦最佳部署配置。讓開發者可以將魔搭開源模型一鍵部署至阿里云函數計算,當選擇模型并部署時,系統會選擇對應的機器配置。按需使用可以在根據工作負載動態的減少資源,節約機器使用成本。5分鐘完成從開源模型至模型推理 API 服務的生產轉換。
得益于阿里云函數計算的產品能力,魔搭 SwingDeploy 后的模型推理 API 服務默認具備:極致彈性伸縮(縮零能力)、GPU 虛擬化(最小 1GB 顯存粒度)、異步調用能力、按用付費、閑置計費等能力,這些能力幫助算法工程師大大加快了魔搭開源模型投入生產的生命周期。
以百川智能的大型語言模型為例
接下來,我們將演示如何利用魔搭 ModelScope 社區 的一鍵部署技術(SwingDeploy),選取百川智能的大語言模型(LLM)為案例,將其部署至函數計算平臺并啟用閑置計費。我們將提供一系列詳盡的步驟指南:
準備工作
- 打開 ModelScope 官網,登錄/注冊賬號
2.綁定阿里云賬號后,可使用在線調試、訓練及部署等能力
模型部署
- 導航至模型卡片:請在魔搭 ModelScope 社區的模型庫頁面進行搜索,定位到"baichuan2-7b-chat-4bits",并點擊進入該模型的詳細頁面。為了便捷,您還可以通過提供的URL直接訪問該模型卡片。
- 執行快速部署操作:請在模型卡片的右上角找到并點擊“部署”按鈕,并從下拉菜單中選擇“快速部署(SwingDeploy)”,隨后選擇“函數計算(FC)”作為目標部署平臺。在隨后出現的彈窗中,您將有機會對模型的部署參數進行詳細配置,這包括選擇適當的模型版本、部署的地理區域、顯卡型號以及需要的顯存容量等。完成這些必要設置后,請點擊“一鍵部署”以初始化部署過程。
注意:目前函數計算 GPU 的閑置計費模式只適用于杭州和上海地區,并且僅限于整卡使用。因此,在配置部署選項時,請確保地域設置為杭州或上海,并選擇相應的顯存容量,即 16GB 對應于T4顯卡型號,或 24GB 對應于A10 顯卡型號。
- 確認部署成功:成功執行“一鍵部署”后,ModelScope 將開始將模型部署到函數計算云服務,此過程通常需要1至5分鐘完成。部署完畢時,您可返回 ModelScope 主頁,導航至“模型服務”下的“部署服務(SwingDeploy)”板塊,以確認部署狀態顯示為“部署成功”。
啟用預留閑置模式
- 將模型服務配置為預留模式:您可能已經發現,ModelScope 會默認使用按量模式進行部署,為了優化成本和性能,您需要將模型服務配置為預留模式。這可以通過點擊“服務模式切換”至“預留模式”來實現。
- 激活預留模式的閑置計費功能: 完成服務模式的切換至“預留模式”之后,您需要再次點擊服務模式的切換按鈕。隨后,在彈出的窗口中選擇“更改配置”,這將引導您跳轉至函數計算控制臺。在控制臺的“函數彈性管理”頁面,激活“閑置計費選項并保存設置,以啟用函數計算 GPU 函數的閑置計費模式。這將有助于您在保留資源的同時優化成本效益。
在成功激活閑置計費模式后,在函數的彈性管理界面中,您應該能夠看到已明確標注“閑置計費模式已開啟”。此時,當“當前實例數”與“目標預留實例數”一致時,表明所有的閑置實例均已成功啟動并處于待命狀態,
開始使用
根據魔搭 ModelScope 模型服務里的立即使用說明,我們可以順利調用到該次部署的 LLM 模型
LLM 一覽表
由于當前社區以及多種層出不窮的大語言模型(LLM),本表格僅列舉了當前熱度較高的常用 LLM 基礎模型,在其之上的微調模型同樣是可以部署至函數計算平臺,并開啟閑置預留模式。
如果您有任何反饋或疑問,歡迎加入釘釘用戶群(釘釘群號:11721331)與函數計算工程師即時溝通。
| 模型系列 | LLM模型 |
|---|---|
| 通義千問 |
- Qwen-14B - Qwen-14B-Chat - Qwen-14B-Chat-Int8 - Qwen-14B-Chat-Int4 |
|
- Qwen-7B - Qwen-7B-Chat - Qwen-7B-Chat-Int8 - Qwen-7B-Chat-Int4 |
|
|
- Qwen-1.8B - Qwen-1.8B-Chat - Qwen-1.8B-Chat-Int4 |
|
| 百川智能 |
- Baichuan2-13B-Base - Baichuan2-13B-Chat - Baichuan2-13B-Chat-4bits |
|
- Baichuan2-7B-Base - Baichuan2-7B-Chat - Baichuan2-7B-Chat-4bits |
|
|
- Baichuan-13B-Chat |
|
|
- Baichuan-7B |
|
| 智譜.AI |
- ChatGLM3-6B |
|
- ChatGLM2-6B |
|
| 更多可支持的開源LLM模型請參考Modelscope |
函數計算大幅降低用戶 GPU 成本
隨著 AGI 技術的迅速發展,各類型企業越來越多地依賴于 GPU 計算資源來推動他們的業務增長。對于正在使用或計劃部署大型語言模型(LLM)等先進技術的客戶來說,成本效率是一個重要的考慮因素。函數計算推出 GPU 閑置計費功能,在保障性能的前提下,可以幫助您大幅降低 GPU 的成本開銷。
GPU 閑置計費 - 實時/準實時推理服務部署方式的革新
函數計算 GPU 閑置計費功能是一個行業領先的創新,它允許用戶在不犧牲性能的前提下,以更低的成本使用 GPU 資源。這個新功能旨在解決傳統 GPU 計費模式中的一個常見問題:即便 GPU 實例在沒有服務請求時,用戶仍然需要支付全部的資源消耗費用。現在,通過函數計算后臺的顯存管理,函數計算實例的 GPU 資源只有當請求到來時,才會被激活;當請求完成后,GPU 資源自動被函數計算平臺凍結,用戶無需為高昂的 GPU 使用費用買單。
部署 LLM 的成本效益分析
傳統地部署大型語言模型(LLM)可能需要昂貴的 GPU 支持,尤其在需要大量計算資源時。但請求處理并不是每時每刻都處于活躍狀態,勢必存在流量的潮汐現象,后端的計算資源會出現空載導致成本的浪費。借助函數計算 GPU 閑置計費功能,用戶的開銷將會根據實際計算負載動態調整。
在函數計算的 GPU 閑置模式下,當實例活躍時 GPU 單價為0.00011元/GB * 秒;當實例進入閑置模式后,閑置 GPU 單價為0.000009/GB * 秒。閑置下的使用成本僅為活躍狀態的1/10。
讓我們以一個實際的例子來說明這種計費方式的成本效果:
某 AI 初創公司使用 LLM 微調模型提供客服機器人業務,客戶需要確保客服機器人業務能夠快速響應用戶的請求,因此對于冷啟動時間有較高的要求,所以無法選擇按量付費模式,他們選擇了預留實例模式來避免冷啟動問題;但同時也發現,在一個小時內,GPU 資源并不是滿載的,真正發生在 GPU 實例上的請求時長總計總計只有20分鐘,進而他們選擇了函數計算業內首創的閑置預留模式。
基于這樣典型的場景,根據函數計算 GPU 的計費模式我們來算這樣一筆賬
- 僅使用 GPU 實例預留模式:
- 該客戶會選擇在業務高峰時期,預留10個16GB顯存的實例為業務提供推理請求,GPU 實例使用單價,GPU 部分的資源開銷約為6.34元/時/實例
- 使用 GPU 實例預留模式 + 閑置計費后
- 同樣預留10個16GB顯存的實例為業務提供推理請求,我們以40分鐘閑置,20分鐘活躍來進行計算,總GPU 部分資源成本約為2.46元/時/實例
以上面的例子進行成本的推演,我們可以看到閑置計費模式可以為節省60%的 GPU 資源成本。
開通函數計算獲試用額度
函數計算為首次開通服務的用戶提供免費試用額度,試用額度的有效期為3個月,自購買之日起,超出試用額度的部分均會計入按量付費。試用額度的詳細信息如下。
- GPU試用額度:前100萬GB*秒GPU資源使用免費。
- vCPU試用額度:前50萬vCPU*秒vCPU資源使用免費。
- 內存試用額度:前200萬GB*秒內存資源使用免費。
- 函數調用試用額度:前800萬次函數調用免費。
除以上試用額度,2023年12月19日0時之后,函數計算還為首次開通服務的用戶發放有效期3個月,每個月100 GB的CDT公網流量試用額度。
如何部署使用?
說明
【公測 - 申請使用】Serverless GPU 閑置計費當前為邀測功能,如需體驗,請提交公測申請或聯系客戶經理申請。
您僅需登錄至函數計算服務控制臺,訪問對應函數的彈性管理界面,并激活閑置計費功能。
相關鏈接匯總
- 魔搭 ModelScope 社區官網:https://modelscope.cn/home
- 函數計算產品官網:https://www.aliyun.com/product/fc
- 一鍵部署新手操作指南:https://developer.aliyun.com/article/1307460
- 通義千問模型系列:https://modelscope.cn/organization/qwen
- 智譜.AI系列:https://modelscope.cn/organization/ZhipuAI
- 百川模型:https://modelscope.cn/organization/baichuan-inc
- 函數計算閑置GPU實例公測申請:https://survey.aliyun.com/apps/zhiliao/dXfRVPEm-
總結
以上是生活随笔為你收集整理的魔搭+ 函数计算_ 一键部署,缩短大模型选型到生产的距离的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flask的简单学习
- 下一篇: 定向减免!函数计算让 ETL 数据加工更