自驱力超强的羊驼?斯坦福微调LLaMa
大型“指令調優”語言模型在新任務上展現了Zero-shot的卓越能力,但嚴重依賴于人類編寫的指令數據,而這些數據在數量、多樣性和創造性方面都是有限的。
斯坦福科研人員引入了self-instruction框架,提高指令遵循能力來自我迭代進化,與InstructGPT的性能相當,相比原始GPT3提升33%!將大模型與指令對齊再也不用人工標注(annotation-free),最后還發布了他們合成的自生成指令數據集,來促進對指令調優的研究。
自我指示self-instruct
self-instruct是一種任務不可知(task-agnostic)的方法,通過自己生成指令數據(指令、輸入和輸出樣本)并使用它進行引導來提高語言模型的指令遵循能力。
自動指示執行的流程:
首先準備好一個小的任務種子集(每個任務的一條指令和一個輸入-輸出實例)作為任務池開始,從任務池中抽取隨機任務用于提示語言模型LM(例如GPT3)生成新的指令和實例,再過濾低質量或類似的生成,合格的就添加回任務池。
羊駝Alpaca模型
指令遵循語言模型叫Alpaca羊駝,是在近期Meta開源的LLaMA 7B模型上進行微調的。語料使用的是text-davinci-003生成的52K指令。stanford_alpaca在GitHub開源,地址見文末。
整體流程圖:
訓練過程中,使用了完全分片數據并行(Fully Sharded Data Parallel) 和混合精度(mixed precision) 等訓練等技術,硬件方面:在8個80GB A100上對7B LLaMA模型進行微調3個小時,成本竟然不到100美元!但效果驚人,與InstructGPT_001的性能相當。
數據集合評估方法
52k數據集分布:
模型評估
采用四級評級系統,用于分類模型輸出的質量,定義如下:
A: 回答是有效和令人滿意的
B:響應是可以接受的,但有一些小錯誤或缺陷可以改進
C:響應是相關的,并響應指令,但它在內容中有重大錯誤。
D:響應不相關或無效,包括重復輸入,完全不相關的輸出等。
首發原文鏈接:
自驅力超強的羊駝?斯坦福Alpaca媲美text-davinci-003,成本不到600美元!
總結
以上是生活随笔為你收集整理的自驱力超强的羊驼?斯坦福微调LLaMa的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android 点击图标重启,Andro
- 下一篇: 聪明人