百川智能发布Baichuan-13B:参数量130亿
7月11日,百川智能正式發布參數量130億的通用大語言模型Baichuan-13B-Base、對話模型Baichuan-13B-Chat及其INT4/INT8兩個量化版本。
這是百川智能發布的第二款通用大語言模型,而在前不久的6月15日,百川智能就已經推出了首款70億參數量的中英文語言模型Baichuan-7B。
百川智能在發布預訓練模型Baichuan-13B-Base的同時還發布了其對話模型Baichuan-13B-Chat,Baichuan-13B-Chat部署簡單、開箱即用,極大降低了開發者的體驗成本。
百川智能表示,相比此前發布的Baichuan-7B,Baichuan-13B在1.4萬億token數據集上訓練,超過LLaMA-13B 40%,是當前開源13B尺寸下訓練數據量最大的模型,
據百川智能介紹,Baichuan-13B上下文窗口長度為4096,不同于Baichuan-7B的RoPE編碼方式,Baichuan-13B使用了ALiBi位置編碼技術,能夠處理長上下文窗口,甚至可以推斷超出訓練期間讀取數據的上下文長度,從而能夠更好的捕捉文本中上下文的相關性,做出更準確的預測或生成。
百川智能表示,Baichuan-13B是一款中英文雙語大模型,采用了相對平衡的中英文語料配比和多語言對齊語料,在中英兩種語言上表現均很優異.
Baichuan-13B-Base目前不僅對學術研究完全開放,所有開發者均可通過郵件向百川智能申請授權,在獲得官方商用許可后即可免費商用;此外,為了降低模型的使用門檻,百川智能同時開源了Baichuan-13B-Chat的INT8和INT4兩個量化版本,在近乎無損的情況下可以很方便的將模型部署在如3090等消費級顯卡上。
百川智能創始人王小川表示,“Baichuan-13B是百川智能為科技強國送上的一份禮物,我們期待國內大模型行業以及垂直領域能夠在此基礎上開發出更多優秀產品及行業應用,讓技術在真實、豐富的應用場景中快速迭代創新,我們愿與眾多企業、開發者一道為國內開源社區的生態繁榮貢獻自己的力量?!?/p>
總結
以上是生活随笔為你收集整理的百川智能发布Baichuan-13B:参数量130亿的全部內容,希望文章能夠幫你解決所遇到的問題。