新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具
文章來(lái)源:AI先鋒官
圖片來(lái)源:由無(wú)界AI生成
自ChatGPT問(wèn)世以來(lái),全球掀起了大模型的“軍備競(jìng)賽”。據(jù)報(bào)道,今年1-7月國(guó)內(nèi)共發(fā)布了64個(gè)大模型。截至2023年7月,中國(guó)累計(jì)有130個(gè)大模型問(wèn)世。
“百模大戰(zhàn)”都不足以形容如今的焦灼“戰(zhàn)況”,那么究竟哪家大模型更勝一籌呢?這就離不開(kāi)大模型的評(píng)測(cè)。
然而,現(xiàn)階段并不存在一個(gè)公認(rèn)有效的評(píng)測(cè)方式,這就導(dǎo)致國(guó)內(nèi)外的大模型評(píng)測(cè)領(lǐng)域出現(xiàn)“榜單大戰(zhàn)”。不完全統(tǒng)計(jì),目前市面上的評(píng)測(cè)工具(系統(tǒng))不下50個(gè),同類榜單的結(jié)果卻可以千差萬(wàn)別。公眾關(guān)于“刷分”的質(zhì)疑更是不絕于耳。
業(yè)界一般認(rèn)為,評(píng)價(jià)一款大模型有兩個(gè)顯化標(biāo)準(zhǔn):一是參數(shù)量,二是評(píng)測(cè)集。
所謂參數(shù)量,是指模型中可學(xué)習(xí)的參數(shù)數(shù)量,包括模型的權(quán)重和偏置。參數(shù)量的大小決定了模型的復(fù)雜程度,更多的參數(shù)和層數(shù),是大模型區(qū)別于小模型的標(biāo)志性特點(diǎn)。2022年,美國(guó)一批大模型亮相,從Stability AI發(fā)布由文字到圖像的生成式模型Diffusion,再到OpenAI推出的ChatGPT,模型參數(shù)規(guī)模開(kāi)始進(jìn)入百億、千億級(jí)別時(shí)代。
從表面指標(biāo)看,千億參數(shù)的模型普遍比百億級(jí)表現(xiàn)更好。不過(guò)這也不絕對(duì),堆參數(shù)也未必就能提升能力。那么,同樣參數(shù)級(jí)別的模型應(yīng)該如何分辨優(yōu)劣?這就需要引入大模型的第二個(gè)評(píng)測(cè)維度——評(píng)測(cè)集。
評(píng)測(cè)集是為有效評(píng)估基礎(chǔ)模型及其微調(diào)算法在不同場(chǎng)景、不同任務(wù)上的綜合效果,所構(gòu)建的單任務(wù)或多任務(wù)的統(tǒng)一基準(zhǔn)數(shù)據(jù)集,有公開(kāi)和封閉兩種形態(tài)。
這些評(píng)測(cè)集就像針對(duì)不同領(lǐng)域的考卷,通過(guò)測(cè)試大模型在這些“考卷”中的得分,人們可以更直觀地比較大模型的性能高低。
在小模型時(shí)代,大多數(shù)模型機(jī)構(gòu)都會(huì)使用學(xué)術(shù)類評(píng)測(cè)集效果來(lái)作為評(píng)判模型好壞的依據(jù)。現(xiàn)在,大模型廠商也開(kāi)始更加主動(dòng)地參與到學(xué)術(shù)界基準(zhǔn)測(cè)試框架中來(lái),視其為權(quán)威背書(shū)與營(yíng)銷依據(jù)。
市面上已出現(xiàn)不少大模型的評(píng)測(cè)集,例如國(guó)際上用的較多的大模型評(píng)測(cè)集MMLU、中文評(píng)估模型C-Eval、SuperCLUE等。
-1- 評(píng)測(cè)工具
MMLU
全稱Massive Multitask Language Understanding,是一種針對(duì)大模型的語(yǔ)言理解能力的測(cè)評(píng),是目前最著名的大模型語(yǔ)義理解測(cè)評(píng)之一,由UC Berkeley大學(xué)的研究人員在2020年9月推出。該測(cè)試涵蓋57項(xiàng)任務(wù),包括初等數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等。任務(wù)涵蓋的知識(shí)很廣泛,語(yǔ)言是英文,用以評(píng)測(cè)大模型基本的知識(shí)覆蓋范圍和理解能力。
論文地址:
https://arxiv.org/abs/2009.03300
官方網(wǎng)站:?
https://paperswithcode.com/dataset/mmlu
大模型排行榜:?
https://paperswithcode.com/sota/multi-task-anguage-understanding-on-mmlu
C-Eval
C-Eval 是一個(gè)全面的中文基礎(chǔ)模型評(píng)估套件。由上海交通大學(xué)、清華大學(xué)和愛(ài)丁堡大學(xué)研究人員在2023年5月份聯(lián)合推出,它包含了13948個(gè)多項(xiàng)選擇題,涵蓋了52個(gè)不同的學(xué)科和四個(gè)難度級(jí)別,用以評(píng)測(cè)大模型中文理解能力。
論文地址:
https://arxiv.org/abs/2305.08322
項(xiàng)目地址:
https://github.com/SJTU-LIT/ceval
官方網(wǎng)站:
https://cevalbenchmark.com/
SuperCLUE
中文通用大模型綜合性評(píng)測(cè)基準(zhǔn),從三個(gè)不同的維度評(píng)價(jià)模型的能力:基礎(chǔ)能力、專業(yè)能力和中文特性能力。
其中基礎(chǔ)能力能力包括: 語(yǔ)義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。
專業(yè)能力包括: 包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。
中文特性能力: 針對(duì)有中文特點(diǎn)的任務(wù),包括了中文成語(yǔ)、詩(shī)歌、文學(xué)、字形等10項(xiàng)多種能力。
項(xiàng)目地址:
https://github.com/CLUEbenchmark/SuperCLUE
官方網(wǎng)站:
https://www.cluebenchmarks.com/
SuperCLUE瑯琊榜
中文通用大模型匿名對(duì)戰(zhàn)評(píng)價(jià)基準(zhǔn),與ChatbotArena相同以眾包方式讓不同的大模型產(chǎn)品進(jìn)行匿名、隨機(jī)的對(duì)抗測(cè)評(píng),結(jié)果基于Elo評(píng)級(jí)系統(tǒng)。
項(xiàng)目地址:
https://github.com/CLUEbenchmark/SuperCLUElyb
Chatbot Arena
ChatbotArena是一個(gè)大型語(yǔ)言模型 (LLM) 的基準(zhǔn)平臺(tái),該項(xiàng)目方LMSYS Org是由加州大學(xué)伯克利分校、加州大學(xué)圣地亞哥分校和卡內(nèi)基梅隆大學(xué)合作創(chuàng)立的研究組織。
以眾包方式進(jìn)行匿名隨機(jī)對(duì)戰(zhàn)的LLM基準(zhǔn)平臺(tái)。通過(guò)demo體驗(yàn)地址進(jìn)入對(duì)戰(zhàn)平臺(tái)。輸入自己感興趣的問(wèn)題,提交問(wèn)題后,匿名模型會(huì)兩兩對(duì)戰(zhàn),分別生成相關(guān)答案,需要用戶對(duì)答案做出評(píng)判,從4個(gè)評(píng)判選項(xiàng)中選擇一個(gè):模型A更好、模型B更好、平手、都很差。支持多輪對(duì)話。最終使用Elo評(píng)分系統(tǒng)對(duì)大模型的能力進(jìn)行綜合評(píng)估。(可以自己指定模型看效果,但不計(jì)入最終排名情況)。
項(xiàng)目地址:
https://github.com/lm-sys/FastChat
官方網(wǎng)站:
https://chat.lmsys.org/
FlagEval
FlagEval(天秤)由智源研究院將聯(lián)合多個(gè)高校團(tuán)隊(duì)打造,是一種采用“能力—任務(wù)—指標(biāo)”三維評(píng)測(cè)框架的大模型評(píng)測(cè)平臺(tái),旨在提供全面、細(xì)致的評(píng)測(cè)結(jié)果。該平臺(tái)已提供了 30 多種能力、5 種任務(wù)和 4 大類指標(biāo),共 600 多個(gè)維度的全面評(píng)測(cè),任務(wù)維度包括 22 個(gè)主客觀評(píng)測(cè)數(shù)據(jù)集和 84433 道題目。
FlagEval(天秤)第一期已推出大語(yǔ)言模型評(píng)測(cè)體系、開(kāi)源多語(yǔ)言文圖大模型評(píng)測(cè)工具mCLIP-Eval 和開(kāi)源文圖生成評(píng)測(cè)工具 ImageEval。天秤平臺(tái)還將繼續(xù)探索語(yǔ)言大模型評(píng)測(cè)與心理學(xué)、教育學(xué)、倫理學(xué)等社會(huì)學(xué)科的交叉研究,以期更加科學(xué)、全面地評(píng)價(jià)語(yǔ)言大模型。FlagEval 針對(duì)大模型開(kāi)發(fā)者和使用者,旨在幫助各個(gè)開(kāi)發(fā)團(tuán)隊(duì)了解自身模型的薄弱之處,并推動(dòng)技術(shù)創(chuàng)新。
項(xiàng)目地址:
https://github.com/FlagOpen/FlagEval
官方網(wǎng)站:
https://flageval.baai.ac.cn/
OpenCompass
2023年8月,上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)正式推出OpenCompass大模型開(kāi)放評(píng)測(cè)體系,通過(guò)完整開(kāi)源可復(fù)現(xiàn)的評(píng)測(cè)框架,支持大語(yǔ)言模型、多模態(tài)模型各類模型的一站式評(píng)測(cè),并定期公布評(píng)測(cè)結(jié)果榜單。
官方網(wǎng)站:
https://opencompass.org.cn/
項(xiàng)目地址:
https://github.com/open-compass/opencompass
JioNLP
考察 LLM 模型對(duì)人類用戶的幫助效果、輔助能力,可否達(dá)到一個(gè)“智能助手”的水平題型,選擇題來(lái)源于中國(guó)大陸國(guó)內(nèi)各種專業(yè)性考試,重點(diǎn)在于考察模型對(duì)客觀知識(shí)的覆蓋面,占比 32%;主觀題來(lái)源于日常總結(jié),主要考察用戶對(duì) LLM 常用功能的效果。
項(xiàng)目地址:
https://github.com/dongrixinyu/JioNLP/wiki/LLI評(píng)測(cè)數(shù)據(jù)集
清華安全大模型測(cè)評(píng)
清華收集的一個(gè)評(píng)測(cè)集,涵蓋了仇恨言論、偏見(jiàn)歧視言論、犯罪違法、隱私、倫理道德等八大類別,包括細(xì)粒度劃分的40余個(gè)二級(jí)安全類別。
地址:http://115.182.62.166:18000
LLMEval-3
由復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出,聚焦于專業(yè)知識(shí)能力評(píng)測(cè),涵蓋哲學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、教育學(xué)、文學(xué)、歷史學(xué)、理學(xué)、工學(xué)、農(nóng)學(xué)、醫(yī)學(xué)、軍事學(xué)、管理學(xué)、藝術(shù)學(xué)等教育部劃定的13個(gè)學(xué)科門類、50余個(gè)二級(jí)學(xué)科,共計(jì)約20W道標(biāo)準(zhǔn)生成式問(wèn)答題目。為了防止刷榜現(xiàn)象的發(fā)生,LLMEval-3評(píng)測(cè)采用了一種新穎的評(píng)測(cè)模式,即“題庫(kù)考試”模式。
地址:http://llmeval.com/
GAOKAO-Bench
GAOKAO-bench是一個(gè)以中國(guó)高考題目為數(shù)據(jù)集,測(cè)評(píng)大模型語(yǔ)言理解能力、邏輯推理能力的測(cè)評(píng)框架。
項(xiàng)目地址:?
https://github.com/OpenLMLab/GAOKAO-Bench
PandaLM
其是直接訓(xùn)練了一個(gè)自動(dòng)化打分模型,0.1.2三分制用模型對(duì)兩個(gè)候選模型進(jìn)行打分。
項(xiàng)目地址:
https://github.com/We0penML/PandaLM
BIG-bench
google推出的一個(gè)評(píng)測(cè)集,BIG-bench由 204 項(xiàng)任務(wù)組成,任務(wù)主題涉及語(yǔ)言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識(shí)推理、生物學(xué)物理學(xué)、社會(huì)偏見(jiàn)、軟件開(kāi)發(fā)等等領(lǐng)域的問(wèn)題。
項(xiàng)目地址:?
https://github.com/google/BIG-bench
MMCU
甲骨易AI研究院提出一種衡量中文大模型處理多任務(wù)準(zhǔn)確度的測(cè)試, 數(shù)據(jù)集的測(cè)試內(nèi)容涵蓋四大領(lǐng)域:醫(yī)療、法律、心理學(xué)和教育。題目的數(shù)量達(dá)到1萬(wàn)+,其中包括醫(yī)療領(lǐng)域2819道題,法律領(lǐng)域3695道題,心理學(xué)領(lǐng)域2001道,教育領(lǐng)域3331道。
項(xiàng)目地址:?
https://github.com/Felixgithub2017/MMCU
AGI Eval
微軟發(fā)布的大模型基礎(chǔ)能力評(píng)測(cè)基準(zhǔn),在2023年4月推出,主要評(píng)測(cè)大模型在人類認(rèn)知和解決問(wèn)題的一般能力,涵蓋全球20種面向普通人類考生的官方、公共和高標(biāo)準(zhǔn)錄取和資格考試,包含中英文數(shù)據(jù)。因此,該測(cè)試更加傾向于人類考試結(jié)果,涵蓋了中英文。
論文地址:
https://arxiv.org/abs/2304.06364
GSM8K
OpenAI發(fā)布的大模型數(shù)學(xué)推理能力評(píng)測(cè)基準(zhǔn),涵蓋了8500個(gè)中學(xué)水平的高質(zhì)量數(shù)學(xué)題數(shù)據(jù)集。數(shù)據(jù)集比之前的數(shù)學(xué)文字題數(shù)據(jù)集規(guī)模更大,語(yǔ)言更具多樣性,題目也更具挑戰(zhàn)性。該項(xiàng)測(cè)試在2021年10月份發(fā)布,至今仍然是非常困難的一種測(cè)試基準(zhǔn)。
論文地址:
https://arxiv.org/abs/2110.14168
HELM
HELM評(píng)測(cè)方法主要包括場(chǎng)景、適配、指標(biāo)三個(gè)模塊,每次評(píng)測(cè)的運(yùn)行都需要指定一個(gè)場(chǎng)景,一個(gè)適配模型的提示,以及一個(gè)或多個(gè)指標(biāo)。它評(píng)測(cè)主要覆蓋的是英語(yǔ),有7個(gè)指標(biāo),包括準(zhǔn)確率、不確定性/校準(zhǔn)、魯棒性、公平性、偏差、毒性、推斷效率;任務(wù)包括問(wèn)答、信息檢索、摘要、文本分類等。
論文地址:?
https://arxiv.org/pdf/2211.09110.pdf
項(xiàng)目地址:?
https://github.com/stanford-crfm/helm
Chinese-LLalA-Alpaca
它的打分就是相對(duì)值,優(yōu)先使用gpt4,部分使用chatgpt3。
項(xiàng)目地址:
https://github.com/ymcui/Chinese-LLalA-Alpaca/tree/main
MT-bench
評(píng)估大模型的多輪對(duì)話和指令追隨能力。數(shù)據(jù)集包括80個(gè)(8category*10question)高質(zhì)量且多輪對(duì)話的問(wèn)題,每個(gè)問(wèn)題由6個(gè)知名大模型( GPT-4, GPT-3.5, Claud-v1, Vicuna-13B, Alpaca-13B, and LLaMA-13B)回答,人工排序得到3.3K pair對(duì)。
論文地址:
Judging LLM-as-a-judge with MT-Bench and Chatbot Arena
github
項(xiàng)目地址:
https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge
數(shù)據(jù)下載地址:
https://huggingface.co/datasets/lmsys/mt_bench_human_judgments
-2- 評(píng)測(cè)模式
通過(guò)上述評(píng)測(cè)工具發(fā)現(xiàn),目前常見(jiàn)的大模型評(píng)測(cè)模式可以大致總結(jié)為四種:
1.做題打分。主要是收集各種各樣的評(píng)測(cè)數(shù)據(jù)集,然后把數(shù)據(jù)集分為不同的維度能力。通過(guò)設(shè)計(jì)一些prompt讓大模型去做這些數(shù)據(jù)集的任務(wù),與標(biāo)準(zhǔn)答案進(jìn)行對(duì)照計(jì)算分?jǐn)?shù)。典型的如OpenCompass,huggingface的openLLM leaderboard等。
2.讓GPT-4做裁判。收集評(píng)測(cè)用的數(shù)據(jù)集(一些不是公開(kāi)開(kāi)源的、不帶標(biāo)準(zhǔn)答案的數(shù)據(jù)集也會(huì)包含在內(nèi)),然后讓GPT-4給大模型的生成結(jié)果進(jìn)行評(píng)判。此評(píng)判過(guò)程又有兩種打分方式,一是直接打分,一是設(shè)計(jì)一些維度,例如事實(shí)性、準(zhǔn)確性、安全合規(guī)性等,然后更細(xì)粒度地進(jìn)行評(píng)測(cè)。
3.競(jìng)技場(chǎng)模式。類似于競(jìng)技游戲里面的競(jìng)技場(chǎng)。每次拉兩個(gè)大模型選手PK,由用戶(有時(shí)候也會(huì)用GPT-4)來(lái)評(píng)測(cè)哪個(gè)模型更好,贏的大模型有加分,輸?shù)拇竽P陀袦p分。當(dāng)執(zhí)行了足夠多的PK輪次后,就會(huì)有一個(gè)大模型的得分排行榜,這個(gè)榜單相對(duì)來(lái)說(shuō)還是比較公正的,能夠較為客觀得體現(xiàn)模型的能力強(qiáng)弱。典型的例子如UC伯克利發(fā)布的Chatbot Arena Leaderboard。
4.針對(duì)單項(xiàng)能力的評(píng)測(cè)。例如針對(duì)數(shù)學(xué)能力、代碼能力、推理能力等,評(píng)測(cè)這些能力既可以判斷一個(gè)大模型是否真的具備類似人類的思考能力,其評(píng)測(cè)結(jié)果也能夠直接幫助在特定領(lǐng)域場(chǎng)合中選擇大模型(例如代碼助手)。
-3- 評(píng)價(jià)結(jié)果“天差地別”
評(píng)測(cè)工具五花八門,不同評(píng)測(cè)工具的評(píng)價(jià)結(jié)果也“天差地別”。
8月15日,一家機(jī)構(gòu)的人工智能大模型體驗(yàn)報(bào)告發(fā)布,對(duì)國(guó)內(nèi)主流大模型進(jìn)行使用體驗(yàn)的橫向測(cè)評(píng)。該榜單用500道題目評(píng)測(cè)了國(guó)內(nèi)8款主流AI大模型,最終訊飛星火排名第一,百度文心一言排名第二,阿里通義千問(wèn)排在倒數(shù)第二。
9月,學(xué)術(shù)界當(dāng)紅開(kāi)源評(píng)測(cè)榜單C-Eval最新一期排行榜中,云天勵(lì)飛的大模型“云天書(shū)”排在第一,而GPT-4僅名列第十。
同月,SuperCLUE發(fā)布了大模型9月榜單。總榜上GPT-4排名第一,而商湯科技的SenseChat3.0拿下中文榜單首位。
10月19日,斯坦福大學(xué)發(fā)布了2023基礎(chǔ)模型透明度指數(shù),對(duì)10個(gè)主流基礎(chǔ)模型進(jìn)行了透明度評(píng)級(jí),Llama 2排名第一、GPT-4排名第三。
為什么各大評(píng)測(cè)工具的評(píng)價(jià)結(jié)果截然不同呢?究其原因,主要有以下幾點(diǎn):
1.每個(gè)流行學(xué)術(shù)評(píng)測(cè)集都有自己的側(cè)重點(diǎn)。比如Meta最常選用的GSM8K和MMLU,是不同水平的考試集——前者是小學(xué)數(shù)學(xué),后者則是更高級(jí)的多學(xué)科問(wèn)答。就像一個(gè)班的學(xué)生參加不同學(xué)科的考試,大模型們?cè)诓煌駟紊献匀慌琶煌?/p>
2.主觀題在大模型評(píng)測(cè)中比例上升。在現(xiàn)行海內(nèi)外大模型評(píng)測(cè)榜單中,主觀題與客觀題結(jié)合的思路普遍被業(yè)內(nèi)認(rèn)可。但主觀題的挑戰(zhàn)在于,每個(gè)人心中的評(píng)價(jià)標(biāo)準(zhǔn)是否一致。以及“人類團(tuán)隊(duì)評(píng)分”必然會(huì)觸及題目數(shù)量的天花板,而對(duì)于大模型評(píng)測(cè)而言,題量越大得出的結(jié)論則越有效。
3.專用模型與通用大模型之間在垂直領(lǐng)域的同臺(tái)競(jìng)技導(dǎo)致排名失真。在實(shí)際落地場(chǎng)景中,制造業(yè)、醫(yī)療、金融等行業(yè)內(nèi)企業(yè)客戶在接入大模型能力時(shí)都需要根據(jù)自身數(shù)據(jù)庫(kù)做二次微調(diào)。這也意味著,原版通用大模型直接參與垂直領(lǐng)域問(wèn)答所得出的結(jié)果,并不能夠代表大模型產(chǎn)品在垂直領(lǐng)域的真實(shí)表現(xiàn)。
4.開(kāi)源測(cè)試集引發(fā)的“刷榜”現(xiàn)象。不少新晉大模型之所以能在開(kāi)源測(cè)試集榜單上的排名超越GPT-4,一些原因是因?yàn)樯嫦印八㈩}”。例如C-Eval目前只公開(kāi)了題目但沒(méi)有公開(kāi)答案,參與測(cè)試的大模型廠商要么找數(shù)據(jù)標(biāo)注員把題目做一遍,要么用GPT-4把題做一遍,再把答案扣下來(lái)訓(xùn)練大模型,這樣都能在相應(yīng)學(xué)科測(cè)試中獲得滿分。
閉源評(píng)測(cè)集就能規(guī)避“刷榜”嗎?不然,如果閉源評(píng)測(cè)集不進(jìn)行更新?lián)Q題,參與評(píng)測(cè)的模型可以從后臺(tái)拉出歷史記錄進(jìn)行“作弊”,重做被測(cè)試過(guò)的問(wèn)題。這等同于“虛假閉源”。
針對(duì)上述問(wèn)題,業(yè)界也在探索相應(yīng)的解決方案。
例如,對(duì)于大模型評(píng)測(cè)主觀題評(píng)價(jià)標(biāo)準(zhǔn)難以一致,以及“人類團(tuán)隊(duì)評(píng)分”觸及題目數(shù)量天花板的問(wèn)題,業(yè)內(nèi)開(kāi)始采用“人類+GPT4評(píng)分”的模式。國(guó)內(nèi)如SuperCLUE會(huì)選擇將GPT4視作“評(píng)卷老師”,讓其加入人類團(tuán)隊(duì)輔助評(píng)分。
再如“刷榜”問(wèn)題,業(yè)內(nèi)人士認(rèn)為,“評(píng)測(cè)集應(yīng)該是封閉的,避免被作弊,但一個(gè)好的大模型評(píng)測(cè)應(yīng)該是過(guò)程公開(kāi)的評(píng)測(cè),方便大家對(duì)評(píng)測(cè)做監(jiān)督?!?/p>
也有人認(rèn)為,將大模型評(píng)測(cè)過(guò)程公開(kāi)是很好的愿景,但考慮到評(píng)測(cè)的公平公正性,還是應(yīng)有大量的封閉評(píng)測(cè)集,“閉卷考試”才能真正的評(píng)價(jià)出模型的能力。
此外還有防刷分的大模型評(píng)測(cè),比如復(fù)旦大學(xué)NLP實(shí)驗(yàn)室推出LLMEval-3采用了一種新穎的評(píng)測(cè)模式,即“題庫(kù)考試”模式。在LLMEval-3中,每個(gè)參與評(píng)測(cè)的系統(tǒng)需要完成從總題庫(kù)中隨機(jī)抽樣的1000題,針對(duì)同一機(jī)構(gòu)的模型,確保每次評(píng)測(cè)題目不重復(fù)。評(píng)測(cè)過(guò)程將采用在線方式,一輪評(píng)測(cè)中題目的發(fā)送串行進(jìn)行,即下一題的發(fā)送將會(huì)視上一道題目的回答情況而定,避免惡意爬取行為。
由于大模型涉及的領(lǐng)域和應(yīng)用非常廣泛,不同領(lǐng)域、不同應(yīng)用的大模型需要關(guān)注的指標(biāo)和評(píng)估方法不盡相同。因此,針對(duì)具體應(yīng)用領(lǐng)域和需求,不同機(jī)構(gòu)和組織可能會(huì)提出不同的評(píng)估標(biāo)準(zhǔn)和方法?!氨M管沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),但測(cè)評(píng)的意義在于提供了一種評(píng)估和比較不同大模型性能和效果的方法,幫助用戶選擇適合自己需求的大模型?!?/p>
如何作出真正綜合全面的大模型評(píng)測(cè),學(xué)界和產(chǎn)業(yè)界最前沿也“一頭霧水”。即便如此,權(quán)威機(jī)構(gòu)更應(yīng)加強(qiáng)研究,盡快形成共識(shí),促進(jìn)技術(shù)進(jìn)步和行業(yè)發(fā)展。
總結(jié)
以上是生活随笔為你收集整理的新晋大模型动不动声称超越GPT-4,我们整理了这些评测工具的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 多数Uniswap DAO成员反对发行U
- 下一篇: 什么妇科疾病会导致不孕不育