bert关键词提取_BERT可以上几年级了?Seq2Seq“硬刚”小学数学应用题
作者 | 蘇劍林
單位 | 追一科技
研究方向 | NLP、神經(jīng)網(wǎng)絡(luò)
“雞兔同籠”的那些年“盈虧問題”、“年齡問題”、“植樹問題”、“牛吃草問題”、“利潤問題”...,小學(xué)階段你是否曾被各種花樣的數(shù)學(xué)應(yīng)用題折磨過呢?沒關(guān)系,現(xiàn)在機(jī)器學(xué)習(xí)模型也可以幫助我們?nèi)ソ獯饝?yīng)用題了,來看看它可以上幾年級(jí)了?
本文將給出一個(gè)求解小學(xué)數(shù)學(xué)應(yīng)用題(Math Word Problem)的baseline,基于ape210k數(shù)據(jù)集訓(xùn)練,直接用Seq2Seq模型生成可執(zhí)行的數(shù)學(xué)表達(dá)式,最終Large版本的模型能達(dá)到**73%+**的準(zhǔn)確率,高于ape210k論文所報(bào)告的結(jié)果。所謂“硬剛”,指的是沒有對(duì)表達(dá)式做特別的轉(zhuǎn)換,也沒有通過模板處理,就直接生成跟人類做法相近的可讀表達(dá)式。
數(shù)據(jù)處理
這里我們先觀察一下ape210k數(shù)據(jù)集的情況:
{"id": "254761","segmented_text": "小 王 要 將 150 千 克 含 藥 量 20% 的 農(nóng) 藥 稀 釋 成 含 藥 量 5% 的 藥 水 . 需 要 加 水 多 少 千 克 ?","original_text": "小王要將150千克含藥量20%的農(nóng)藥稀釋成含藥量5%的藥水.需要加水多少千克?","ans": "450","equation": "x=150*20%/5%-150" }{"id": "325488","segmented_text": "一 個(gè) 圓 形 花 壇 的 半 徑 是 4 米 , 現(xiàn) 在 要 擴(kuò) 建 花 壇 , 將 半 徑 增 加 1 米 , 這 時(shí) 花 壇 的 占 地 面 積 增 加 了 多 少 米 * * 2 .","original_text": "一個(gè)圓形花壇的半徑是4米,現(xiàn)在要擴(kuò)建花壇,將半徑增加1米,這時(shí)花壇的占地面積增加了多少米**2.","ans": "28.26","equation": "x=(3.14*(4+1)**2)-(3.14*4**2)" }可以看到,我們主要關(guān)心的是original_text、equation、ans字段,其中original_text就是題目,equation則是運(yùn)算過程(一般以x=開頭),而ans是最終答案。我們希望訓(xùn)練一個(gè)模型,由original_text來生成equation,然后經(jīng)由python的eval函數(shù)直接得到ans。
不過,我們需要做一些前處理,因?yàn)閍pe210k給出的equation并不是都可以直接eval的,像上面的例子150*20%/5%-150對(duì)python來說就是一個(gè)非法表達(dá)式。筆者所做的處理如下:
經(jīng)過這樣處理后,大部分equation都可以直接eval了,并且可以與ans進(jìn)行答案對(duì)比,只保留結(jié)果一致的題目。不過,還有一點(diǎn)改進(jìn)的地方,就是這樣得到的表達(dá)式可能會(huì)帶有一些冗余的括號(hào)(也就是去掉括號(hào)后與原來的等價(jià)),因此還要加上一步去括號(hào),即遍歷每一組括號(hào),如果去掉該組括號(hào)結(jié)果與原來的等價(jià),那么就去掉該組括號(hào),這樣可以得到平均長度更短的表達(dá)式,而長度越短越容易生成。
最終,我們得到了如下可用的數(shù)據(jù)集:
剩下的基本上是一些錯(cuò)題、亂題了,暫時(shí)忽略。
模型簡(jiǎn)介
模型其實(shí)是最沒什么好講的,就是以original_text為輸入、equation為輸出,以“BERT+UniLM”為基礎(chǔ)架構(gòu),訓(xùn)練一個(gè)Seq2Seq模型。如果對(duì)模型還有什么疑惑的地方,請(qǐng)閱讀從語言模型到Seq2Seq:Transformer如戲,全靠Mask。
項(xiàng)目鏈接: http://github.com/bojone/ape210k_baseline
筆者的訓(xùn)練是用22G的單卡TITAN RTX跑的,優(yōu)化器是Adam,學(xué)習(xí)率是2e-5。Base版本的用了batch_size=32,大概需要訓(xùn)練25個(gè)epoch,每個(gè)epoch約50分鐘(算上驗(yàn)證集的評(píng)測(cè)時(shí)間);而large版本則是batch_size=16,大概需要訓(xùn)練15個(gè)epoch,每個(gè)epoch約2小時(shí)(算上驗(yàn)證集的評(píng)測(cè)時(shí)間)。
對(duì)了,說到Large,由于UniLM借用了MLM部分權(quán)重,所以我們不能用哈工大開源的RoBERTa-wwm-ext-large,因?yàn)檫@個(gè)版本的MLM權(quán)重是隨機(jī)初始化的(但它的Base版本是正常的,可以用)。Large版本推薦用騰訊UER開源的權(quán)重,原本是PyTorch版的,筆者將它轉(zhuǎn)換為TF版了,可以通過下方鏈接下載。
網(wǎng)盤鏈接: https://pan.baidu.com/s/1Xp_ttsxwLMFDiTPqmRABhg
提取碼: l0k6
效果如下表:
Large模型的結(jié)果已經(jīng)比ape210k的論文 Ape210K: A Large-Scale and Template-Rich Dataset of Math Word Problems 所報(bào)告的70.20%要明顯高了,因此說明我們這里的模型是一個(gè)不算太差的baseline。
感覺如果用一些Seq2Seq的技巧來緩解一下Exposure Bias問題(參考Seq2Seq中Exposure Bias現(xiàn)象的淺析與對(duì)策),模型還能有進(jìn)一步提升;還有或許可以引入copy機(jī)制,增強(qiáng)輸出與輸入數(shù)字的一致性;還有可以想辦法進(jìn)一步縮短序列長度(比如四個(gè)字符的3.14替換為兩個(gè)字母pi)。這些就留給大家嘗試了。
標(biāo)準(zhǔn)輸出
如果純粹從建模的角度來看,其實(shí)我們的任務(wù)已經(jīng)完成了,即模型只需要輸出式子就行了,評(píng)測(cè)的時(shí)候則只需要判斷式子eval后的結(jié)果跟參考答案是否一致就好。但是從實(shí)際實(shí)用的角度,我們還需要對(duì)輸出做進(jìn)一步的標(biāo)準(zhǔn)化,即根據(jù)不同的題目決定輸出的是小數(shù)、整數(shù)、分?jǐn)?shù)還是百分?jǐn)?shù)等,這就需要我們:1)決定什么時(shí)候該輸出什么格式;2)根據(jù)指定格式對(duì)結(jié)果進(jìn)行轉(zhuǎn)換。
第一步比較簡(jiǎn)單,一般來說根據(jù)題目或方程的一些關(guān)鍵字就可以判斷了。比如表達(dá)式里邊如果有小數(shù)的,那么輸出結(jié)果一般也是小數(shù);如果題目是問“多少輛”、“多少個(gè)”、“多少人”之類的,那么輸出的都是整數(shù);如果直接問“幾分之幾”或“百分之幾”的,那么相應(yīng)地就是分?jǐn)?shù)或百分?jǐn)?shù)了。
比較困難是應(yīng)該是取整類題目,比如“每盒蛋糕7.90元,50元最多可以買多少盒蛋糕?”要求我們對(duì)50/7.90進(jìn)行下取整,但有時(shí)候則是上取整。不過讓筆者很意外的是,ape210k里邊并沒有取整類題目,所以也就不存在這個(gè)問題。如果遇到有取整的數(shù)據(jù)集,如果規(guī)則判斷起來比較困難,那么最直接的方法就是把取整符號(hào)也加入到equation中讓模型去預(yù)測(cè)。
第二步看起來有點(diǎn)復(fù)雜,主要是分?jǐn)?shù)的場(chǎng)景,一般讀者可能不知道如何讓式子保留分?jǐn)?shù)運(yùn)算結(jié)果,如果直接eval('(1+2)/4'),那么得到的是0.75(Python3),但有時(shí)我們希望得到的是分?jǐn)?shù)結(jié)果3/4。
事實(shí)上,保持分?jǐn)?shù)的運(yùn)算屬于CAS的范疇(Computer Algebra System,計(jì)算機(jī)代數(shù)系統(tǒng)),說白了就是符號(hào)運(yùn)算而不是數(shù)值運(yùn)算,而Python中剛好也有這樣的工具,那就是SymPy,利用SymPy就能達(dá)到我們的目的了。具體請(qǐng)看下面的例子:
from sympy import Integer import rer = (Integer(1) + Integer(2)) / Integer(4) print(r) # 輸出是 3/4 而不是 0.75equation = '(1+2)/4' print(eval(equation)) # 輸出是 0.75new_equation = re.sub('(d+)', 'Integer(1)', equation) print(new_equation) # 輸出是 (Integer(1)+Integer(2))/Integer(4) print(eval(new_equation)) # 輸出是 3/4文章小結(jié)
本文介紹了用Seq2Seq模型做數(shù)學(xué)應(yīng)用題的一個(gè)baseline,主要思路就是通過“BERT+UniLM”直接將問題轉(zhuǎn)換為可eval的表達(dá)式,然后分享了一些結(jié)果標(biāo)準(zhǔn)化的經(jīng)驗(yàn)。通過BERT Large模型的UniLM,我們達(dá)到了73%+的準(zhǔn)確率,超過了原論文開源的結(jié)果。
所以,你覺得它能上幾年級(jí)了呢?
#投 稿 通 道#
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
投稿方式:
? 方法一:在PaperWeekly知乎專欄頁面點(diǎn)擊“投稿”,即可遞交文章
? 方法二:發(fā)送郵件至:hr@paperweekly.site ,所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
加入社區(qū):http://paperweek.ly
微信公眾號(hào):PaperWeekly
新浪微博:@PaperWeekly
總結(jié)
以上是生活随笔為你收集整理的bert关键词提取_BERT可以上几年级了?Seq2Seq“硬刚”小学数学应用题的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字典添加数据_MATLAB自动化——EX
- 下一篇: oracle02070,ORA-0207