这款“狗屁不通”文章生成器火了,效果确实比GPT 2差太远
整理 | 夕顏
出品 | AI科技大本營(ID:rgznai100)?
【導讀】最近,一個名字相當接地氣的“狗屁不通”文章生成器(BullshitGenerator)火了,截至目前 GitHub 上 Star 數(shù)已超過 3200,還上了微博熱搜。這個神器可以生成各種各樣奇葩文章,比如領導專用“彩虹屁”萬字長文。只有你想不到,沒有這個神器寫不成的文章。但是,生成的文章確實也是“狗屁不通”。這次我們就來解讀一下,這個生成器是怎么運行的,以此為例,延展探討一下文本生成未來還有哪些改進的方向。
用 Python 生成的這篇文章長這樣:
由于下拉十多下沒滑到底,讓人失去了截全圖的耐心,文章也實在看不下去,因為它真的是一篇邏輯不通的 bullshit。
AI科技大本營(ID:rgznai100)也用這個生成器嘗試了幾個大家都會思考的主題,比如:
? ? ? ? ? ? ? ? ? ? ?? ? ? ?? ? ? ?? ? ? ? ? ? ? ? ? ? ?
試完之后筆者發(fā)現(xiàn),文章本身是沒什么探討的必要性了,不信你可以自己試試:
生成器地址:https://suulnnka.github.io/BullshitGenerator/index.html
但是關于生成器的工作原理,相信很多人是比較感興趣的。
運行原理是什么?
據(jù)貢獻者介紹,本項目最初的目的是用于中文文字 GUI 開發(fā)時測試文本渲染,用 Python 3 版本寫成,目前共有 7 位貢獻者。?
鑒于目前 AI 用于文字生成非常流行,這個項目是否也用到了 AI 相關算法呢?答案是否定的,作者表示,BullshitGenerator 沒有用到任何自然語言處理相關算法,只是簡單地擼代碼就可以達到效果。
那 BullshitGenerator 運行的原理是怎樣的?AI科技大本營采訪了CSDN博客專家@小宋是呢進行解讀:
“狗屁不通生成器”是一個文本生成器,用來生成一些中文文字用于 GUI 開發(fā)時測試文本渲染。由于此項目的目的只是用于 GUI 開發(fā)時測試文本渲染,所以對文本的連貫性和含義要求不高,這也就是“狗屁不通”的含義了
從源碼中可以看出,生成文本的方式就是從本地讀取到的文本中按照一定規(guī)律隨機讀取,并且替換掉文本中“x”為指定的主題文本,并未使用深度學習方法。不難發(fā)現(xiàn),生成的文本會存在句子不連貫、重復性高的特點。
issue 中有人發(fā)表了對這個項目的評價:
? ? ? ?? ? ? ?
可以看到,大家對這個項目的評價還是以正面居多。其中,有人提到了希望與 GPT 2 進行整合:
? ? ??
很快有人對這個想法提出疑問,比如算力的問題。那么,BullshitGenerator 與 GPT 2 整合的想法可行嗎?或者是否有必要?@小宋是呢給出的看法如下:
個人覺得“狗屁不通生成器”與“GPT”結合意義不大,這兩個項目的目標和特點差異很大。“狗屁不通生成器”是為了快速用來生成一些中文文字用于 GUI 開發(fā)時測試文本渲染,而“GPT”文本生成器目標是生成高質量連貫文本,“GPT”的特點是模型大速度慢質量高,并不滿足“狗屁不通生成器”的設計需求。?
GPT 2 是 OpenAI 推出的一個中文生成模型,由加拿大工程師 Adam King 制作的網(wǎng)站上,任何人都能調教簡化版的 GPT-2,它能夠識別從新聞、歌詞、詩歌、食譜、代碼的各種輸入,甚至還為《復仇者聯(lián)盟》寫了一個細節(jié)豐富的續(xù)集,內容可讀性相當高。
? ? ? ?
令人振奮的是,這個史上最強的 NLP 模型今天正式全部開源,OpenAI 正式放出了 GPT 2 的最后一部分代碼。
開源地址:https://github.com/openai/gpt-2。?
作為 GPT 2 分段發(fā)布中的最后一輪,此次公開的完整 GPT-2 包含 15 億條參數(shù),其中包含用于檢測 GPT-2 模型輸出的全部代碼及模型權重。
當然,關于 GPT 2 的討論仍在繼續(xù),比如它的實用性,生成假新聞被濫用引發(fā)的安全問題等,都是后續(xù)還有待改善的關鍵點。
此外,GPT 2 還有一個中文版本,相比之下,GPT2 與 BullshitGenerator 不同之處在于前者使用了 BERT 或 BPE 編譯器,但同樣不需要算法基礎,只要簡單 clone 運行即可,技術上的實現(xiàn)難度更大一些。
“GPT”是比較標準的自回歸語言模型了,Transformer 出現(xiàn)前都是通過 RNN 的方法,之前比較火的“CharRNN”深度學習作詩與作曲都屬于這個范疇。“GPT”將 Transformer 替換了 RNN,使得提取特征的能力與運算速度都得到很大提升,當然使用大規(guī)模數(shù)據(jù)訓練模型也是“GPT”效果好的一個重要因素。
相較于“GPT”,“狗屁不通生成器”實現(xiàn)就簡單很多,主要代碼就幾十行,基本上只用到了Python 編程技術。體現(xiàn)在文本的連貫性和含義上,雖然生成文本的質量不高,但它也滿足了生成一些中文文字用于 GUI 開發(fā)時測試文本渲染的要求。
GPT2 中文項目:https://github.com/Morizeyao/GPT2-Chinese?
文本生成的未來
GPT 2 的橫空出世讓大家看到了 AI 在文本生成方面的潛力。正如 Open AI 官博所說,雖然 GPT 2 還面臨檢測等方面的挑戰(zhàn),但它的潛力還很大, Open AI 表示,未來這個模型還將繼續(xù)進行改進,他們期望語言模型能夠在性能上有更大的提升,以此提供更高的輸出質量和準確性。
BullshitGenerator 項目也公布了下一步計劃:
防止文章過于內容重復
加入更多啰嗦話.
加入馬三立<開會迷>里的內容
加入手寫體直接渲染出圖片的功能(僅僅用于測試本人的打印機是否工作正常, 請勿做它用).
本文特邀專家:小宋是呢 @CSDN博客專家&知乎深度學習專欄作家(微信公眾號 ID:aideepmiss)。在校前兩年半時間,獲得省級一等獎(以上)獎項十次,畢業(yè)時,第一作者授權實用新型&發(fā)明專利共計二十余項。
目前研究方向:自然語言處理與自動語音識別、圖像識別與自動檢測、圖神經(jīng)網(wǎng)絡與推薦系統(tǒng)。
(*本文為AI科技大本營原創(chuàng)文章,轉載請微信聯(lián)系 1092722531)
◆
精彩推薦
◆
12月6-8日,深圳!2019嵌入式智能國際大會,集聚500+位主流AIoT中堅力量,100+位海內外特邀技術領袖!9場技術論壇布道,更有最新芯片和模組等新品展示!點擊鏈接或掃碼,輸入本群專屬購票優(yōu)惠碼CSDNQRSH,即可享受6.6折早鳥優(yōu)惠,比原價節(jié)省1000元,學生票僅售399元。
推薦閱讀
總結
以上是生活随笔為你收集整理的这款“狗屁不通”文章生成器火了,效果确实比GPT 2差太远的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 考取信息安全保障从业人员认证(CISAW
- 下一篇: 薄收缩小外形封装(TSSOP)的全球与中