rnn词性标注算法_Python预测算法哪家强?权游龙妈是生还是凉凉?
這個世界上只有兩種人,看「權游」(權利的游戲)的,和不看「權游」的。
你們心心念的權游終于迎來了最終季,狼家史塔克的家訓「Winter is coming」終終終終終于是應驗了,人類與異鬼的戰爭一觸即發。各個主要角色的生死存亡你猜得到嗎?
▲這個深刻詮釋「凡人皆有一死」的熱劇,撲朔迷離的劇情讓觀眾對終局望眼欲穿
難道只能在一集集看完之后,才能知道你們牽掛的二丫會不會幸存,色后又會不會被二丫手刃?
面對這份煎熬,總有人按捺不住。比如,熱愛代碼的程序員們,就用算法分析權游里的故事,預測了角色的生存概率,以及誰最有可能登上鐵王座。
有趣的是,不同的算法和團隊,預測的結果大相徑庭。比如慕尼黑工業大學(TUM)團隊的算法,預測最終龍媽登上了鐵王座;而另一種算法下,龍媽沒能活過寒冬。
另外,還有一種神奇的「算法」是:Men all die.
所以,哪家預測的結果準確?各家都有各家的依據,看看他們都怎么做的。
01 機器學習預測龍媽要活到最后
TUM 的學生在計算機科學研討會上做了一個有趣大膽的嘗試:用數據科學和機器學習的方法,去預測權游中角色最后的存活機會。在「權力的游戲」第八季上映之前,算法就預測出各個角色的命運。
▲左:生存率排行榜,右:死亡率排行榜
這份結論中,龍媽存活的幾率最高( 99% ),她的國王之手小惡魔也有 97% 的存活率。難道是龍媽最后統領了各大家族?而狡猾又善于自保的波隆以 93.5% 位居死亡順序的首位。
這個結果從哪兒得來?
TUM 團隊的分析數據是從《冰與火之歌》的書中,權游的臺詞里,以及粉絲圈在維基百科上的內容搜集而來。用于預測的信息包括:角色所屬的家族,是否已婚,以及他們的盟友等情況。
他們提取了數百個角色的特征數據集,梳理了故事中角色的信息。除了諸如性別和地位等數據外,還考慮了元數據信息:比如某人是主要角色還是次要角色,以及他們在維基百科等渠道中被引用的頻率。
通過這些數據,利用算法分析,揭示出了關于權游中死亡率的一些趨勢,例如男性比女性更危險(男性死亡率 22%, 而女性為 11% )。
在預測趨勢的同時,為了對每個角色的命運進行預測,團隊使用了兩個單獨的模型:第一種是貝葉斯推斷方法,使用 pymc3 封裝的 MCMC 方法來訓練貝葉斯生存分析模型;第二個涉及機器學習和神經網絡,在 Python 的 Keras 框架下進行。
▲鐵王座還是死亡,到底誰說了算
學習從來不是一個人的事情,要有個相互監督的伙伴,工作需要學習C/C++或者為了入行、轉行學習C/C++的伙伴可以私信回復小編“學習”領取全套免費C/C++學習資料、視頻
他們的工作或許會有些效果。早在 2016 年,在第 6 季播出之前,TUM 同一課程的學生就創建了一個算法,準確預測了囧諾的復活。
02 利用文本分析:龍媽要狗帶?
你要相信,有同樣好奇心的人,肯定不止一位。
另一位數據科學家 Peter Vesterberg 通過對原著小說的文本分析,去預測最終季的劇情走向。
Peter 認為劇情的走向是人物間的關系所支撐的,通過分析了《冰與火之歌》已經出版的五本書,使用網絡理論計算出角色間的相互關系,用可視化的方式呈現出來,綜合人物的重要性判斷最后的存活幾率。
他用一個點來代表人物,根據冰火故事中的文本,利用詞性標注,相似度度量等方法,定義了角色之間的「接近」程度,越接近和越頻繁地出現兩個名字,他們的聯系就越多。
判斷一個角色與其他角色的關聯性的方法,主要用了四個關鍵概念:
- 度中心性——與該節點直接連接的節點占節點總數的比例;
- 接近中心性——對于一個結點而言,距離其它結點越近,那么它的中心度越高 ;
- 中介中心性——量化該節點充當其他兩個節點之間最短路徑的橋梁的次數 ;
- 特征向量中心性——一個節點的重要性既取決于其相鄰節點的數量,也取決于其相鄰節點的重要性。
通過這些概念的分析,得到關系值的「權重」數字。最終得到一份關于人物關系的圖譜,線條的粗細表示了人物聯系的緊密程度,最后的結點大小代表了角色的重要性。這份重要性指標也顯示了會被作者「除去」的可能。
具體的指標排名如下:
▲四個分析指標的具體排名數值,囧諾( Jon )都是領跑
在這樣的分析下,囧諾毫無疑問是最重要的角色,難道這個生于龍家,長于狼家的疑似 RMB 玩家,最終會登上鐵王座?重要程度緊隨其后的,是智力擔當小惡魔和弒君者詹姆。
從網絡理論的角度來看,龍媽丹妮莉絲似乎是前期撒幣太多,后期估計是金幣不夠,只是處在關系網的邊緣,看來大概率是要涼了。
03 預測不只是為了娛樂,更是擁有現實意義
對于結果迥異的不同算法,到底哪個更勝一籌,我們不得而知,也許只有在大結局到來時候,才能知曉。但他們使用的方法,都不只是鬧著玩,而是擁有實際的利用價值。
TUM 開發的生存幾率算法,來自于一個嚴肅的學習項目。他們設立這項課程的主要的目的,是幫助學生將學習如何設計,開發和部署智能計算機系統。
該項目的首席導師 Guy Yachdav 博士說:「雖然預測權力游戲人物生存機會,依賴于從幻想世界中獲取的數據,但在現實世界中,使用完全相同的人工智能技術,也會對我們的日常生活產生重大影響。」
▲Guy Yachdav 博士在 TED 演講中介紹預測算法能夠解決現實世界中的問題
負責 TUM 信息學系生物信息學主任的 Burkhard Rost 教授說:「激情與教學的結合是創造新工具的絕佳方式。在 TUM 的課程中,我們找到了這種有趣的方式,去教學生如何使用這項技術。」
目前,在現實世界中,類似的算法可用于醫學和金融,例如使用綜合信息分析預測健康情況 。這種技術類似于分析研究治療方法或并發癥對癌癥患者的影響。
而對于數據學家 Peter 所做的事情,除了分析角色的存活,還從數字的角度去分析了「冰與火之歌」小說的各種書寫規律,用數據去解析一本小說的元素。
也許,掌握這一模式之后,未來小說家和編劇就可以使用人工智能快速地生成新內容,這樣就不會眼睜睜看著馬丁大大一直補不上的坑了。
04 想預測「復聯」最后活下來的英雄嗎?
熱鬧的 4 月,似乎又是一個落幕的季節,除了權游最終季,復仇者聯盟也要在下周三迎來大結局,想必很多人還沒從滅霸那個響指中緩過來,那個非要安靜看落日的狠人,就那么隨機毀滅了一半的宇宙。
這個任性的死亡速度,估計 AI 也無法預測出來了。但是,如果你還是好奇心太重,想自己動手試一試的話,那么 TUM 團隊的項目開源地址在此:
https://api.got.show/doc/
但其實,不需要 AI 預測,復聯 4 應該也是一個最優結局,畢竟奇異博士類似窮舉法,或者說試錯法之類的操作,把希望留給復聯世界:他用時間寶石嘗試了 14000605 種可能后,選擇了唯一會勝利的那條。
奇異博士的這種精神,用來寫代碼的話估計也是極好的。
05 百科知識
- 詞性標注 Part-of-Speech Tagging
詞性標注(POS tagging ) 是將對句子中的詞語進行分類標注的過程。是依據字詞在句法結構或語言形態上承擔的成分,通過詞性分類賦予每個詞的詞性標記的過程。
也就是要確定句子中每個詞是名詞、動詞、形容詞或其他詞性的過程,又稱詞類標注或者簡稱標注。
詞性標注是自然語言處理中的一項基礎任務,在語音識別、信息檢索及自然語言處理的許多領域都有應用。
- 詞性標注實現的方法
可以分為基于規則和基于統計的方法,主要有:
(1)基于最大熵的詞性標注
(2)基于統計最大概率輸出詞性
(3)基于 HMM 的詞性標注
- 詞性標注的應用
(1)句法分析預處理
(2)詞匯獲取預處理
(3)信息抽取預處理
總結
以上是生活随笔為你收集整理的rnn词性标注算法_Python预测算法哪家强?权游龙妈是生还是凉凉?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电压越低采集的ad值反而变大_80多条关
- 下一篇: 抖音数据统计_“彭十六elf”单条视频获