【译】Using Machine Learning to Understand the Ethereum Blockchain
ConsenSys的?定量開發(fā)人員?Paul?Lintilhac
目前,數(shù)據(jù)科學(xué)分析的溫床研究領(lǐng)域是機(jī)器學(xué)習(xí),一種使用算法研究大量數(shù)據(jù)的AI形式。?它用于從測序DNA到研究金融市場和腦機(jī)接口的所有事情。?有許多不同類型的機(jī)器學(xué)習(xí),具有不同的數(shù)據(jù)要求和目標(biāo)。?在過去的一年中,ConsenSys通過Alethio這樣的項(xiàng)目推動(dòng)了其分析和數(shù)據(jù)科學(xué)能力的發(fā)展?,分析平臺(tái)幫助用戶實(shí)時(shí)地對區(qū)塊鏈數(shù)據(jù)進(jìn)行可視化,解釋和反應(yīng)。
區(qū)塊鏈網(wǎng)絡(luò)的不可改變的公共記錄和分散性為數(shù)據(jù)科學(xué)家提供了一個(gè)令人興奮的沙盒,提供了全新的數(shù)據(jù)分析和模式識(shí)別。?為了開始理解我們?nèi)绾螐倪@個(gè)看似混亂的數(shù)據(jù)環(huán)境中解脫出來,我們將首先描述由Consensys的數(shù)據(jù)科學(xué)家正在開發(fā)的兩大類機(jī)器學(xué)習(xí),并舉幾個(gè)例子來說明如何應(yīng)用每種機(jī)器學(xué)習(xí)在實(shí)踐中。
有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)
無監(jiān)督學(xué)習(xí)涉及在大型數(shù)據(jù)集中查找模式并使用它們提取含義。?無監(jiān)督學(xué)習(xí)模型本質(zhì)上不具有預(yù)測性 - 盡管它們可以在更大的預(yù)測建模系統(tǒng)中發(fā)揮作用。?相反,無監(jiān)督學(xué)習(xí)試圖將龐大而復(fù)雜的數(shù)據(jù)集簡化為更簡單的高層次模式或主題。?然后可以將這些主題用作表征個(gè)別數(shù)據(jù)點(diǎn)的參考,并將它們放入有用的上下文中。
異常和新穎性檢測系統(tǒng)是無監(jiān)督學(xué)習(xí)模型的例子。?通過將大型數(shù)據(jù)集縮減為少量常見主題,可以了解特定交易或帳戶點(diǎn)對于“正常”意味著什么。通過比較任何給定的交易或帳戶與此正常的學(xué)習(xí)定義,我們可以確定與全球平均值相比異常程度(異常檢測),或與最近的歷史平均值(新穎性檢測)相比。然后,可以使用這些異常檢測系統(tǒng)來提醒用戶,整個(gè)區(qū)塊鏈或者特定子集的有趣賬戶或交易中是否發(fā)生了異常情況。?Alethio目前為交易,區(qū)塊和賬戶提供異常檢測系統(tǒng)。
由Alethio提供的其他類型的分析可以被認(rèn)為是無監(jiān)督學(xué)習(xí),包括排名算法或影響分析,如頁面排名。?雖然這些通常不被稱為機(jī)器學(xué)習(xí)算法(而只是算法),但它們的確具有在數(shù)據(jù)集中查找整體模式并使用它們添加上下文的相同目的。
監(jiān)督式學(xué)習(xí)試圖采用一組具有已知特征的觀測值,并利用它們估計(jì)每個(gè)觀測值的其他一些變量(響應(yīng)或標(biāo)簽)的相應(yīng)值。?這可以分為兩類:預(yù)測和分類。?試圖使用歷史數(shù)據(jù)來估計(jì)變量的未來價(jià)值(一種反應(yīng))被稱為預(yù)測。?嘗試使用關(guān)于實(shí)體的現(xiàn)有數(shù)據(jù)來確定該實(shí)體是否屬于某個(gè)類別(分配“標(biāo)簽”)稱為分類。
一般而言,區(qū)塊鏈上的“知識(shí)”由可在鏈上獲得的原始協(xié)議級數(shù)據(jù)組成,例如交易數(shù)據(jù)。?這些原始數(shù)據(jù)可以用于提取賬戶的特征,例如它們的總余額,平均交易頻率,持有貨幣的平均年齡等。Alethio最近通過語義提升來增加協(xié)議級數(shù)據(jù)的努力擴(kuò)大了“知道“超越協(xié)議層以包含應(yīng)用程序級別的數(shù)據(jù),例如合同是否為令牌,以及遵從哪種標(biāo)準(zhǔn)。?所有這些已知量都可以用作監(jiān)督學(xué)習(xí)模型中特征的基礎(chǔ)。
另一方面,未知數(shù)量(標(biāo)簽或響應(yīng))根據(jù)定義不是一條當(dāng)前可用的鏈上數(shù)據(jù);否則它已經(jīng)被我們的數(shù)據(jù)管道知道并被捕獲。?未知數(shù)量可能是某些上鏈數(shù)據(jù)的未來價(jià)值,例如某個(gè)未來某個(gè)賬戶的余額。?更常見的是,未知數(shù)量是根本不可用的某個(gè)價(jià)值。?如果您試圖預(yù)測賬戶是否屬于某個(gè)類別,例如分散交易,DOS賬戶或龐氏騙局,您需要關(guān)注這些數(shù)據(jù)。
ETHSTats儀表板實(shí)時(shí)跟蹤區(qū)塊鏈數(shù)據(jù)。數(shù)據(jù)集的重要性
這是區(qū)塊鏈上無監(jiān)督學(xué)習(xí)的數(shù)據(jù)需求成為重要問題的地方(閱讀:機(jī)會(huì)!)。?為了訓(xùn)練和校準(zhǔn)監(jiān)督學(xué)習(xí)模型,必須有一些大的初始數(shù)據(jù)集,其標(biāo)簽或響應(yīng)值已知。?這校準(zhǔn)了模型,以便預(yù)測的和實(shí)際的響應(yīng)盡可能接近。?這意味著當(dāng)新的觀測值出現(xiàn)在響應(yīng)未知的地方時(shí),假設(shè)新觀測值是由生成原始數(shù)據(jù)集的相似過程產(chǎn)生的,則預(yù)測值將接近真值。?一旦訓(xùn)練階段完成并且模型被校準(zhǔn),則可以將其應(yīng)用于響應(yīng)未知的新觀察值。
在價(jià)格預(yù)測的情況下,這意味著擁有大量的歷史價(jià)格數(shù)據(jù)庫。?在對賬戶進(jìn)行分類的情況下,這意味著擁有已被標(biāo)記為分散交易所,DOS賬戶或龐氏騙局的初始賬戶。
在這些分類示例中,用于培訓(xùn)的數(shù)據(jù)集中的標(biāo)簽通常只能通過大量工作才能獲得。?一種可能性是從像coinmarketcap或etherscan這樣的網(wǎng)站提取數(shù)據(jù),構(gòu)建ETL以從其他區(qū)塊鏈業(yè)務(wù)導(dǎo)入有趣的數(shù)據(jù),或者通過經(jīng)過訓(xùn)練的研究助理的艱苦工作,他們通過瀏覽網(wǎng)頁和分析源代碼收集關(guān)于鏈上帳戶的數(shù)據(jù)。
為了機(jī)器學(xué)習(xí)的目的,收集關(guān)于賬戶(元數(shù)據(jù))的外部數(shù)據(jù)的重要性的實(shí)現(xiàn)是在ConsenSys創(chuàng)建一個(gè)名為Rakr的新發(fā)言的動(dòng)機(jī)。?通過與網(wǎng)格中的Alethio和其他輻條和服務(wù)進(jìn)行合作,Rakr希望為收集和分享這些有價(jià)值的元數(shù)據(jù)提供一個(gè)平臺(tái)。?盡管將區(qū)塊鏈元數(shù)據(jù)與原始鏈上數(shù)據(jù)集成的含義遠(yuǎn)遠(yuǎn)超出機(jī)器學(xué)習(xí)的范圍,但這種用于監(jiān)督機(jī)器學(xué)習(xí)的元數(shù)據(jù)的適用性將繼續(xù)成為Rakr平臺(tái)的主要用例。?通過將Alethio強(qiáng)大的分析平臺(tái)與Rakr提供的有價(jià)值的元數(shù)據(jù)相結(jié)合,ConsenSys數(shù)據(jù)科學(xué)的應(yīng)用將僅受限于想象力。
在實(shí)踐中
ConsenSys制作的監(jiān)督學(xué)習(xí)模型的第一個(gè)例子是由Alethio開發(fā)的Ponzi模型,在本文續(xù)篇中將對其進(jìn)行更詳細(xì)的描述。?該模型的開發(fā)奠定了Alethio未來許多分析可能性的基礎(chǔ)。?Alethio希望在近期內(nèi)將這種模式擴(kuò)展到一個(gè)更普遍的欺詐模式。
更一般地說,在這個(gè)模型開發(fā)工作中建立的特征提取流水線可以被重新用于根據(jù)Rakr數(shù)據(jù)庫中的一個(gè)標(biāo)簽對任何賬戶進(jìn)行分類,包括賬戶/合同是交易所,藝術(shù)DAO,賭場,DOS相關(guān)賬戶等等。?隨著Rakr提供的一組有趣的元數(shù)據(jù)不斷增加,更多的新模型將成為可能。?隨著Alethio的分析功能不斷發(fā)展并創(chuàng)造出更多實(shí)用功能,這些模型將變得更加強(qiáng)大和多樣化。
能夠知道給定帳戶是否為欺詐或與DOS攻擊相關(guān),對于管理以太坊網(wǎng)絡(luò)的財(cái)務(wù)和網(wǎng)絡(luò)風(fēng)險(xiǎn)至關(guān)重要。?如果我們想要生產(chǎn)能夠提供有關(guān)新賬戶和最新行為數(shù)據(jù)的可操作見解的模型,它們必須滿足特殊要求。?例如,我們必須確保它們實(shí)時(shí)更新,并且在模型運(yùn)行時(shí)用于分類和預(yù)測的特征是可靠和完整的。?這意味著可以用于“舊”賬戶分類的某些功能,例如“合同是否最終自毀”,不能實(shí)時(shí)應(yīng)用于賬戶。?由于該功能的價(jià)值可能會(huì)在未來發(fā)生變化,因此真正的價(jià)值在模型運(yùn)行時(shí)并不真正知曉。
實(shí)時(shí)機(jī)器學(xué)習(xí)模型呈現(xiàn)出超越歷史建模技術(shù)的獨(dú)特挑戰(zhàn)和機(jī)會(huì)。?有了這些說法,將賬戶分類為欺詐行為的能力超出了實(shí)時(shí)風(fēng)險(xiǎn)管理的范圍;?分類模型即使在“過去”應(yīng)用時(shí)仍然有價(jià)值。?能夠準(zhǔn)確分類歷史欺詐對研究目的很有用,即使這些帳戶不再活躍。?更一般地說,將標(biāo)簽附加到區(qū)塊鏈上的賬戶允許用戶定義區(qū)塊鏈上的語義上感興趣的賬戶子集(例如“ICO”或“交易所”),使區(qū)塊鏈可基于人們關(guān)心的標(biāo)準(zhǔn)進(jìn)行搜索。
創(chuàng)建一個(gè)有關(guān)鏈上實(shí)體的經(jīng)驗(yàn)人類知識(shí)數(shù)據(jù)庫已經(jīng)是一項(xiàng)有價(jià)值且具有挑戰(zhàn)性的任務(wù),也是許多其他產(chǎn)品和服務(wù)的必要基礎(chǔ)。?但是,迄今為止擁有超過3000萬個(gè)以太坊賬戶和合約以及每天創(chuàng)建的約100,000個(gè)新賬戶,人類根本無法標(biāo)記以太坊賬戶的全部歷史記錄,其中大多數(shù)賬戶沒有有用的信息(如合同來源,網(wǎng)站,或任何其他識(shí)別信息),人類可以使用它們對它們進(jìn)行分類或標(biāo)記。?這就是為什么機(jī)器學(xué)習(xí)模型是至關(guān)重要的:因?yàn)樗鼈兙哂袩o限可擴(kuò)展性,并且可以用于僅使用表征鏈上行為的原始數(shù)據(jù)對帳戶進(jìn)行分類。
通過強(qiáng)大的分析和機(jī)器學(xué)習(xí)增強(qiáng)人們對區(qū)塊鏈的了解,我們設(shè)想了一個(gè)區(qū)塊鏈,其中每個(gè)賬戶和實(shí)體都豐富了有用的分類和屬性,無論是由人類創(chuàng)建的經(jīng)驗(yàn)?zāi)P瓦€是由人類創(chuàng)建,或者由統(tǒng)計(jì)模型預(yù)測和創(chuàng)建。?這對于區(qū)塊鏈知識(shí)的透明度和可訪問性而言將是一個(gè)重大的進(jìn)步,這是區(qū)塊鏈技術(shù)蓬勃發(fā)展所必需的基本方面。
請留意Paul Lintilhac撰寫的下一篇文章,其中將介紹Alethio最近的一項(xiàng)數(shù)據(jù)科學(xué)計(jì)劃:龐氏模型。
https://media.consensys.net/using-machine-learning-to-understand-the-ethereum-blockchain-1778485d603a
總結(jié)
以上是生活随笔為你收集整理的【译】Using Machine Learning to Understand the Ethereum Blockchain的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【译】Alethio: Lighting
- 下一篇: 【译】Blockchain-based