开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰
人工智能或許是人類最美好的夢(mèng)想之一。追溯到公元前仰望星空的古希臘人,當(dāng)亞里士多德為了解釋人類大腦的運(yùn)行規(guī)律而提出了聯(lián)想主義心理學(xué)的時(shí)候,他恐怕不會(huì)想到,兩千多年后的今天,人們正在利用聯(lián)想主義心理學(xué)衍化而來的人工神經(jīng)網(wǎng)絡(luò),構(gòu)建的超級(jí)人工智能成為最能接近夢(mèng)想的圣境,并一次又一次地挑戰(zhàn)人類大腦認(rèn)知的極限。
在以大數(shù)據(jù)、云計(jì)算為背景的技術(shù)框架支撐下,互聯(lián)網(wǎng)發(fā)展極為迅速,過去一個(gè)技術(shù)或者行業(yè)熱點(diǎn)從誕生到消亡需要幾年乃至更長(zhǎng)的時(shí)間,但是最近幾年,其生命周期在不斷縮短,大多數(shù)的熱點(diǎn)從產(chǎn)生到消亡只需要1-2年,有些僅僅是半年甚至幾個(gè)月的時(shí)間。互聯(lián)網(wǎng)行業(yè)越來越凸顯出快魚吃慢魚的特點(diǎn)。從技術(shù)本身也有體現(xiàn),比如2012-2014年是移動(dòng)互聯(lián)網(wǎng)的熱潮,Android 和 iOS App 開發(fā)工程師當(dāng)時(shí)非常流行。隨后,2015大數(shù)據(jù)、云計(jì)算之年,2016年后大數(shù)據(jù)時(shí)代,2017年被稱為人工智能元年,2018年炒得最火的是區(qū)塊鏈和幣圈。在互聯(lián)網(wǎng)以這種迅雷不及掩耳之勢(shì)的發(fā)展速度下,作為初學(xué)者就很容易被各種技術(shù)概念迷惑,找不到自己想要的突破口和深入的領(lǐng)域,即便是計(jì)算機(jī)從業(yè)者有時(shí)候也分不清到底如何定位自己未來的技術(shù)方向。
下面,我們先從中國(guó)互聯(lián)網(wǎng)的發(fā)展歷程說起。
從1994誕生(加入國(guó)際互聯(lián)網(wǎng))到現(xiàn)在才短短的24年,就在這24年里,我們經(jīng)歷了4次非同凡響、一次比一次更徹底的發(fā)展大高潮。
第一次互聯(lián)網(wǎng)大浪潮(1994年—2000年),以四大門戶和搜索為代表,能做網(wǎng)站的工程師就可以被稱為技術(shù)牛人;第二次互聯(lián)網(wǎng)大浪潮(2001年—2008年),從搜索到 PC 端社交化網(wǎng)絡(luò)的發(fā)展,我們的社交形態(tài)發(fā)生了根本的變化,從線下交流正轉(zhuǎn)變?yōu)榫€上交流,大量的數(shù)據(jù)開始生成;第三次互聯(lián)網(wǎng)大浪潮(2009年—2014年)PC 端互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng),此時(shí)各種 App 如雨后春筍般的冒出來,盡管后來有很多 App 都死了,但是移動(dòng)互聯(lián)網(wǎng)幾乎顛覆了整個(gè)中國(guó)老百姓個(gè)人生活和商業(yè)形態(tài),改變著我們每一個(gè)人的生活、消費(fèi)、社交、出行方式等。
那第四次是什么呢?沒錯(cuò),第四次互聯(lián)網(wǎng)大浪潮(2015—至今),是在前3次發(fā)展基礎(chǔ)上,以大數(shù)據(jù)、云計(jì)算為背景發(fā)展起來的人工智能技術(shù)革命,分布式計(jì)算讓大數(shù)據(jù)處理提速,而昔日隕落的巨星深度學(xué)習(xí)此刻再次被喚醒,并很快在圖像和語音方面取得重大突破,但在自然語言方面卻顯得有些暗淡,突破并不是很大。盡管有很多人都去從事計(jì)算機(jī)視覺、語音等方面的工作,但隨著 AI 的繼續(xù)發(fā)展,NLP 方向正顯得越來越重要。
接著,我們總結(jié)一下數(shù)據(jù)領(lǐng)域成就和挑戰(zhàn)。
有一個(gè)不可否認(rèn)的事實(shí),當(dāng)前從事互聯(lián)網(wǎng)的人們已經(jīng)制造出了海量的數(shù)據(jù),未來還將繼續(xù)持續(xù),其中包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。我發(fā)現(xiàn),對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言,在大數(shù)據(jù)、云計(jì)算技術(shù)“上下齊心”的大力整合下,其技術(shù)基本趨向成熟和穩(wěn)定,比如關(guān)系型數(shù)據(jù)庫(kù)以及基于 Hadoop 的 HDFS 分布式文件系統(tǒng)、Hive 數(shù)據(jù)倉(cāng)庫(kù)和非關(guān)系型數(shù)據(jù)庫(kù) Hbase,以及 Elasticsearch 集群等數(shù)據(jù)存儲(chǔ)的關(guān)系數(shù)據(jù)庫(kù)或者 NoSQL,可以用來管理和存儲(chǔ)數(shù)據(jù);基于 MapReduce、Spark 和 Storm、Flink 等大數(shù)據(jù)處理框架可以分別處理離線和實(shí)時(shí)數(shù)據(jù)等。而半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),除了以 ELK 為代表的日志處理流程,過去在其它限定領(lǐng)域基于規(guī)則和知識(shí)庫(kù)也取得了一定的成果,因其自身的復(fù)雜性,未來更多領(lǐng)域應(yīng)用都具有很大的困難和挑戰(zhàn)。
最后,我們看看國(guó)內(nèi)外人工智能領(lǐng)域的工業(yè)現(xiàn)狀。
今年5月19日有幸在北京國(guó)家會(huì)議中心參加了2018全球人工智能技術(shù)大會(huì)(GAITC)。在大會(huì)上,從中國(guó)科學(xué)院院士姚期智提出人工智能的新思維開始,其重點(diǎn)講述了人工神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以及量子計(jì)算機(jī)將是未來發(fā)展的新思維;緊接著中國(guó)工程院院士李德毅分享了路測(cè)的學(xué)問——無人駕駛的后圖靈測(cè)試,提出未來無人駕駛挑戰(zhàn)應(yīng)該是讓無人駕駛具有司機(jī)的認(rèn)知、思維和情感,而不是當(dāng)前以 GPS 定位和動(dòng)力學(xué)解決無人駕駛的問題;接下來微軟全球資深副總裁王永東向我們展示的微軟小冰,大家一起見證了微軟小冰在社交互動(dòng)、唱歌、作詩、節(jié)目主持和情感方面不凡的表現(xiàn),而本人也真實(shí)測(cè)試了一下,小冰現(xiàn)在的表現(xiàn)已經(jīng)非常優(yōu)秀了。然而要達(dá)到一個(gè)成年自然人的水平,在某些方面還不能完全表現(xiàn)出人的特性。下面這幅圖是微軟小冰的個(gè)人介紹,有興趣可以在微信公眾號(hào)關(guān)注小冰,進(jìn)行體驗(yàn)。
人工智能產(chǎn)業(yè)的快速發(fā)展,資本市場(chǎng)大量資金涌入,促使中國(guó)人工智能領(lǐng)域投融資熱度快速升溫,這充分表明資本市場(chǎng)對(duì)于人工智能發(fā)展前景的認(rèn)可。《2018年人工智能行業(yè)創(chuàng)新企業(yè) Top100》發(fā)布,據(jù)榜單顯示:進(jìn)入2018年人工智能行業(yè)創(chuàng)新企業(yè)前十名的企業(yè)分別是:百度、阿里云、美圖秀秀、華大基因、科大訊飛、微鯨科技、華云數(shù)據(jù)、愛馳億維、青云、七牛云。作為人工智能的一個(gè)重要組成部分,自然語言處理(NLP)的研究對(duì)象是計(jì)算機(jī)和人類語言的交互,其任務(wù)是理解人類語言并將其轉(zhuǎn)換為機(jī)器語言。在目前的商業(yè)場(chǎng)中,NLP 技術(shù)用于分析源自郵件、音頻、文件、網(wǎng)頁、論壇、社交媒體中的大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),市場(chǎng)前景巨大。
為什么說未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理?
正是基于上面對(duì)中國(guó)互聯(lián)網(wǎng)發(fā)展的總結(jié),對(duì)當(dāng)前數(shù)據(jù)領(lǐng)域所面臨的挑戰(zhàn)以及資本市場(chǎng)對(duì)人工智能的認(rèn)可分析,未來數(shù)據(jù)領(lǐng)域的重點(diǎn)是自然語言處理技術(shù)及其在智能問答、情感分析、語義理解、知識(shí)圖譜等應(yīng)用方面的突破。對(duì)于我們國(guó)內(nèi)中文來說,如何更好的把前面所說的應(yīng)用在中文處理上,顯得更為重要和急迫,所以我認(rèn)為未來數(shù)據(jù)領(lǐng)域的珠穆朗瑪峰是中文自然語言處理 。
作為初學(xué)者,我們目前又面臨這樣的尷尬,網(wǎng)上大部分自然語言處理內(nèi)容都是英文為基礎(chǔ),大多數(shù)人先是學(xué)好了英語的處理,回頭來再處理中文,卻發(fā)現(xiàn)有很大的不同,這樣不僅讓中文自然語言處理學(xué)習(xí)者走了彎路,也浪費(fèi)了大量時(shí)間和精力。中文的處理比英文復(fù)雜的多,網(wǎng)上中文相關(guān)資料少之又少,國(guó)內(nèi)純中文自然語言處理書籍只有理論方面的,卻在實(shí)戰(zhàn)方面比較空缺,這讓中文自然語言處理的研究開發(fā)工作感到舉步維艱,很難下筆。
關(guān)于本達(dá)人課
本課程共包含19節(jié)(包括開篇詞)。
各小節(jié)之間并沒有緊密耦合,但是整個(gè)內(nèi)容還是遵循一定的開發(fā)流程。比如,按照中文語料處理的過程,在獲取到語料之后開始分詞,分詞之后可以進(jìn)行一些統(tǒng)計(jì)和關(guān)鍵字提取,并通過數(shù)據(jù)可視化手段熟悉和了解你的數(shù)據(jù)。緊接著通過詞袋或者詞向量,把文本數(shù)據(jù)轉(zhuǎn)換成計(jì)算機(jī)可以計(jì)算的矩陣向量。后續(xù)從機(jī)器學(xué)習(xí)簡(jiǎn)單的有監(jiān)督分類和無監(jiān)督聚類入手,到深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的應(yīng)用,以及簡(jiǎn)易聊天機(jī)器人和知識(shí)圖譜的構(gòu)建。帶你直觀深入、高效地了解 NLP 開發(fā)的流程,全方位提升你的技術(shù)實(shí)力與思維方式。
因此,本達(dá)人課,作為中文自然語言處理初學(xué)者邊學(xué)邊實(shí)戰(zhàn)的入門級(jí)教程,希望從中文實(shí)際出發(fā),針對(duì)中文語料以小數(shù)據(jù)量的“簡(jiǎn)易版”實(shí)例,通過實(shí)戰(zhàn)帶大家快速掌握 NLP 在中文方面開發(fā)的基本能力。當(dāng)然作為讀者, 我默認(rèn)你已經(jīng)掌握 Python 編程語言和有一定的機(jī)器學(xué)習(xí)理論知識(shí),當(dāng)然不會(huì)也沒關(guān)系,可以邊學(xué)邊做,還是那句老話:“只要功夫深鐵杵磨成針”。
課程寄語
無論是初入 AI 行業(yè)的新人,還是想轉(zhuǎn)行成為 AI 領(lǐng)域的技術(shù)工程師,都可以從本場(chǎng)達(dá)人課中,收獲中文自然語言處理相關(guān)知識(shí)。因?yàn)槠?#xff0c;本課程無法包含 NLP 的所有知識(shí)以及比較前沿的知識(shí),但是我會(huì)在講好每節(jié)課的前提下,盡量分享一些比較前沿的知識(shí)來作為補(bǔ)充。
總結(jié)
以上是生活随笔為你收集整理的开篇词:中文自然语言处理——未来数据领域的珠穆朗玛峰的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第01课:中文自然语言处理的完整机器处理
- 下一篇: 个人成长:2021如何成为更好的自己?