人在斯坦福,刚上CS224n
文 | Jazon
大家好,我是Jazon,現(xiàn)在是Stanford計(jì)算機(jī)碩士項(xiàng)目的一只學(xué)生,非常榮幸加入小夕的大家庭!請(qǐng)各路大神多多指教呀。
2021年1月12日,又一季Stanford CS224n——自然語(yǔ)言處理開(kāi)課了,我和很多MSCS同學(xué)一起加入了這門課。由于疫情,今年的課程是以線上Zoom的方式進(jìn)行,由 Prof. Manning 在他的書(shū)房遠(yuǎn)程授課。第一節(jié)課的Zoom有400多位同學(xué)參加,足見(jiàn)這門課有多么火爆。如果是線下授課的話,肯定能把教室擠爆。
彼時(shí)的Stanford微信和Slack群里十分熱鬧,大家都在各種找課友、隊(duì)友。上這門課的主力軍是碩士生,當(dāng)然也有本科生和博士生。能在Stanford親身體驗(yàn)這門傳說(shuō)中的神課,有一種朝圣的感覺(jué),感覺(jué)特別幸運(yùn)!
課程新設(shè)置
今年的課程設(shè)置,和2019年版的公開(kāi)課相比,有不少小變化,這也反映了NLP領(lǐng)域發(fā)展之快。具體不同的地方,我會(huì)在下文里穿插著介紹~所有的課件都在課程網(wǎng)站(cs224n.stanford.edu)上,而今年Lecture的錄播視頻在幾個(gè)月后也會(huì)在YouTube上公開(kāi),到時(shí)候大家就可以看到全新的Lectures啦!
前半學(xué)期的課程由10次Lecture和5個(gè)作業(yè)組成,覆蓋NLP和神經(jīng)網(wǎng)絡(luò)的核心概念,如詞向量、RNN、梯度下降等。第8節(jié)課是Final Projects的建議。
后半學(xué)期的第11 ~ 18次Lectures則主要是“嘉賓講座”(Guest Lectures),如T5的提出者Colin Raffel來(lái)講了T5,又或者是一些選學(xué)的話題,如 Coreference Resolution。不強(qiáng)制上課,沒(méi)有什么作業(yè),這樣可以讓我們專心做Project。
特別值得提及的是今年的第9、10節(jié)課,Transformers和預(yù)訓(xùn)練模型首次進(jìn)入了核心概念的部分,而不是像以前那樣屬于選聽(tīng)的嘉賓講座。授課人是今年224n的Head TA(總助教)——John Hewitt。John是Stanford NLP組的博三學(xué)生,講得真的非常棒!以前我看paper看不懂的 Transformer 和 BERT,他講得真的是深入淺出,我很快就明白了。
▲B(niǎo)ERT Lecture重磅新作業(yè)
和前10次講座相輔相成的是這門課的5次作業(yè)。作業(yè)1里大家簡(jiǎn)單探索了詞向量的性質(zhì);作業(yè)2里我們推導(dǎo)了訓(xùn)練詞向量的公式(這是這節(jié)課最calculus-intensive的作業(yè));作業(yè)3算是唯一一個(gè)涉及比較傳統(tǒng)的語(yǔ)言學(xué)概念與算法的作業(yè),是關(guān)于 Dependency Parsing(依存句法分析)的。
前3次作業(yè)都和去年的一致,作業(yè)4和5則是今年新出的。在這里要感謝出作業(yè)的TA們!作業(yè)4仍然是要搭建一個(gè)機(jī)器翻譯模型,只是目標(biāo)語(yǔ)言變成了Cherokee(美國(guó)原住民的語(yǔ)言之一)。這次作業(yè)的編程部分,讓我們熟悉了PyTorch模型里的各種Tensor操作。
作業(yè)5是今年緊跟NLP大趨勢(shì),“重磅”新推出的:在數(shù)學(xué)部分,我們探索了Multi-head Attention的性質(zhì);在編程部分,我們需要復(fù)現(xiàn)一些預(yù)訓(xùn)練數(shù)據(jù)處理的代碼(span corruption),以及實(shí)現(xiàn)Attention的一個(gè)變種。
這次作業(yè)出乎大家意料地難,我和不少同學(xué)們都至少花了25小時(shí)才做完。由于是今年首次發(fā)布,作業(yè)里還有很多說(shuō)得不清楚的地方,本來(lái)Instruction已經(jīng)9頁(yè)紙了,TA們又寫了一篇很長(zhǎng)的Clarification。
那一周我們還需要提交Project Proposal,所以大家都很爆炸。2月20號(hào)早上,作業(yè)已經(jīng)截止了一天,Office Hours卻排起了可怕的50人長(zhǎng)隊(duì)。這門課的學(xué)生總數(shù)是475,可想而知有多大比例的同學(xué)沒(méi)能按時(shí)寫完,不得不用late days。
作業(yè)5的主要作者正是我們的John,據(jù)說(shuō)他本來(lái)還想讓我們 Encoder-Decoder 也自己寫,被其他TA制止了。顯然,他嚴(yán)重高估了同學(xué)們的實(shí)力,對(duì)這次失控的局面,他的心里也十分愧疚,一直守在論壇、Office Hours上回答同學(xué)們的問(wèn)題。這也許印證了,特別優(yōu)秀的人,對(duì)別人也會(huì)有意無(wú)意地設(shè)定很高的標(biāo)準(zhǔn)吧!
當(dāng)然,做完作業(yè)5也讓我收獲很多,作業(yè)里我們需要分別訓(xùn)練一個(gè)“vanilla”模型和預(yù)訓(xùn)練模型、比較結(jié)果,于是我對(duì)預(yù)訓(xùn)練的效果、性質(zhì)有了更直觀的了解。
▲狂肝作業(yè)5的時(shí)刻224n是怎么來(lái)的?
話說(shuō)斯坦福一年有4個(gè)學(xué)期,這么火的課為什么只有冬季學(xué)期開(kāi)呢?這里我想偏個(gè)題,講講我校NLP組的特點(diǎn)。Chris Manning教這門課已經(jīng)20多年了,他算是NLP領(lǐng)域開(kāi)山鼻祖級(jí)別的人物,224n課程材料里有講到他自己發(fā)明的技術(shù)(比如 GloVe),這是件很神奇的事!
但顯然,他是位大忙人,手下有十幾位PhD學(xué)生,沒(méi)有精力每學(xué)期都教N(yùn)LP。Stanford NLP組另外3位主要的教授可能也沒(méi)有時(shí)間來(lái)教224n:Dan要教CS124(低階NLP課),Percy要教CS221(人工智能),Potts要教CS224U(自然語(yǔ)言理解)。
Stanford NLP組只有4 ~ 7位教授,相比之下,CMU的LTI(Language Technologies Institute)有30位教授,其中不少大方向都是做NLP的科研,人手要多得多。因此CMU在NLP方面的課程多樣得多,除了NLP以外,機(jī)器翻譯、問(wèn)答系統(tǒng)、搜索引擎等等,都有專門的課(羨慕臉)。
NLP很大,可惜時(shí)間太少
好了,回到224n。像我們Quarter制(4學(xué)期制)的學(xué)校,一學(xué)期是11周,今年由于疫情,學(xué)期強(qiáng)行縮減到10周,時(shí)間更加緊張。這么短的時(shí)間里要塞進(jìn)整個(gè)NLP的內(nèi)容,顯然不可能,所以NLP里很多任務(wù),如信息抽取、對(duì)話系統(tǒng),課程里都沒(méi)有涉及到(當(dāng)然124、224U有補(bǔ)充一些概念)。也許224n可以像Data Mining一樣,概念部分是一節(jié)課(CS 246),Project專門另外一節(jié)課來(lái)做(CS 341),可能就不用這么趕時(shí)間了。
同時(shí),由于時(shí)間限制、科技趨勢(shì),課程里偏語(yǔ)言學(xué)的概念也越來(lái)越少。前面有提到,核心課程里唯一比較硬核Linguistics的內(nèi)容是Dependency Parsing。19年的公開(kāi)課里Manning花了一節(jié)講Constituency Parsing,今年這節(jié)課已被其他內(nèi)容取代,以后可能也不會(huì)再講這個(gè)概念了,有些令人唏噓。
我第一次接觸NLP,應(yīng)該是讀吳軍老師的《數(shù)學(xué)之美》,當(dāng)初花了不少功夫理解信息論、隱馬爾可夫、TF-IDF、分詞等等概念,但是224n完全沒(méi)有涉及它們。這本書(shū)是2014年寫的,也許其中一些概念在這個(gè)BERT的時(shí)代已經(jīng)變得不太相關(guān)了吧,真是讓人感嘆技術(shù)迭代的速度之快啊。
完成了前半學(xué)期的學(xué)習(xí),大家也準(zhǔn)備好肝Final Project啦!224n的重頭戲還在后半學(xué)期,下篇文章會(huì)更精彩哦!
后臺(tái)回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺(tái)回復(fù)關(guān)鍵詞【頂會(huì)】
獲取ACL、CIKM等各大頂會(huì)論文集!
總結(jié)
以上是生活随笔為你收集整理的人在斯坦福,刚上CS224n的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 这个开源数据集要在全球扩大中文NLP影响
- 下一篇: 谷歌大改Transformer注意力,速