3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授
習(xí)題
第二周 - 自然語言處理與詞嵌入
第 151 題
假設(shè)你為10000個單詞學(xué)習(xí)詞嵌入,為了捕獲全部范圍的單詞的變化以及意義,那么詞嵌入向量應(yīng)該是10000維的。
A.正確 B.錯誤
第 152 題
什么是t-SNE?
A.一種非線性降維算法
B.一種能夠解決詞向量上的類比的線性變換
C.一種用于學(xué)習(xí)詞嵌入的監(jiān)督學(xué)習(xí)算法
D.一個開源序列模型庫
第 153 題
假設(shè)你下載了一個已經(jīng)在一個很大的文本語料庫上訓(xùn)練過的詞嵌入的數(shù)據(jù),然后你要用這個詞嵌入來訓(xùn)練RNN并用于識別一段文字中的情感,判斷這段文字的內(nèi)容是否表達(dá)了“快樂”。
| 我今天感覺很好! | 1 |
| 我覺得很沮喪,因為我的貓生病了。 | 0 |
| 真的很享受這個! | 1 |
那么即使“欣喜若狂”這個詞沒有出現(xiàn)在你的小訓(xùn)練集中,你的RNN也會認(rèn)為“我欣喜若狂”應(yīng)該被貼上 y=1y=1y=1 的標(biāo)簽。
A.正確 B.錯誤
第 154 題
對于詞嵌入而言,下面哪一個(些)方程是成立的?
A. eboy?egirl≈ebrother?esistere_{boy} - e_{girl} \approx e_{brother} - e_{sister}eboy??egirl?≈ebrother??esister?
B. eboy?egirl≈esister?ebrothere_{boy} - e_{girl} \approx e_{sister} - e_{brother}eboy??egirl?≈esister??ebrother?
C. eboy?ebrother≈egirl?esistere_{boy} - e_{brother} \approx e_{girl} - e_{sister}eboy??ebrother?≈egirl??esister?
D. eboy?ebrother≈esister?egirle_{boy} - e_{brother} \approx e_{sister} - e_{girl}eboy??ebrother?≈esister??egirl?
第 155 題
設(shè) EEE 為嵌入矩陣, e1234e_{1234}e1234? 對應(yīng)的是詞“1234”的獨熱向量,為了獲得1234的詞嵌入,為什么不直接在Python中使用代碼 E?e1234E*e_{1234}E?e1234? 呢?
A.因為這個操作是在浪費(fèi)計算資源
B.因為正確的計算方式是 ET?e1234E^T*e_{1234}ET?e1234?
C.因為它沒有辦法處理未知的單詞(<UNK>)
D.以上全都不對,因為直接調(diào)用 E?e1234E*e_{1234}E?e1234? 是最好的方案
第 156 題
在學(xué)習(xí)詞嵌入時,我們創(chuàng)建了一個預(yù)測 P(target∣context)P(target|context)P(target∣context) 的任務(wù),如果這個預(yù)測做的不是很好那也是沒有關(guān)系的,因為這個任務(wù)更重要的是學(xué)習(xí)了一組有用的嵌入詞。
A.正確 B.錯誤
第 157 題
在word2vec算法中,你要預(yù)測 P(t∣c)P(t|c)P(t∣c) ,其中 ttt 是目標(biāo)詞(target word), ccc 是語境詞(context word)。你應(yīng)當(dāng)在訓(xùn)練集中怎樣選擇 ttt 與 ccc 呢?
A. ttt 與 ccc 應(yīng)當(dāng)在附近詞中
B. ccc 是 ttt 在前面的一個詞
C. ccc 是 ttt 之前句子中所有單詞的序列
D. ccc 是 ttt 之前句子中幾個單詞的序列
第 158 題
假設(shè)你有1000個單詞詞匯,并且正在學(xué)習(xí)500維的詞嵌入,word2vec模型使用下面的softmax函數(shù):
P(t∣c)=exp(θtTec)∑t′=110,000exp(θt′Tec)P(t|c)=\frac{exp(\theta^T_te_c)}{\sum_{t\prime=1}^{10,000}exp(\theta^T_{t\prime}e_c)}P(t∣c)=∑t′=110,000?exp(θt′T?ec?)exp(θtT?ec?)?
以下說法中哪一個(些)是正確的?
A. θt\theta_tθt? 與 ece_cec? 都是500維的向量
B. θt\theta_tθt? 與 ece_cec? 都是10000維的向量
C. θt\theta_tθt? 與 ece_cec? 都是通過Adam或梯度下降等優(yōu)化算法進(jìn)行訓(xùn)練的
D.訓(xùn)練之后, θt\theta_tθt? 應(yīng)該非常接近 ece_cec? ,因為ttt和ccc是一個詞
第 159 題
假設(shè)你有10000個單詞詞匯,并且正在學(xué)習(xí)500維的詞嵌入,GloVe模型最小化了這個目標(biāo):
min?∑i=110,000∑j=110,000f(Xi,j)(θiTej+bi+bj′?log?Xij)2\min\sum_{i=1}^{10,000}\sum_{j=1}^{10,000}f(X_{i,j})(\theta^T_ie_j+b_i+b_j^\prime-\log X_{ij})^2mini=1∑10,000?j=1∑10,000?f(Xi,j?)(θiT?ej?+bi?+bj′??logXij?)2
以下說法中哪一個(些)是正確的?
A. θi\theta_iθi? 與 eje_jej? 應(yīng)當(dāng)初始化為0
B. θi\theta_iθi? 與 eje_jej? 與應(yīng)當(dāng)使用隨機(jī)數(shù)進(jìn)行初始化
C. Xi,jX_{i,j}Xi,j? 是單詞 iii 在 jjj 中出現(xiàn)的次數(shù)
D.加權(quán)函數(shù) f(.)f(.)f(.) 必須滿足 f(0)=0f(0)=0f(0)=0
第 160 題
你已經(jīng)在文本數(shù)據(jù)集上 m1m_1m1? 訓(xùn)練了詞嵌入,現(xiàn)在準(zhǔn)備將它用于一個語言任務(wù)中,對于這個任務(wù),你有一個單獨標(biāo)記的數(shù)據(jù)集 m2m_2m2? ,請記住,使用詞嵌入是一種遷移學(xué)習(xí)的形式。在以下那種情況中,詞嵌入會有幫助?
A. m1>>m2m_1>>m_2m1?>>m2?
B. m1<<m2m_1<<m_2m1?<<m2?
151-160題 答案
151.B 152.A 153.A 154.AC 155.A 156.B 157.A 158.AC 159.BCD 160.A
第三周 - 序列模型與注意力機(jī)制
第 161 題
想一想使用如下的編碼-解碼模型來進(jìn)行機(jī)器翻譯:
這個模型是“條件語言模型”,編碼器部分(綠色顯示)的意義是建模中輸入句子x的概率
A.正確 B.錯誤
第 162 題
在集束搜索中,如果增加集束寬度 bbb ,以下哪一項是正確的?
A.集束搜索將運(yùn)行的更慢
B.集束搜索將使用更多的內(nèi)存
C.集束搜索通常將找到更好地解決方案(比如:在最大化概率 P(y∣x)P(y|x)P(y∣x) 上做的更好)
D.集束搜索將在更少的步驟后收斂
第 163 題
在機(jī)器翻譯中,如果我們在不使用句子歸一化的情況下使用集束搜索,那么算法會輸出過短的譯文。
A.正確 B.錯誤
第 164 題
假設(shè)你正在構(gòu)建一個能夠讓語音片段 xxx 轉(zhuǎn)為譯文 yyy 的基于RNN模型的語音識別系統(tǒng),你的程序使用了集束搜索來試著找尋最大的 P(y∣x)P(y|x)P(y∣x) 的值yyy。在開發(fā)集樣本中,給定一個輸入音頻,你的程序會輸出譯文 y^\hat{y}y^? = “I’m building an A Eye system in Silly con Valley.”,人工翻譯為 y?y*y? = “I’m building an AI system in Silicon Valley.”
在你的模型中,
P(y^∣x)=1.09?10?7P(\hat{y}|x)=1.09*10^{-7}P(y^?∣x)=1.09?10?7P(y?∣x)=7.21?10?8P(y*|x)=7.21*10^{-8}P(y?∣x)=7.21?10?8
那么,你會增加集束寬度 BBB 來幫助修正這個樣本嗎?
A.不會,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在RNN,而不是搜索算法
B.不會,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在搜索算法,而不是RNN
C.會的,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在RNN,而不是搜索算法
D.會的,因為 P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x) 說明了問題在搜索算法,而不是RNN
第 165 題
接著使用第4題的樣本,假設(shè)你花了幾周的時間來研究你的算法,現(xiàn)在你發(fā)現(xiàn),對于絕大多數(shù)讓算法出錯的例子而言,P(y?∣x)<=P(y^∣x)P(y*|x)<=P(\hat{y}|x)P(y?∣x)<=P(y^?∣x),這表明你應(yīng)該將注意力集中在改進(jìn)搜索算法上,對嗎?
A.正確 B.錯誤
第 166 題
回想一下機(jī)器翻譯的模型:
除此之外,還有個公式 α<t,t′>=exp(e<t,t′>)∑t′=1Txexp(<t,t′>)\alpha^{<t,t\prime>}=\frac{exp(e^{<t,t\prime>})}{\sum_{t\prime=1}^{T_x}exp(^{<t,t\prime>})}α<t,t′>=∑t′=1Tx??exp(<t,t′>)exp(e<t,t′>)?下面關(guān)于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的選項那個(些)是正確的?
A.對于網(wǎng)絡(luò)中與輸出 y<t>y^{<t>}y<t> 高度相關(guān)的 α<t′>\alpha^{<t\prime>}α<t′> 而言,我們通常希望α<t,t>\alpha^{<t,t>}α<t,t>的值更大(請注意上標(biāo))
B.對于網(wǎng)絡(luò)中與輸出 y<t>y^{<t>}y<t> 高度相關(guān)的 α<t>\alpha^{<t>}α<t> 而言,我們通常希望 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 的值更大(請注意上標(biāo))
C. ∑tα<t,t′>=1\sum_t\alpha^{<t,t\prime>}=1∑t?α<t,t′>=1 (注意是和除以t)
D. ∑t′α<t,t′>=1\sum_{t\prime}\alpha^{<t,t\prime>}=1∑t′?α<t,t′>=1 (注意是和除以t’)
第 167 題
網(wǎng)絡(luò)通過學(xué)習(xí)的值 e<t,t′>e^{<t,t\prime>}e<t,t′> 來學(xué)習(xí)在哪里關(guān)注“關(guān)注點”,這個值是用一個小的神經(jīng)網(wǎng)絡(luò)的計算出來的:
這個神經(jīng)網(wǎng)絡(luò)的輸入中,我們不能將 s<t>s^{<t>}s<t> 替換為 s<t?1>s^{<t-1>}s<t?1> 這是因為 s<t>s^{<t>}s<t> 依賴于 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> ,而 α<t,t′>\alpha^{<t,t\prime>}α<t,t′> 又依賴于 e<t,t′>e^{<t,t\prime>}e<t,t′> ;所以在我們需要評估這個網(wǎng)絡(luò)時,我們還沒有計算出 sts^tst
A.正確 B.錯誤
第 168 題
與題1中的編碼-解碼模型(沒有使用注意力機(jī)制)相比,我們希望有注意力機(jī)制的模型在下面的情況下有著最大的優(yōu)勢:
A.輸入序列的長度 TxT_xTx? 比較大
B.輸入序列的長度 TxT_xTx? 比較小
第 169 題
在CTC模型下,不使用"空白"字符(_)分割的相同字符串將會被折疊。那么在CTC模型下,以下字符串將會被折疊成什么樣子?__c_oo_o_kk___booooo_oo__kkk
A.cokbok
B.cookbook
C.cook book
D.coookkboooooookkk
第 170 題
在觸發(fā)詞檢測中, x<t>x^{<t>}x<t> 是:
A.時間 ttt 時的音頻特征(就像是頻譜特征一樣)
B.第 ttt 個輸入字,其被表示為一個獨熱向量或者一個字嵌入
C.是否在第 ttt 時刻說出了觸發(fā)詞
D.是否有人在第 ttt 時刻說完了觸發(fā)詞
161-170題 答案
161.B 162.ABC 163.A 164.A 165.A 166.AD 167.A 168.A 169.B 170.A
總結(jié)
以上是生活随笔為你收集整理的3.12 总结-深度学习第五课《序列模型》-Stanford吴恩达教授的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 3.11 结论和致谢-深度学习第五课《序
- 下一篇: 大总结-深度学习全五课-Stanford