潜在语义分析对认知科学的启示
潛在語義分析技術(shù)對認(rèn)知科學(xué)以及虛擬現(xiàn)實(shí)系統(tǒng)的設(shè)計(jì)也具有啟示:
首先,由于LSA可以用數(shù)學(xué)方法實(shí)現(xiàn)對文本的理解,所以可采用LSA分析人對文本的理解。
認(rèn)知領(lǐng)域中,文本理解研究的主要目標(biāo)是發(fā)現(xiàn)影響讀者由文本材料提取信息和保留信息的能力的諸多因素。通常采用讓被試者閱讀材料,然后讓他們回答問題或?qū)懸黄M(jìn)行總結(jié)的方式,測試被試由文本中獲取了什么樣的信息。對文本理解理論的研究也可以說是讀者表述文本理解的認(rèn)知模式的研究(Kintshch,1988)。
在這樣的模式下,用一套被稱為命題的語義成分代表由文本和被試的總結(jié)中所得到的語義信息,同時,對一篇文本作命題分析也能提煉出一套文本中所包含信息的語義基礎(chǔ)。同理對被試回答命題的分析,將得到一套被試對文本記憶表述的語義基礎(chǔ)。通過對文本和被試總結(jié)中出現(xiàn)的信息,在語義水平上的比較則不僅僅局限于詞的選擇等表面的特征。
而LSA的基礎(chǔ)恰是建立在詞的語義與文本語義內(nèi)容的匹配上的,并為此建立語義空間。因此LSA方法能很好地適合于對必須用文本材料來評估學(xué)習(xí)成績的心理學(xué)和教育學(xué)等領(lǐng)域的研究與分析。即通過對被試閱讀過的文本執(zhí)行一種自動分析,推出一個語義空間,利用這個語義空間,按照以命題分析同樣的方式來進(jìn)行文本信息的匹配。
LSA方法還可用來研究文本的連貫性與對文本的理解力。LSA能夠測量文本相連結(jié)的部分中語義重疊的數(shù)量,故能測量文本的連貫性。應(yīng)用LSA對文本做連貫性測試,結(jié)果顯示,隨著文本連貫性的增加,LSA測試出的連貫性也隨著增高。由于文本連貫性的命題重疊測量已經(jīng)被建立成為一種有效的測量文本理解力的方法。對于文本命題重疊的計(jì)算既可以在局部也可以在整體水平上執(zhí)行。因此,文本的命題分析能夠顯示什么地方文本的連貫性被打破,并且將影響閱讀者的記憶力。對這些地方的破損加以修復(fù),就能夠改進(jìn)人的整體的理解力。
從技術(shù)角度看,用LSA連貫性測試還可以進(jìn)行文件分割。文件分割的目標(biāo)是識別文本的不同部位是否覆蓋不同的主題,并決定在一個文本中什么地方主題發(fā)生了變換。一般來說,在文本中連貫性很低的區(qū)域傾向于為主題切換的地方。
通過識別連貫性的破裂,人們可以把文本劃分成不連續(xù)的部分。便可以把大塊頭文本分裂為更好管理的小單位而具有許多應(yīng)用,尤其對互聯(lián)網(wǎng)信息的處理將產(chǎn)生重大影響。
總之,當(dāng)閱讀者閱讀多篇文本時,他們一定整合橫跨文本的信息,并把它們與以前所具有的知識相結(jié)合。LSA能捕捉這些整合的信息,使得LSA統(tǒng)計(jì)近似產(chǎn)生的語義相關(guān)與讀者學(xué)習(xí)產(chǎn)生的知識結(jié)構(gòu)相合。因此,LSA能夠作為一種工具評估閱讀者的總結(jié),表述其知識的來源和質(zhì)量,以計(jì)算機(jī)技術(shù)模式來捕捉閱讀者對文本理解的程度,修正他們的缺陷。
其次,LSA能夠模擬學(xué)習(xí)獲取知識,為人類認(rèn)知問題的研究提供了一個新的途徑。
認(rèn)知的最深、最持久的秘密之一是人們在得到很少信息的基礎(chǔ)上,如何獲取大量的知識,即歸納問題。假設(shè)某些領(lǐng)域的知識含有廣泛的、大量的微弱聯(lián)系,如果適當(dāng)?shù)乇┞端鼈儎t可以通過推測大大地加強(qiáng)學(xué)習(xí)效果。關(guān)鍵在于發(fā)現(xiàn)通過某種正確操作可以獲得的歸納機(jī)制以及各種客體和事件之間的類似性。因而便可以在局部得到密集的信息與人們經(jīng)過大量閱歷之后得到的知識的差距之間架起一座橋梁。
Landauer和Dumais教授利用美國大百科全書的30473篇文章中出現(xiàn)的460萬個詞匯,創(chuàng)造了一個300維的語義空間。運(yùn)用LSA方法測試托福(TOEFL)考試的同義詞部分。這部分有4個選擇題,回答每一個問題的正確概率為25%。
LSA選擇的正確為64.4%,基本相當(dāng)于非英語國家的大學(xué)生們考出的6.45%的平均成績,達(dá)到了美國大學(xué)對非英語國家大學(xué)生入學(xué)英語水平的要求。LSA方法取得的成功顯示了當(dāng)給出了大量文本時,計(jì)算機(jī)能夠像人類一樣,獲得詞匯意義相類似的知識并達(dá)到相當(dāng)深度。
LSA能夠?qū)W習(xí)并獲取知識主要依賴語義空間維數(shù)的選擇。LSA語意空間的維數(shù)和答案選擇的正確性之間存在著強(qiáng)有力的非單調(diào)相關(guān)。當(dāng)LSA選擇太多的維數(shù)時,獲得的知識是相當(dāng)貧乏的,當(dāng)在300維左右操作時,結(jié)果相當(dāng)好。而當(dāng)選擇大大低于100維時,獲得的知識再次變得非常貧乏。由此可見,語義空間維數(shù)的選擇與獲取知識結(jié)果的匹配狀態(tài),似乎某種程度上反映了人類學(xué)習(xí)知識時,通過歸納的改進(jìn)可以大大地改進(jìn)知識的獲取與描述。
應(yīng)該說LSA由文本中學(xué)習(xí)到了大量的詞匯意義。LSA沒有利用任何先前語言和認(rèn)知的類似知識,它獨(dú)特地建立了一種一般的學(xué)習(xí)方法,對大量的文本通過選取正確的空間維數(shù)(例如300維)達(dá)到強(qiáng)有力的歸納效應(yīng),學(xué)習(xí)到了詞義的類似性。對照人類,人們在學(xué)習(xí)語言過程中,語言中也存在著足夠的信息,它們含有廣泛的大量的微弱聯(lián)系,當(dāng)人們暴露在這些信息面前,獲取了知識。因此可以說,LSA對人類知識歸納問題提供了一種解決途徑。
以這種思路進(jìn)行的研究有Landuaer和Dumais教授等,通過文本理解、托福測驗(yàn)、學(xué)校兒童對詞匯的學(xué)習(xí)等等方面的試驗(yàn),應(yīng)用LSA與人類行為相對照,得出了LSA可以獲取、歸納和表述知識的結(jié)論。以Graesesr教授為首的美國孟菲斯大學(xué)的智能系統(tǒng)研究所于1997年開始研制并開發(fā)AutoTutor系統(tǒng),該系統(tǒng)可以對學(xué)生用自然語言做出的反饋給以響應(yīng)(Graesesr,2001)。試驗(yàn)表明Aut0Tuotr在提高學(xué)生的計(jì)算機(jī)素養(yǎng)及抽象思維與動手操作能力方面有顯著的優(yōu)勢(Graesser,2003)。
第三認(rèn)知領(lǐng)域的諸多方面也可借助LSA進(jìn)行研究,對某些現(xiàn)象提供新的解釋、說明和設(shè)想。
科羅拉多大學(xué)認(rèn)知科學(xué)研究所的Darrell Laham利用LSA方法進(jìn)行概念分類研究。研究顯示,分類可以自我組織,不依靠任何人為代碼,僅依靠語言在語料庫中的使用方式,通過動態(tài)歸納過程發(fā)生。概念的含義不是被包裝在客體的表述中,而是以語義空間為背景,選擇客體之間的相互關(guān)系出現(xiàn)的。實(shí)際實(shí)驗(yàn)顯示,對自然分類,LSA的判斷與人類判斷具有高度的相關(guān)性。
LSA方法除了處理詞匯意義的類似性之外還提示了理解許多語言屬性的一些新途徑。例如,詞的意義具有流動性,即某個人使用某詞與另一人使用該詞在意義上稍有差別,或隨著時間的流逝人們對某詞的理解發(fā)生了變化,為了從語言功能或歷史上測量個體或群體理解詞匯意義上的變化,LSA提供了一種有潛力的技術(shù)。LSA對聯(lián)想問題、場景和語義記憶類比、明示和暗示記憶類比、專家知識等提供了研究的可能性。總之LSA獨(dú)特地建立了一種一般的學(xué)習(xí)方法,為理解、解釋學(xué)習(xí)的動力學(xué)模式提供了一條吸引人的途徑。
以信息加工觀點(diǎn)研究人的認(rèn)知活動是把人的認(rèn)知活動看成一個信息傳送系統(tǒng),把人們對客觀外界的知覺、記憶、思維等一系列認(rèn)知過程看成信息的傳播接受和加工的過程,并對人的思維活動作出定量分析,建立信息加工模式是認(rèn)知科學(xué)的核心任務(wù)。LSA就是一個這樣的信息加工模式。
LSA模式表面上是一種純數(shù)學(xué)的分析技術(shù),實(shí)際上卻具有更廣闊的認(rèn)知意義。目前,還沒有其它的知識獲取和知識表達(dá)技術(shù)不依靠人類的輸入知識,像人類一樣憑著經(jīng)驗(yàn)思維就能獲取知識的計(jì)算模式存在,故LSA在文本理解、學(xué)習(xí)、思維和獲取知識方面經(jīng)驗(yàn)上的部分成功似乎預(yù)示了機(jī)器智能的又一個發(fā)展趨勢。
人腦的認(rèn)知過程是通過神經(jīng)元的活動進(jìn)行的,然而人類至今對神經(jīng)元和大腦對信息處理的生理機(jī)制了解很少。因此LSA也為認(rèn)知過程的研究提供一條可行的途經(jīng)。如研究人腦的認(rèn)知過程,可用心理學(xué)的概念解釋LSA模式,并顯示模式的某些特征。LSA的輸入構(gòu)成的矩陣,可認(rèn)為行代表單一的事件,列代表事件發(fā)生的背景。最后的輸出是一種描述,由描述中人們可以計(jì)算,測量事件之間、背景之間或事件與背景之間的類似程度,就如同詞匯對詞匯、段落對段落、詞匯對段落之間的類似程度一樣。利用LSA的計(jì)算過程實(shí)際上是把局部信息組合并濃縮成為一種普遍的描述,在這個過程中,LSA捕捉到了具有局部信息的所有事件之間多變的相關(guān)的偶然性。
還可以進(jìn)一步把LSA視作神經(jīng)網(wǎng)絡(luò),LSA是一種單一的,但卻是相當(dāng)大的三層神經(jīng)網(wǎng)絡(luò)。每一個事件(或詞)構(gòu)成了第一層神經(jīng)元,每一個曾經(jīng)發(fā)生過事件的場景構(gòu)成了第三層神經(jīng)元,幾百個第二層的神經(jīng)元承擔(dān)完成連接第一層與第二層,第二層與第三層神經(jīng)元的任務(wù)。每一種類型的事件,單一場景地描述起一種橫跨兩層神經(jīng)節(jié)的活化作用。這種神經(jīng)網(wǎng)絡(luò)可以創(chuàng)造出人造的場景,反過來操作場景可以產(chǎn)生能適應(yīng)變化強(qiáng)度的事件來表述他們本身。奇異分解可理解為把歸納問題的機(jī)理具體化,即它可以方便地變換維數(shù),并應(yīng)用于一個學(xué)習(xí)者多年的經(jīng)歷才能遇到的大量數(shù)據(jù)上,在某些方面與人類大腦存儲、再處理信息方面具有大約相近的效應(yīng)。
信息科學(xué)和信息處理技術(shù)的發(fā)展為用信息方法研究思維過程提供了理論基礎(chǔ)。LSA恰恰為思維過程的研究提供一條可行的途經(jīng),這對于人類智能的開發(fā),認(rèn)知過程規(guī)律的揭示有巨大的意義。概率潛在語義分析具有優(yōu)于潛在語義分析的諸多特點(diǎn),是在潛在語義分析基礎(chǔ)上的進(jìn)一步改進(jìn)。虛擬導(dǎo)師系統(tǒng)的設(shè)計(jì)主要采用概率潛在語義分析技術(shù)。
?
轉(zhuǎn)自:http://summerbell.javaeye.com/blog/384326
?
總結(jié)
以上是生活随笔為你收集整理的潜在语义分析对认知科学的启示的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 隐马尔可夫模型中的Viterbi算法zz
- 下一篇: 启发式算法简谈(一)