研究人员用数据统计的方法来做文学研究
研究人員用數據統計的方法來做文學研究
大數據與文學,一個是理性工具,一個是感性思維,看起來似乎不沾邊。但如今,二者的聯系卻日漸緊密起來,也由此引發了不少爭議。
誰是最愛往外跑的詩人?
唐宋時期最愛往外跑的詩人是誰?答案可能是蘇軾。
打開“唐宋文學編年地圖”,點擊蘇軾的名字,地圖上立刻顯示出密密麻麻的足跡,西到雅安,東到蓬萊、青浦,北到定州,南到海南南部的陵水。從青年時代開始,蘇軾的腳步就一直沒停過,在他58歲那年甚至一口氣走了31個地方,堪稱中國古代一股“行走的力量”。
“蘇軾一生的軌跡信息高達近萬條,遍布全國各地,是我們錄入信息最多的一位唐宋詩人。”“唐宋文學編年地圖”的建立者、中南民族大學教授王兆鵬告訴《中國科學報》記者。
“唐宋文學編年地圖”在今年3月上線,是王兆鵬主持的國家社科基金重大項目“唐宋文學編年系地信息平臺”的一個研究成果。這個電子地圖的形成花費了五年的時間,100多人的團隊參與其中,負責數據的整理編寫,融合了地理信息系統、測繪、計算機、文學等多個領域的內容。
目前,這份地圖已錄入了100多位唐宋詩人的行跡信息,范圍北至蒙古烏蘭巴托,南至越南清化。點擊任何一位詩人的名字,地圖上就會出現他一生的行走路線圖,再點擊任一地點,這位詩人在此創作的詩歌作品就會展示出來。如以地點或年份為關鍵詞進行檢索,則會看到某地在某個時間段共有多少位詩人來過、留下了哪些作品。于是從地圖上,我們可以看到,李白出生于西域碎葉城(今吉爾吉斯斯坦托克馬克市),王維出生于晉中,12歲的孟浩然在襄陽居鄉讀書,45歲的宋之問則從鄭州來到洛陽又到西安,寫下了多首詩作。“這張地圖的最大亮點就是打通了時空維度。”王兆鵬說。
地圖上線后,火爆程度讓王兆鵬大吃一驚,他沒想到這樣一份文學地圖引起了大眾這么多關注。“本來項目是年底結題,我們還沒著急,沒想到一下子火了,上線第一天的點擊量超過了100萬,兩天就到了220萬。大家一直在問,為什么沒有某某詩人,所以我們現在必須要加班加點,盡快將所有詩人的信息傳上去。”王兆鵬說。
用大量數據來展現唐宋詩人的故事,不僅有文學專業的教授在做。今年3月,一篇名為《計算機告訴你,唐朝詩人的關系到底是什么樣的?》的文章刷爆朋友圈,很快達到了10萬 的閱讀量。這篇文章來自一位普通的程序員“前進四先生”之手,發布于他的個人微信公眾號“前進日志”中。
在對四萬多首唐詩進行了數據整理后,“前進四先生”發現在唐朝,兩位關系最好的詩人不是李白和杜甫,也不是白居易和元稹,而是陸龜蒙和皮日休。這兩位詩人互相提到對方的次數都在百次以上,中國文學史上的第一本唱和詩集《松陵集》也是他倆的作品。從排名前30的引用關系來看,白居易絕對是唐朝詩人朋友圈中的明星。
大數據與小閱讀
用數據統計的方法來做文學研究,王兆鵬早在1992年就開始了。“當時我是系里主管研究生工作的副主任,偶然一次機會在雜志上看到一篇定量分析研究生學位教育的文章,我就想古代文學史的研究能不能也用定量分析的方法來做。后來我寫了一篇文章《宋代詞人歷史地位的分析》,就是用量化數據來描述詞人的地位,比如什么叫地位很高、比較高或一般。從那時起,我就開始了這個領域的研究。”王兆鵬介紹說。
在國外,也有展現中國歷代人物生平資料的數據庫,比如由哈佛大學、北京大學、臺灣“中研院”合作開發的CBDB數據庫,通過字號、親屬關系、生卒年份等數據,展現人物的社會關系網。
對于大數據手段與文學研究的關系,在華東師范大學教授金雯看來,使用電腦算法來分析文本,不是讓電腦復制人腦的功能,或者更大規模地完成人腦擅長的任務。人腦和電腦在閱讀文本的時候所用的方法和關注的重點不一樣,讀出來的東西也可能截然不同。不過人腦和電腦在閱讀闡釋文字的時候也往往可以互為體用、互補短長,文學大數據分析和學者個人的“小閱讀”之間存在著許多交融和合作的可能。正因為如此,借助電腦進行文本分析是近年來不斷升溫的“數字人文”的一個重要分支。
幾年前,王兆鵬利用數據分析進行過另一項研究——唐詩宋詞排行榜,曾招來過不少爭議。
2011年,王兆鵬出版了《唐詩排行榜》一書,運用統計學方法得出了唐詩前100名排行榜,排在榜首的是崔顥的《黃鶴樓》,其次是王之渙的《涼州詞》、杜甫的《登高》、王之渙的《登鸛雀樓》和張繼《楓橋夜泊》等,被大眾熟知的陳子昂的《登幽州臺歌》等詩作則名落孫山。2012年,他又出版了《宋詞排行榜》,將《念奴嬌·赤壁懷古》列為宋詞第一名。
“這是通過對歷代選本、評點、論文、網絡鏈接總數等指標綜合計算而來的。”王兆鵬說,自己的數據采集分為三個方面,一是作家數據,包括生卒年月、創作起始時間、出生地、去世地、活動地點和在社會上扮演的身份等;二是作品數據,即作品的分類、版本、編年、系地等;三是讀者數據,包括普通型讀者、專家型讀者和作家型讀者三項。
兩本書出版后,立刻有人質疑:“對古典文學的藝術鑒賞也能列排行榜?”“甚至有人說,是不是因為你是湖北人,所以把唐詩宋詞第一名都給了寫湖北的?”王兆鵬說。但在他看來,這兩個排行榜是將現代科學手段引入到古典文學作品的研究賞析中的嘗試,是嚴肅的學術研究。“而且,我評價的不是一首詩的好壞,而是評價它的影響力和知名度。”
但在中國科學院數學與系統科學研究院研究員安鴻志看來,“影響力”仍然是個模糊的指標。“要給唐詩宋詞做排名,目的不同,指標不同,得出的結論就可能會截然不同。如果我們要辦的是跑步比賽,首先就要確定跑一萬米還是一百米,男子還是女子,個人還是接力,一旦確立指標,比如男性100米個人短跑,那么世界第一就是唯一解。可是對于唐詩宋詞,會有唯一解嗎?同樣是看影響力,如果指標是‘哪首唐詩被現代人記住的最多’,那有可能是《靜夜思》;如果把指標設為‘哪些詩句在日常生活中使用頻率最高’,答案又可能會是‘粒粒皆辛苦’。話說回來,沒有唯一解就不能去研究嗎?”安鴻志說,“當然也不是,這項研究是有價值的。但你要承認,指標不唯一,得出的結論也不唯一,這才是科學方法、科學態度、科學結論。”
正確利用大數據技術
在王兆鵬看來,哪首詩詞排第一名倒也在其次,這些詩詞為何能從古至今一直為人們所熟知,這其中有何傳播規律,更能引起他的興趣。 “比如,除了詩本身之外,故事對作品的傳播有著非常重要的助推力。”王兆鵬解釋說,“崔顥的《黃鶴樓》在古代非常有名,為什么?一個重要原因是李白很欣賞。李白到黃鶴樓后想寫一首詩,后來因為 ‘崔顥題詩在上頭’便擱筆未寫。這在宋代還成了一句俗語 ‘莫因崔顥不題詩’。所以歷代唐詩選本,沒有不選《黃鶴樓》的。王之渙的《涼州詞》也有 ‘旗亭畫壁’的故事流傳至今。”
此外,這些唐詩宋詞大數據還能告訴我們一些其他的信息。“一般認為,北宋王朝的毀滅代表了中國經濟文化重心南移的真正分野。但通過大數據,我們可以看到,中國詩壇重心的南移始于晚唐五代,完成于北宋。唐宋詩歌版圖南移的時間和社會經濟重心南移的時間并不完全一致,這打破了我們一些固有觀點。”王兆鵬說。
通過數據整理,王兆鵬還統計出,唐宋詩人創作的優秀作品大多是在落后地區完成的,在失意受貶謫的地區更可能誕生名篇。“而且優秀作品的作者大多不是本地人。比如黃州、惠州打名片愛說蘇軾,可蘇軾是四川人;寫黃鶴樓那么多名篇,可沒有一個人是湖北人寫的。”
王兆鵬正在做著更多探索。他計劃將更多歷史信息融入到現有的電子地圖中去,比如某年哪些人中了進士、哪些人做了官、他們之間有何相互影響等。“數字技術正在改變我們觀察文學、思考文學的方式。以前由于紙本的局限,我們每次只能看一位人物或一個時期。現在利用信息技術,我們可以把大大小小的人物同時放在一個舞臺上,就像把樹與樹之間隔著的圍墻打破后展現出一片森林一樣,把歷史的一個個橫截面完整地呈現出來。”
“大數據技術作為人類認識客觀世界的一種工具,給我們帶來的進步是難以想象的。從研究者的角度來說,以前我們要到圖書館去查閱很多資料,現在只要坐在屋子里,擺上一臺電腦,連接上網絡,海量的資料就送到了眼前。”安鴻志說,“大數據資料既可影印,又可編輯,我們可以從中查詢關鍵詞,提取信息,進而進行修改、識別、對比。大數據技術是時代的象征,各行各業都要適應這個潮流,在文史哲研究領域當然也是如此。”
安鴻志同時也強調,大數據技術是客觀的,但一旦有人使用它達到某種目的、得出某種結論時,就有了主觀性,涉及到方法、目的以及表達等問題。“在這個時代,誰往大數據庫中‘增磚添瓦’都是一種貢獻,但對得出的結論要慎重。你也可以對某位研究者得出的結論提出質疑,但不能將其歸罪于大數據技術。這兩件事情要分清。”
轉載于:https://www.cnblogs.com/amengduo/p/9586922.html
總結
以上是生活随笔為你收集整理的研究人员用数据统计的方法来做文学研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OMRON PLC使用技巧总结
- 下一篇: thinkphp省略php,ThinkP