“科学学”视角下的科研工作者行为研究
“科學(xué)學(xué)”視角下的科研工作者行為研究
賈韜1,?夏鋒2
1?西南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,重慶 400715
2?大連理工大學(xué)軟件學(xué)院,遼寧 大連 116620
?
摘要:科學(xué)的復(fù)雜性、數(shù)據(jù)的可用性、對(duì)科學(xué)研究中客觀規(guī)律認(rèn)知的現(xiàn)實(shí)需求使得“科學(xué)學(xué)”這一傳統(tǒng)問(wèn)題轉(zhuǎn)變?yōu)樾屡d的交叉研究熱點(diǎn)。科學(xué)研究的主導(dǎo)者是科研工作者,研究科學(xué)中的規(guī)律首先要了解科研工作者的行為特征。梳理、介紹了幾個(gè)相關(guān)的工作,包括科研工作者研究興趣的演化、科研合作的內(nèi)在驅(qū)動(dòng)因素、科研團(tuán)隊(duì)與科研team的異同、多維度科研評(píng)價(jià)與學(xué)術(shù)不端的監(jiān)測(cè)。研究結(jié)果可以為科研管理等現(xiàn)實(shí)問(wèn)題提供理論工具和實(shí)證支撐。
關(guān)鍵詞:科學(xué)學(xué)?;?科研合作?;?科研評(píng)價(jià)?;?學(xué)術(shù)畫像
論文引用格式:
賈韜,夏峰.“科學(xué)學(xué)”視角下的科研工作者行為研究. 大數(shù)據(jù)[J], 2019, 5(5):38-47
JIA T, XIA F.Quantifying patterns in the behavior of scientists in Science of Science study.Big Data Research[J], 2019, 5(5):38-47
1 引言
只有認(rèn)識(shí)科學(xué)研究中的客觀規(guī)律,了解科學(xué)工作者的行為特征,才能有效地評(píng)價(jià)科研成果、獎(jiǎng)勵(lì)科研發(fā)現(xiàn)、資助科研工作、培養(yǎng)科研人員。現(xiàn)代科學(xué)已經(jīng)毫無(wú)疑問(wèn)地成長(zhǎng)為一個(gè)復(fù)雜系統(tǒng):涉及各個(gè)學(xué)科領(lǐng)域之間越來(lái)越強(qiáng)的交叉關(guān)聯(lián),新興學(xué)科不斷涌現(xiàn),創(chuàng)新與漸進(jìn)的知識(shí)不斷積累,科學(xué)工作者在知識(shí)空間和物理空間的遷移以及他們?cè)谌蚍秶鷥?nèi)的競(jìng)爭(zhēng)和合作。“科學(xué)可以被描述為一個(gè)增長(zhǎng)并且演化的網(wǎng)絡(luò)”,這個(gè)網(wǎng)絡(luò)由學(xué)者與學(xué)者間的合作競(jìng)爭(zhēng)關(guān)系、論文與論文間的引用關(guān)系、學(xué)者與不同研究主題間的參與關(guān)系、知識(shí)圖譜中各個(gè)主題間的從屬臨近關(guān)系等多層異構(gòu)網(wǎng)絡(luò)構(gòu)成,并隨著相關(guān)主體的更新而演化。在過(guò)去的十幾年間,科技論文、發(fā)明專利、項(xiàng)目申請(qǐng)書等與科研活動(dòng)密切相關(guān)的資料呈現(xiàn)指數(shù)性的增長(zhǎng)。這些資料以結(jié)構(gòu)化、電子化的形式存儲(chǔ),提供了豐富的可供利用的“學(xué)術(shù)大數(shù)據(jù)”,為定量的、系統(tǒng)的、以科學(xué)系統(tǒng)為研究主體的研究工作開(kāi)展提供了數(shù)據(jù)基礎(chǔ)。“科學(xué)學(xué)(Science of Science)”這一傳統(tǒng)問(wèn)題開(kāi)始成為新興的交叉研究熱點(diǎn)。
利用大規(guī)模學(xué)術(shù)數(shù)據(jù),結(jié)合信息科學(xué)領(lǐng)域的工具,是科學(xué)學(xué)研究中廣泛采用的范式。區(qū)別于以往工作,當(dāng)前的研究具有如下特點(diǎn)。
● 使用大規(guī)模高維度的數(shù)據(jù),例如論文元數(shù)據(jù)(meta-data)往往包含數(shù)十萬(wàn)到上千萬(wàn)量級(jí)的論文數(shù)量,包含題目、摘要、作者、單位、相互引用情況等多維度結(jié)構(gòu)信息。
● 具有交叉學(xué)科的鮮明特點(diǎn),研究方法豐富多樣,采用科學(xué)計(jì)量學(xué)中的指標(biāo)衡量科研的績(jī)效產(chǎn)出,利用信息科學(xué)領(lǐng)域的可視化、網(wǎng)絡(luò)科學(xué)、機(jī)器學(xué)習(xí)、信息挖掘、多智能體建模等工具,借鑒社會(huì)科學(xué)中的理論。
● 不再拘泥于算法性能的提升或評(píng)價(jià)指標(biāo)的提出,而是以科學(xué)系統(tǒng)為研究對(duì)象,探索其中的普適性規(guī)律和基礎(chǔ)演化機(jī)制。
近幾年來(lái),在Nature、Science、Nature和Science的相關(guān)子刊、Proceedings of the National Academy of Sciences of the United States of America上發(fā)表的一系列高水平工作充分展現(xiàn)了科學(xué)學(xué)研究的創(chuàng)新性和前沿性,也充分說(shuō)明了當(dāng)前的研究范式在探索復(fù)雜問(wèn)題時(shí)的可行性。
相關(guān)研究在國(guó)內(nèi)的開(kāi)展具有更特殊的現(xiàn)實(shí)意義。中國(guó)的科學(xué)研究在過(guò)去的十多年間實(shí)現(xiàn)了飛速的發(fā)展。中國(guó)每年有世界第二大的論文產(chǎn)出量和論文引用量,如圖1(a)、圖1(b)所示。然而體量的增長(zhǎng)背后也隱藏著其他困境。例如,中國(guó)科研論文在國(guó)際上仍然呈現(xiàn)“代表性不足”的特點(diǎn),中國(guó)論文被國(guó)際同行引用的情況與論文的發(fā)表數(shù)量并不相稱。通過(guò)分析Web of Science平臺(tái)從1990年至2016年超過(guò)2 000萬(wàn)篇論文及其超過(guò)1億次的引用關(guān)系,筆者計(jì)算了一個(gè)國(guó)家的所有論文在某一年的總引用數(shù)量。筆者發(fā)現(xiàn),在中國(guó)論文每年的總引用數(shù)量中,國(guó)際引用(非本國(guó)引用,按論文的第一單位劃分)占比自2010年來(lái)逐年下降。而世界上其他科研大國(guó),如美國(guó)、德國(guó)、英國(guó)、法國(guó)、日本、韓國(guó)等,國(guó)際引用占比卻逐年增加,如圖1(c)所示(為了更好地表現(xiàn)變化趨勢(shì),數(shù)值按照各國(guó)2010年的數(shù)值進(jìn)行了歸一化)。中國(guó)論文在2016年的所有引用中,僅有42%是來(lái)自國(guó)際的,在全球15個(gè)科研大國(guó)中排名最后,如圖1(d)所示。這一現(xiàn)象說(shuō)明了我國(guó)科研管理面臨的新挑戰(zhàn):如何從量的增產(chǎn)轉(zhuǎn)換為質(zhì)的突破。通過(guò)對(duì)科學(xué)本體的研究,發(fā)現(xiàn)其中的客觀規(guī)律,理解存在不足的原因,是應(yīng)對(duì)這一挑戰(zhàn)的前提條件和理論準(zhǔn)備。
圖1???全球SCI論文量較大的15個(gè)國(guó)家的論文產(chǎn)出和引用情況
綜上所述,科學(xué)的復(fù)雜性、學(xué)術(shù)大數(shù)據(jù)帶來(lái)的數(shù)據(jù)可用性、對(duì)科學(xué)研究中客觀規(guī)律認(rèn)知的現(xiàn)實(shí)需求,這3個(gè)要素共同推動(dòng)“科學(xué)學(xué)”成為一個(gè)熱點(diǎn)研究領(lǐng)域。科學(xué)研究的主導(dǎo)者是科研工作者,研究科學(xué)中的規(guī)律必然要先了解科研工作者的行為特征。基于人名消歧技術(shù)的進(jìn)步,可以將科研工作者的研究成果進(jìn)行較為精確的歸集,從而以科研工作者個(gè)體和群體為研究對(duì)象,挖掘他們?cè)诳蒲羞^(guò)程中的行為規(guī)律。在后文中,筆者將梳理、介紹幾個(gè)相互關(guān)聯(lián)、遞進(jìn)的研究問(wèn)題:通過(guò)對(duì)科研工作者“研究興趣”的表征,研究他們?cè)诼殬I(yè)生涯中研究方向改變的規(guī)律;利用研究興趣這一特征,研究“科研合作”的內(nèi)在機(jī)制;不同的科研工作者通過(guò)合作形成“科研team”,而其中一部分長(zhǎng)期穩(wěn)定的合作關(guān)系形成了“科研團(tuán)隊(duì)”,通過(guò)相對(duì)合作強(qiáng)度從科研team中挖掘科研團(tuán)隊(duì),從而識(shí)別二者在科研產(chǎn)出、影響力方面的不同;通過(guò)對(duì)科研團(tuán)隊(duì)的識(shí)別,歸類論文引用來(lái)源,實(shí)現(xiàn)“研究成果多維量化”,同時(shí)幫助識(shí)別一些互引、自引、過(guò)度合作等可疑的“學(xué)術(shù)不端行為”。筆者從科學(xué)學(xué)的研究視角出發(fā),聚焦于問(wèn)題的提出與相應(yīng)的科學(xué)發(fā)現(xiàn)。
2 相關(guān)研究問(wèn)題
2.1 研究興趣
一個(gè)科研工作者會(huì)在其職業(yè)生涯中研究不同的科學(xué)問(wèn)題,轉(zhuǎn)換不同的研究方向。托馬斯?庫(kù)恩的著作《必要的張力(The essential tension)》是非常有影響力的研究成果之一。他開(kāi)創(chuàng)性地描述了科學(xué)工作者在職業(yè)生涯中對(duì)探索(explore)與發(fā)掘(exploit)相互矛盾的需求。因此,一個(gè)成功的科研工作者需要巧妙地平衡探索與發(fā)掘這兩種不同科研模式中的風(fēng)險(xiǎn)和收益,在職業(yè)生涯中謹(jǐn)慎但合理地改變研究問(wèn)題和研究方向。
研究興趣的表征可以通過(guò)機(jī)器學(xué)習(xí)或者主題提取的方法進(jìn)行,利用科研工作者在一定時(shí)間內(nèi)的研究成果,建立科研工作者的“學(xué)術(shù)畫像”。研究興趣在工程類問(wèn)題上有直接的應(yīng)用,例如用于推薦系統(tǒng)的優(yōu)化,幫助更好地選取項(xiàng)目或論文的評(píng)審人,更準(zhǔn)確及時(shí)地給研究人員提供當(dāng)前領(lǐng)域內(nèi)相關(guān)的成果。
從理論研究的角度來(lái)看,對(duì)研究興趣的分析可以幫助人們回答托馬斯?庫(kù)恩關(guān)注的問(wèn)題:科研工作者如何選取下一個(gè)研究問(wèn)題?研究問(wèn)題的選擇直接反映在了論文的內(nèi)容上,因此論文的研究?jī)?nèi)容變化可以被用來(lái)識(shí)別“探索”與“發(fā)掘”的行為。利用Web of Science平臺(tái)上生物醫(yī)學(xué)和化學(xué)領(lǐng)域的論文數(shù)據(jù),Rzhetsky和他的合作者們提取了論文研究的化合物。將一個(gè)化合物作為一個(gè)知識(shí)節(jié)點(diǎn),利用不同化合物在論文中共同出現(xiàn)的關(guān)系,他們構(gòu)建了化合物之間相互關(guān)聯(lián)的知識(shí)網(wǎng)絡(luò)。每篇論文對(duì)不同知識(shí)節(jié)點(diǎn)(不同化合物)的處理(如跳躍至新的知識(shí)點(diǎn)、鏈接不同的知識(shí)點(diǎn)、融合不同的知識(shí)點(diǎn)等)分別對(duì)應(yīng)對(duì)傳統(tǒng)領(lǐng)域的挖掘和對(duì)創(chuàng)新領(lǐng)域的探索。他們進(jìn)一步結(jié)合知識(shí)網(wǎng)絡(luò)的節(jié)點(diǎn)中心性,發(fā)現(xiàn)領(lǐng)域中主流的研究策略變得越發(fā)保守,研究?jī)?nèi)容往往包含被重點(diǎn)研究過(guò)的化合物(高中心性節(jié)點(diǎn))。這種漸進(jìn)的研究雖然對(duì)個(gè)人的職業(yè)發(fā)展是有利的(低風(fēng)險(xiǎn)),但是降低了突破性科學(xué)發(fā)現(xiàn)的概率,這對(duì)學(xué)科的整體發(fā)展是不利的。
區(qū)別于以論文為出發(fā)點(diǎn)的思路,筆者著重研究了科研工作者個(gè)體研究興趣的變化。利用人名消歧技術(shù),筆者從美國(guó)物理學(xué)會(huì)(American Physical Society,APS)旗下期刊的論文數(shù)據(jù)中分離出14 715位作者和他們發(fā)表的所有論文。筆者將一個(gè)科研工作者的論文按照發(fā)表的時(shí)間排序,在序列的首尾各選取一組論文集合,每個(gè)集合各包含8篇論文。利用每篇論文的內(nèi)容分類代碼(PAC S代碼)構(gòu)建每篇論文主題的多維表征,從而加權(quán)疊加為描述科研工作者研究生涯早期和晚期的研究興趣向量,最后利用余弦相似度計(jì)算兩組論文對(duì)應(yīng)研究方向的不同,量化出一個(gè)科研工作者職業(yè)生涯中興趣轉(zhuǎn)變的程度(如圖2所示,示例中每組論文集合包含2篇論文)。筆者發(fā)現(xiàn),14 715位作者的研究興趣改變遵循一個(gè)指數(shù)分布,這意味著大部分人的研究興趣變化很少,變化的概率隨著變化的程度呈指數(shù)下降,同時(shí)也存在一部分科研工作者,他們?cè)缙诤屯砥诘难芯績(jī)?nèi)容完全沒(méi)有重疊。筆者同時(shí)發(fā)現(xiàn),盡管有很多因素影響科研工作者下一個(gè)研究問(wèn)題的選擇,但是研究興趣演化的過(guò)程仍然可以用一個(gè)簡(jiǎn)單的隨機(jī)游走模型進(jìn)行描述。基于模型的模擬結(jié)果非常好地重現(xiàn)了實(shí)證數(shù)據(jù)中的觀測(cè)結(jié)果。通過(guò)發(fā)現(xiàn)科研生涯中研究興趣變化的宏觀規(guī)律,可以進(jìn)一步論證科研工作者職業(yè)發(fā)展的最佳策略,并進(jìn)一步探索其興趣演化中的微觀機(jī)制。
圖2???對(duì)科研工作者研究興趣演化的示意圖
2.2 科研合作
科研合作是現(xiàn)代科學(xué)研究中越來(lái)越普遍的行為。Wuchty S等人:一方面,科學(xué)問(wèn)題越來(lái)越復(fù)雜,產(chǎn)出率的要求使得科研工作者不得不將單一問(wèn)題切割為不同模塊,分配給相同領(lǐng)域的合作者,以加速研究進(jìn)度;另一方面,不斷增長(zhǎng)的領(lǐng)域?qū)I(yè)知識(shí)、不斷加強(qiáng)的學(xué)科界限以及科學(xué)研究對(duì)創(chuàng)造性、前沿性問(wèn)題的追求,使得一個(gè)科研工作者傾向于和具有不同專業(yè)領(lǐng)域知識(shí)的科研人員一同進(jìn)行開(kāi)創(chuàng)性的工作。
研究興趣作為科研工作者基本的學(xué)術(shù)畫像之一,可以幫助理解科研合作的內(nèi)在機(jī)制。同樣使用美國(guó)物理學(xué)會(huì)的論文數(shù)據(jù),筆者把兩個(gè)作者首次合作的論文作為原點(diǎn),通過(guò)在時(shí)間軸上倒推,收集他們首次合作前的論文集合。通過(guò)比較兩組論文對(duì)應(yīng)的研究主題,測(cè)量?jī)蓚€(gè)科研工作者首次科研合作時(shí)研究領(lǐng)域的相似度。筆者在實(shí)證中發(fā)現(xiàn),科研合作中趨同性(homophily)高于異質(zhì)性(heterophily)。學(xué)者的合作模式可能隨著學(xué)術(shù)年齡的變化而變化。筆者從微觀角度入手,分析APS及DBLP(database systems and logic programming)的數(shù)據(jù),對(duì)不同學(xué)術(shù)年齡的學(xué)者進(jìn)行合作模式的分析,發(fā)現(xiàn)在同一時(shí)間段內(nèi),學(xué)術(shù)年齡分布符合長(zhǎng)尾分布。此外,學(xué)術(shù)界的合作模式普遍存在“人以齡分”的趨同性現(xiàn)象。
學(xué)術(shù)會(huì)議是交流科研成果的重要學(xué)術(shù)活動(dòng)。共同參會(huì)的學(xué)者往往具有相似的研究興趣,這種相似性會(huì)推動(dòng)合作進(jìn)程,延長(zhǎng)合作的持續(xù)時(shí)間。考慮到學(xué)術(shù)會(huì)議的社會(huì)功能,筆者提出學(xué)術(shù)會(huì)議閉包的概念,并基于此提出SCORE(sustainable collaborator recommendation)推薦方法,以合作關(guān)系和合作強(qiáng)度對(duì)學(xué)術(shù)網(wǎng)絡(luò)進(jìn)行重構(gòu),最后以重啟型隨機(jī)游走(random walk with restart)方法進(jìn)行合作者推薦。好奇心和觀察力是新奇性(seredipity)科研發(fā)現(xiàn)的驅(qū)動(dòng)因素和重要的前提條件,而學(xué)者的合作行為也存在一定的意外性、相關(guān)性及價(jià)值性。筆者基于這3個(gè)指標(biāo)定義和量化學(xué)者的新奇合作者,提出新奇合作者識(shí)別模型,并設(shè)計(jì)新奇合作者推薦算法。以新奇合作者的量化分?jǐn)?shù)重構(gòu)合作網(wǎng)絡(luò),改進(jìn)網(wǎng)絡(luò)表示學(xué)習(xí)算法的節(jié)點(diǎn)序列生成過(guò)程,增加隨機(jī)游走訪問(wèn)新奇合作者節(jié)點(diǎn)的概率,最終將得到的節(jié)點(diǎn)序列輸入skip-gram模型。通過(guò)計(jì)算目標(biāo)學(xué)者向量與其他學(xué)者向量的余弦相似度,向?qū)W者推薦合適的合作者,從而更有效地產(chǎn)生高影響力、高創(chuàng)新性的科研成果。
2.3 科研team與科研團(tuán)隊(duì)
科研合作促成不同的科研工作者共同完成一項(xiàng)科研工作,形成一個(gè)team。當(dāng)前,國(guó)際上“team science”研究對(duì)team有明確的定義,即完成一個(gè)具體工作的人員集合,例如完成一篇論文的共同作者team、申請(qǐng)一個(gè)項(xiàng)目的項(xiàng)目基金team等。與科研團(tuán)隊(duì)相關(guān)的研究在國(guó)內(nèi)始于21世紀(jì)初,更多借鑒了組織學(xué)中的概念,描述具有一定穩(wěn)定結(jié)構(gòu)和管理層級(jí)的人員集合。顯而易見(jiàn),多個(gè)科研工作者在研究一個(gè)具體問(wèn)題、發(fā)表一篇科研論文的過(guò)程中必然形成科研team,而科研team卻不一定對(duì)應(yīng)一個(gè)科研團(tuán)隊(duì)。科研團(tuán)隊(duì)是科研team的子集,兩者并不等價(jià)。對(duì)科研team已有的研究發(fā)現(xiàn),team具有流動(dòng)性,沒(méi)有穩(wěn)定的邊界和固定的成員,其形成具有自發(fā)性,管理具有自治性。這些特點(diǎn)也從一個(gè)側(cè)面印證了科研團(tuán)隊(duì)與科研team的不同。
科研team有明確的研究對(duì)象,這使得量化的、實(shí)證的研究得以廣泛開(kāi)展,大量基于數(shù)據(jù)的結(jié)論被提出和證實(shí)。與之相反,科研團(tuán)隊(duì)的定義非常模糊,這使得相關(guān)研究要么缺少實(shí)證數(shù)據(jù)支撐,要么簡(jiǎn)單地把團(tuán)隊(duì)和team等同,將team的結(jié)論照搬到科研團(tuán)隊(duì)。可以說(shuō),科研團(tuán)隊(duì)是當(dāng)前國(guó)際、國(guó)內(nèi)研究中鮮有涉及的部分。雖然科研團(tuán)隊(duì)的概念極大地影響著我國(guó)的科學(xué)研究(年輕的科研工作者被要求加入一個(gè)科研團(tuán)隊(duì),有潛力的科研工作者被要求建立和領(lǐng)導(dǎo)一個(gè)科研團(tuán)隊(duì),進(jìn)而各個(gè)高校研究機(jī)構(gòu)需要評(píng)估和管理科研團(tuán)隊(duì)),但是對(duì)科研團(tuán)隊(duì)的理解還停留在簡(jiǎn)單直觀的水平,缺少量化的、基于實(shí)證數(shù)據(jù)的研究。
當(dāng)前對(duì)科研team的研究已經(jīng)從一個(gè)側(cè)面暗示出科研團(tuán)隊(duì)在某些層面上的不足。例如,不同的研究均發(fā)現(xiàn),穩(wěn)定的合作成員會(huì)降低合作者之間的異質(zhì)性,進(jìn)而降低team研究工作的創(chuàng)新性,這暗示著科研團(tuán)隊(duì)在對(duì)創(chuàng)新性要求較高的研究領(lǐng)域可能存在不足。Wu L等人發(fā)現(xiàn),大team能對(duì)已有的研究進(jìn)行挖掘,但是小team更容易帶來(lái)顛覆性的創(chuàng)新成果。這意味著科研團(tuán)隊(duì)可能在不同的任務(wù)中存在優(yōu)勢(shì)和劣勢(shì),科技政策中需要平衡兩者間的關(guān)系。這個(gè)現(xiàn)象對(duì)中國(guó)科研界有著更重要的啟示。我國(guó)小team的產(chǎn)出在整個(gè)科技論文的總量中占比偏少,遠(yuǎn)遠(yuǎn)低于美國(guó)和國(guó)際均值。例如在2017年,我國(guó)只有37%的論文是由小team (論文作者數(shù)小于5位)完成的,而美國(guó)為58%,國(guó)際均值為53%。雖然大team的論文往往更有可能獲得更多的引用,但是Dong Y等人發(fā)現(xiàn),team中成員單位的異質(zhì)性才是決定高水平研究成果產(chǎn)生的因素,來(lái)自同一單位的大team并不具有產(chǎn)生高水平成果的更高概率,這意味著大型科研團(tuán)隊(duì)在高水平成果的創(chuàng)造中可能并無(wú)優(yōu)勢(shì)。
從技術(shù)上來(lái)講,科研team不需要識(shí)別,任何一個(gè)項(xiàng)目、一篇論文,只要參與的人員多于1人,就形成了一個(gè)team。而識(shí)別科研團(tuán)隊(duì)則困難得多。首先需要有準(zhǔn)確的人名消歧數(shù)據(jù),才能追蹤科研人員的長(zhǎng)期合作關(guān)系,構(gòu)造科研合作網(wǎng)絡(luò)。但即便給定合作網(wǎng)絡(luò),當(dāng)前也缺少合適的工具從中識(shí)別出團(tuán)隊(duì)信息。從網(wǎng)絡(luò)科學(xué)的視角來(lái)看,作者與論文之間形成的是一個(gè)二分圖,由兩組節(jié)點(diǎn)(作者和論文)構(gòu)成,組間連接,而組內(nèi)沒(méi)有連接。作者合作關(guān)系網(wǎng)絡(luò)通過(guò)將二分圖投影獲得,包含許多致密的團(tuán)(clique)結(jié)構(gòu),每個(gè)團(tuán)內(nèi)的節(jié)點(diǎn)相互完全連接(如圖3(a)所示)。最終形成的科研合作網(wǎng)絡(luò)連接非常緊密,社團(tuán)結(jié)構(gòu)非常弱化,現(xiàn)有的工具難以準(zhǔn)確識(shí)別其中的群團(tuán)信息。與此同時(shí),團(tuán)隊(duì)識(shí)別不能簡(jiǎn)單依靠合作網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),合作強(qiáng)度帶來(lái)的連邊權(quán)重也極大地影響著團(tuán)隊(duì)的識(shí)別。如圖3(b)所示,如果不考慮連邊權(quán)重,僅僅依靠拓?fù)浣Y(jié)構(gòu)對(duì)合作網(wǎng)絡(luò)進(jìn)行劃分,極有可能將合作關(guān)系非常緊密的節(jié)點(diǎn)3和節(jié)點(diǎn)4劃分在兩個(gè)不同的團(tuán)隊(duì)中。為解決這一問(wèn)題,筆者提出了一套基于相對(duì)合作強(qiáng)度的指標(biāo),對(duì)現(xiàn)有的合作連邊進(jìn)行切割,從而獲得相對(duì)稀疏的合作網(wǎng)絡(luò),幫助獲取團(tuán)隊(duì)信息。進(jìn)一步與團(tuán)隊(duì)的科研績(jī)效數(shù)據(jù)結(jié)合,幫助從實(shí)證上分析團(tuán)隊(duì)在科研上的優(yōu)勢(shì)與劣勢(shì)。同時(shí)也進(jìn)一步拓寬當(dāng)前國(guó)際上team science的研究,獲得團(tuán)隊(duì)與team在科研績(jī)效成果上的異同。
圖3???從論文構(gòu)建科研合作網(wǎng)絡(luò)的示例
2.4 成果多維量化與學(xué)術(shù)不端行為識(shí)別
反應(yīng)行為(reactivity)在心理學(xué)上指的是個(gè)體因?yàn)橹辣挥^測(cè)而改變行為的現(xiàn)象。當(dāng)前各種科學(xué)計(jì)量指標(biāo)被廣泛地應(yīng)用于評(píng)價(jià)一個(gè)科研工作者的科研績(jī)效,并且在很大程度上與項(xiàng)目經(jīng)費(fèi)、職位晉升、個(gè)人收入等相關(guān)。古德哈特定律(Goodhart’s law)精辟地指出,一項(xiàng)指標(biāo)一旦成為政策制定的依據(jù),便會(huì)逐漸失效。科研領(lǐng)域也不例外,科研工作者并不是科研評(píng)價(jià)體系下的被動(dòng)接受者,他們可以主動(dòng)地改變自己的行為,以迎合相應(yīng)的評(píng)價(jià)指標(biāo)。科研領(lǐng)域的反應(yīng)行為對(duì)科學(xué)研究有著深刻的影響,在個(gè)體層面,導(dǎo)致目標(biāo)置換(goal displacement),在評(píng)價(jià)系統(tǒng)中獲得更高的分?jǐn)?shù)成為科研的目標(biāo);在群體層面,影響科研的基礎(chǔ)氛圍,例如帶來(lái)跟風(fēng)性質(zhì)的研究,或避開(kāi)困難的研究問(wèn)題而青睞于短平快的方向,進(jìn)一步損害整個(gè)科學(xué)共同體的利益。
我國(guó)科研管理結(jié)構(gòu)已經(jīng)意識(shí)到這一問(wèn)題的重要性,當(dāng)前大力推進(jìn)的破“五唯(唯論文、唯帽子、唯職稱、唯學(xué)歷、唯獎(jiǎng)項(xiàng))”正是對(duì)這一現(xiàn)象的糾正。然而需要注意的是,量化指標(biāo)仍然是衡量科研工作者科研績(jī)效的重要工具。“五唯”的問(wèn)題不在于指標(biāo),而在于“唯”,只有提供科研工作者成果績(jī)效的多維度量化,才能有效地實(shí)現(xiàn)破“五唯”。基于學(xué)術(shù)大數(shù)據(jù)的多維特征和數(shù)據(jù)挖掘方法,可以實(shí)現(xiàn)這一目標(biāo)。例如,通過(guò)對(duì)論文作者進(jìn)行人名消歧可以更好地移除自引,獲得它引數(shù)量;通過(guò)科研合作網(wǎng)絡(luò)分析,利用復(fù)雜網(wǎng)絡(luò)的各類節(jié)點(diǎn)中心性指標(biāo),識(shí)別網(wǎng)絡(luò)中的重要節(jié)點(diǎn),描述學(xué)者在相關(guān)領(lǐng)域中的影響力;通過(guò)分析論文的引用信息,結(jié)合學(xué)術(shù)團(tuán)隊(duì)的識(shí)別,獲得一個(gè)科研工作者影響力的來(lái)源,尤其可以采用Top k方法描述引用異質(zhì)性特征和影響力范圍。如兩個(gè)科研工作者的它引數(shù)量均為1 000次,但是其中一人30%的引用來(lái)自自己的科研團(tuán)隊(duì),20%的引用來(lái)自科研團(tuán)隊(duì)1,15%的引用來(lái)自科研團(tuán)隊(duì)2;另一人本團(tuán)隊(duì)引用僅占15%,引用來(lái)源占比最高的其他團(tuán)隊(duì)僅為8%和6%。這說(shuō)明雖然兩人引用數(shù)量相同,但是后者的引用分布更加均勻,引用來(lái)自于更多的科研團(tuán)隊(duì),影響力范圍更加廣泛。這些多維度的信息能更豐富地描述科研工作者的成果和研究能力,避免對(duì)單一指標(biāo)的過(guò)度依賴。
反應(yīng)行為的過(guò)度延伸可形成學(xué)術(shù)不端。創(chuàng)新管理領(lǐng)域期刊Research Policy在2019年推出一期主題為“Academic Misconduct,Misrepresentation,and Gaming”的專刊,對(duì)各類學(xué)術(shù)不端行為進(jìn)行了分析總結(jié),這從一個(gè)側(cè)面說(shuō)明了這一問(wèn)題的重要學(xué)術(shù)價(jià)值。我國(guó)當(dāng)前在大力呼吁加強(qiáng)科研誠(chéng)信、嚴(yán)懲學(xué)術(shù)不端,然而基于大規(guī)模數(shù)據(jù)的科研工作者反應(yīng)行為探測(cè)、挖掘的工作仍然不多。雖然科研工作者學(xué)術(shù)不端的參考標(biāo)準(zhǔn)數(shù)據(jù)難以獲得,但是從數(shù)據(jù)中挖掘可疑的、不尋常的行為卻非常可行。例如一些工作中總結(jié)了常見(jiàn)的一些學(xué)術(shù)不端行為,如過(guò)度合作(或名譽(yù)作者)現(xiàn)象、通過(guò)拆分工作獲得更多的論文數(shù)、通過(guò)大量自引獲得更多的引用數(shù)、互引圈子(citation cliques)間的相互引用。這些現(xiàn)象均可以利用機(jī)器學(xué)習(xí)的方法,通過(guò)設(shè)定的閾值在學(xué)術(shù)大數(shù)據(jù)中進(jìn)行識(shí)別,再通過(guò)人工篩查,可對(duì)一些早期的學(xué)術(shù)不端行為提出預(yù)警。
3 結(jié)束語(yǔ)
基于大數(shù)據(jù)的在線用戶行為分析已經(jīng)成為一個(gè)熱點(diǎn)研究問(wèn)題,梳理其發(fā)展的脈絡(luò),不難發(fā)現(xiàn)其中的一些特點(diǎn)。首先用戶行為具有復(fù)雜性,需要理論和實(shí)證的研究;其次是大量用戶各類行為被記錄和保存,使得數(shù)據(jù)驅(qū)動(dòng)的研究工作得以開(kāi)展;最后是用戶行為在推薦、信息傳播、安全等各領(lǐng)域均有實(shí)際的應(yīng)用。對(duì)照基于學(xué)術(shù)大數(shù)據(jù)的科研工作者行為研究,不難發(fā)現(xiàn)類似的因素:科學(xué)的復(fù)雜性、學(xué)術(shù)大數(shù)據(jù)的可用性、對(duì)科學(xué)規(guī)律認(rèn)識(shí)的需求分別對(duì)應(yīng)了在線用戶行為分析領(lǐng)域的驅(qū)動(dòng)力量。當(dāng)前國(guó)際上科學(xué)學(xué)研究的興起也充分說(shuō)明了這是一個(gè)大有可為的領(lǐng)域。相關(guān)的研究問(wèn)題很多,本文只是列舉了一部分,其余部分可由讀者進(jìn)一步發(fā)掘探索。
作者簡(jiǎn)介
賈韜(1982- ),男,博士,西 南大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院教授、副院長(zhǎng),主要研究方向?yàn)榇髷?shù)據(jù)、復(fù)雜網(wǎng)絡(luò)等,以第一作者(兼共同通信作者)在Nature Human Behaviour、Nature Communications、Physical Review Letters等學(xué)術(shù)期刊發(fā)表多篇論文。獲2010年年度國(guó)家優(yōu)秀自費(fèi)留學(xué)生獎(jiǎng)學(xué)金。
夏鋒(1980- ),男,博士,大連理工大學(xué)教授、博士生導(dǎo)師,軟件學(xué)院副院長(zhǎng)、學(xué)術(shù)委員會(huì)副主任,阿爾法實(shí)驗(yàn)室(The Alpha Lab)創(chuàng)始人兼主任,ACM高級(jí)會(huì)員、IEEE高級(jí)會(huì)員,主要研究方向?yàn)閿?shù)據(jù)科學(xué)、大數(shù)據(jù)、知識(shí)管理、系統(tǒng)工程等。出版英文學(xué)術(shù)專著2部(Springer出版),在國(guó)際期刊和國(guó)際會(huì)議上發(fā)表論文290余篇,其中IEEE和ACM期刊論文70余篇。連續(xù)5年(2014—2018年)入選“中國(guó)高被引學(xué)者”榜單。
《大數(shù)據(jù)》期刊
《大數(shù)據(jù)(Big Data Research,BDR)》雙月刊是由中華人民共和國(guó)工業(yè)和信息化部主管,人民郵電出版社主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì)學(xué)術(shù)指導(dǎo),北京信通傳媒有限責(zé)任公司出版的中文科技核心期刊。
關(guān)注《大數(shù)據(jù)》期刊微信公眾號(hào),獲取更多內(nèi)容
往期文章回顧
區(qū)塊鏈在數(shù)據(jù)流通中的應(yīng)用
專題導(dǎo)讀:學(xué)術(shù)大數(shù)據(jù)
學(xué)術(shù)大數(shù)據(jù)技術(shù)在科技管理過(guò)程中的應(yīng)用
基于大數(shù)據(jù)的主動(dòng)科研管理模式與優(yōu)化決策機(jī)制
圖靈指數(shù)——學(xué)術(shù)大數(shù)據(jù)下的跨領(lǐng)域跨年代學(xué)者影響力評(píng)估
總結(jié)
以上是生活随笔為你收集整理的“科学学”视角下的科研工作者行为研究的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 在ubuntu上安装samba实现与wi
- 下一篇: linux创建进程fork函数和vfor