微软学术搜索项目 10个版本的历程
下面說說項目的發展:
2009/8:? 內部發布 alpha 版本,? 以驗證想法為目的的 V1 結束, 數據量: 3 million ? 2009/9:? 開始V2,? 研究員和工程人員合作規劃項目的目標, 遠景,階段,典型用戶;決定代碼管理,項目管理 (都用 MS TFS 管理). 決定 V2 著重于 Computer Science 領域 決定系統的特點在于展示六大實體及其關系 (作者,論文,機構,期刊,會議,關鍵字), 并把這些實體和關系投影到學科, 時間, 地點維度上來展現。 ? 典型用戶有哪些? 我們描繪出三種典型用戶。 ??? Mary:? 資深科學家 – 痛苦: 招人, 分析學科趨勢及大量的學科數據,主持國際會議和合作,從學校/機構的層面比較各自的科研產出和動向。? ??? John:?? 剛出道的科學家 – 痛苦: 指導學生工作, 收集最新科研資料,組織會議, 讓別人了解自己的科研成績 ??? 小勇:?? 想走上學術道路的大學生, 研究生 – 痛苦: 找資料, 讀論文, 申請出國, 投稿 ? 項目計劃的一個重要方面是核心價值是什么, 決定不做什么 -? 我們決定不和其它學術搜索比拼“論文下載”這一功能, 就是說, 如果用戶的唯一目的就是要下論文, 我們系統不是最好的。 決定采取 8 周為一個里程碑 (Milestone) 的開發周期, 采用 MS Agile 的思路。 [2 周計劃;4周實現;2周測試并上線 ] 人員: 研究員 + 軟件工程師 8-9 人; 全職PM 一名;? 加上實習生數名, 幾個外包團隊的測試人員。 開始聯系出版社商討合作 在西格瑪4層的水房開了 V2 kick off 會議。 ? 市場上已經有各種學術搜索服務, 作為一個后來者, 我們怎么創新? 我們的紅旗能打多久? 我們到底要做什么? 要怎樣展現各個實體之間的什么關系??? 我畫了一個表: ?| Relation | author | paper | conf/journal | organization | keyword |
| author | co-author | paper list | top authors | author/org rank | author research interest |
| paper | ? | related paper | top papers | top papers from this org | highlight keywords in a paper |
| conf/journal | ? | ? | CFP calendar | top org in a conf/journal | focus of conf/joural (tag cloud) |
| organization | ? | ? | ? | org rank list | research area of an org |
| keyword | ? | ? | ? | ? | taxonomy, related keywords |
應某部門的要求,我們把界面色調改得像它的孿生兄弟一樣 (橘黃色)。有意思的是, 此部門后來一直在思考中, 并未采取行動 …
? 2011/3: V2M7 發布 增加了 Keyword (關鍵字)這是最后一個實體。 發布了 Academic Search API, 讓學術界能通過API 使用我們的元數據, 開發他們自己的應用。 獨特的可視化功能 – Author Citation Graph Call for Paper 和其它一系列功能的改進 和一個出版社的協議生效并且數據上線了, 數據量: 15.7 million . 其余的出版社還是討論中。 ? V2 訂下的目標基本實現 (計算機領域的全文本數據還是在痛苦地等待中)。開始V3, 向全學科領域進軍 由于項目的絕大部分模塊都進行了大規模的工程性重構,重寫。有些問題太難 (), 研究員們逐步撤出了項目。 ? 2011/6: V3M1 發布 新的領域擴展到 9 個 推出獨特功能 - ??? 背靠背比較研究機構 – organization comparison ??? 關鍵字 - 支持關鍵字的變體 改進已有功能,在用戶編輯模塊提供 “修改歷史”信息 為了充分展示各學科內容,? MAS獨創的兩級homepage 組織結構隆重登場. 工程師繼續改進名字消歧的算法 - 即使難, 也要迎著困難上啊。 我讓清華《現代軟件工程》班的同學根據 API 寫一個 iPad 上的程序, 一組同學做了一個, 但沒有發布… 隨著項目的成熟,? 如何讓項目可持續地發展成為一個問題,? 我們和雷鎮的另一部門商討如何更好地進行商業運作。達成了初步協議。? 數據量: 27.1 million 大家對敏捷開發的流程也逐漸熟悉, 這是其中一個里程碑的工作項 (work item) 看板圖。在每次史克朗茻? (SCRUM) 會議時, 大家就更新墻上自己負責的任務。 ? ? 2011/9: V3M2 發布 新的領域擴展到 17 個 推出獨特功能 - ??? 獨特的排名選項可以讓用戶用多種方式給作者排序。 ??? 從美國 Harvey Mudd 學院來的實習生很快就完成了 學術地圖 這一功能。 ??? Windows Phone 的客戶端發布 (link) 很多小型出版社和我們達成了合作協議,最重要的出版社還在最后關頭… 隨著項目逐漸成熟, 知名度提高, 我們需要計劃如何把 beta 產品轉化為正式產品, 我們和一些其他部門商討并達成初步共識。 項目的名聲也大了, 黑客用他們獨特的方式告訴我們網站有漏洞。 數據量: 35.3 million ? 2011/12: V3M3 發布 完成了全學科所有子領域的定義, 期刊/會議的學科歸屬, 產生 15 個一級學科 推出獨特功能 - ??? 學術家族樹 (經歷上次失敗后, 中科大的同學再次努力, 終于上線) ??? 可視化功能 - 論文引用圖 - 這是和另一個研究小組合作的結果 ??? wp7 手機客戶端增加對學術會議的支持 (正在走上線流程) 對所有代碼進行了安全檢查和修復 CS 領域的重要出版社終于和我們達成了合作協議!? 我們等了兩年的時間… 數據量: 35.3 million, 總數量不變,? 但是全文本的數據比重大幅增加。 越來越多的學術界同行申請使用 學術搜索 API 收到好評不少,? 例如:??? It’s been a very impressive year for 當然競爭對手也沒閑著…
?
? 2012/1-3? service pack 階段 重點放在如何把項目移交給另一部門 形成了有規律的數據更新周期。 進行文檔整理和規范化工作 姓名消歧工作又經過幾個月的努力, 得到大幅改進, “Zheng Lei”這樣的名字也得到不錯的處理,? 不會出現一個“Zhang Lei”寫了幾千篇論文的滑稽情況。 根據用戶反饋和自身計劃, 改進各個模塊的質量 對CS, Engineering 領域的論文覆蓋率大大提高。 數據量: 38.8 million 訪問數據:? 平均每月 1百萬獨立IP 訪問, 其中 60% 來自美國; 超過60 個合作伙伴使用我們的API 進行各自的研究。 模塊: 元數據抽取, 離線處理, 數據庫, 論文集成,作者名字集成與消歧,數據索引, 網站, API, wp7 客戶端, 測試工具,? 內部編輯復審工具, log 工具。 代碼量: 34萬 (C++, C#, asp.net, javascript, silverlight, SQL) 代碼量不包括空行, 注釋, 只有一個字符的行。 —————————————————————————————————————————————————— ? 微軟學術搜索?? 介紹 ? ? 微軟學術搜索(Microsoft Academic Search)是微軟研究院開發的免費學術搜索引擎。它為研究員、學生、圖書館館員和其他用戶提供了一個更加智能、新穎的搜索平臺,方便用戶查找學術論文、知名學者、國際會議、權威期刊等信息。同時,微軟學術搜索作為一個研究試驗平臺,展現了研究院在對象級別垂直搜索、命名實體的提取和消歧、數據可視化等研究領域的最新研究成果。?
作為一個研究原型,微軟學術搜索覆蓋的學術內容仍比較有限,我們衷心感謝您的反饋與貢獻。您可以通過Twitter 關注我們,或者加入我們的論壇。
? 主要功能 - 搜索要實現基本的搜索功能,只需簡單地輸入關鍵詞,然后單擊搜索按鈕。
微軟學術搜索不僅僅涵蓋計算機科學,而且已經逐步擴展到其他學科,您可以通過指定感興趣的學科領域來縮小搜索范圍,快速找到所需論文。
例子:輸入關鍵詞;點擊"All Domains"按鈕;從下拉表中選擇一個復選框,可將您的搜索范圍縮小到指定學科。
如果您有更為具體的搜索條件,您可以使用高級搜索,以提高搜索的準確性與有效性。點擊“高級搜索”(Advanced Search)并輸入以下選項的具體值:作者、會議、期刊和年份。
例子:查找1999年之后發表的與"data mining"相關的論文,輸入關鍵詞并設置年份。
用戶參與編輯
微軟學術搜索允許用戶在線修正數據。如果您發現作者的資料、論文的資料有誤,或是我們提供的信息已過時,您可以直接在網上進行修改。微軟學術搜索目前支持修改的數據項包括:作者的基本信息,如姓名、所屬機構、頭像及個人主頁;論文的基本信息;上傳論文;確認論文歸屬等。您的修改經編輯驗證后將更新在網頁上。如果您有其它修改需求,請與我們聯系。我們致力于提供最新、最準確的學術信息,期待您的參與。
獲取最新的征稿信息
您可能希望了解某個學術會議的論文提交截止期限,或是您想要查詢該學術會議的召開地點,那么, 征稿信息 (call for paper)對您而言是一個非常有用的工具。
征稿信息頁面將自動顯示最近半年的會議列表,您可以通過學科篩選(Domain Filter)來鎖定目標會議。將鼠標放在時間線上,就能看到每個會議的時間安排。點擊“地圖視圖”,可以方便地查找到會議地點。
您也可以在搜索框中輸入會議名稱(全稱或縮寫名)來查找感興趣的會議。
展現多樣的作者關系
合作關系圖 (Co-author Graph)中每個節點代表一名作者,節點越大意味著作者所發表的著作越多,合作數量越多的合作者離作者的距離越近。
合作關系路徑圖(Co-author Path)展示了兩個學者之間的合作路徑,路徑中的每條邊表示兩個端點代表的作者間存在合作關系。
?
學術引用圖(Citation Graph)呈現作者之間的引用關系。圖中每個節點代表一名作者,位于頁面左上角的作者為被引用作者,引用該作者的文章越多,與該作者的距離越近。
?
學術家族樹(Genealogy Graph)呈現作者之間的導師/學生關系。在主要作者上方是其導師, 下方是其學生。 當學生數量較多的時候, 學生按機構進行歸類。
?
您可以點擊頁面右上方的 Embed 選項 將上述圖形化展示頁面嵌入個人主頁。
?
將論文嵌入到自己的個人主頁
微軟學術搜索允許您將論文列表嵌入到其它網頁,比如您的個人主頁。
具體步驟:在作者詳細頁面中點擊Embed,然后點擊“生成JavaScript 代碼”(Generate JavaScript code),復制顯示在右側窗口中的全部JavaScript 代碼并黏貼到您的個人主頁。
查看論文的引用信息
引文內容(Citation Context)列出了引用論文對原始論文的轉述內容,幫助用戶方便、快速地理解其他作者對原始論文的評價。
您可以在論文詳細頁面中找到引文內容,一條典型的結果會包括從引用論文中實際摘錄的一段內容、引用論文的第一作者以及引用論文的題目。系統默認顯示5條結果,如果您想查看更多,請點擊引文內容(Citation Context)。
直觀顯示各學科領域的出版物動態
領域動態(Domain Trend)以疊加分布圖的方式直觀展示了各學科領域的研究動態。
您可以通過頁面左側的面板來過濾或自定義顯示的學科領域,調整時間軸可讓您更改感興趣的時間段。您可以點擊某個感興趣的學科領域以查看該領域的作者列表。
獲取研究機構的更多信息
微軟學術搜索推出兩個新功能以幫助您更多了解研究機構的相關信息。
A. 學術地圖
學術地圖(Academic Map)使用可視化地圖展示全世界研究機構的地理分布,地圖中的每個點代表一個研究機構,點擊某一個機構會顯示該機構學者的詳細信息。您也可以通過指定學科領域來對研究機構進行篩選。
B. 機構比較
您可以點擊機構詳細頁面中的比較按鈕,將該機構與其它機構進行比較。在機構比較頁面中,您可以看到兩個機構所發表論文量、引用量、研究側重以及所屬學者的對比情況。
論文引用圖
展現了論文之間的引用關系, 您可以通過這個直觀的引用圖梳理知識脈絡, 找到相關論文, 拓寬對某專業的理解。
?搜索結果頁面
微軟學術搜索基于您所輸入的搜索詞給出相應的搜索結果。例如:搜索“data mining”返回的頁面如下:
A:年份篩選:通過限定年份條件進一步過濾搜索結果。
B:結果:一條典型的搜索結果包含以下信息:
- 論文題目:鏈接到論文詳細信息頁面,顯示該論文的作者信息、摘要、參考書目、引用書目等。
- 查看論文:鏈接到論文瀏覽/下載頁面。
- 引用:該論文的引用數量。
- 作者姓名:鏈接到作者詳細信息頁面,該頁面顯示作者的個人主頁、所屬機構、論文列表等。
- 論文摘要。
- 出版時間。
- 論文來源:鏈接到會議、期刊的詳細信息網頁,顯示其論文數量、引用數量、論文列表等。
C:側欄:通過選擇不同的學科領域,您可以進一步過濾您的搜索結果。
學術實體 (作者, 機構等) 的詳細頁面
您只需點擊微軟學術搜索任一頁面上的論文題目、作者姓名、機構名稱、會議名稱、期刊題目或關鍵詞,即可訪問相應對象的詳細信息頁面。例子:這是關于作者Wei-Ying Ma的詳細信息頁面:
系統將學者分為兩種類型。當頭像顯示為一個問號時,表明這個學者的資料還未被任何用戶編輯過,歡迎您對資料進行補充或更正;另一種類型的學者資料則已被人工編輯,您對這些學者資料做進一步更新時請更為謹慎。
H-指數
H-指數是Jorge E. Hirsch提出的一種評價科研人員學術成就的方法。Hirsch定義一個科研人員的h指數為在一定期間內他發表的論文至少有h篇的被引頻次不低于h次。
H-指數也可以用來衡量一個機構的學術成就。我們基于以下方法計算該指數:一個機構的論文數量包括(a)由當前屬于該機構的學者所發表的論文;(b)該論文發表時相關作者屬于該機構。一個機構的h指數指一定時期內該機構的論文至少有h篇的被引頻次不低于h次。
G-指數
G-指數是基于科研人員被引次數的分布來評價科研人員學術成就的另一種方法。該指數由Leo Egghe提出,一個科研人員的g-指數指他的g篇被引次數最多的論文平均有g次被引,g是可能的最大數目。
學科信息排序表
微軟學術搜索提供各學科領域各種信息的排序表,通過列表,您可以發現有影響力的論文、作者、會議、期刊和機構等。
? 學術搜索API微軟學術搜索通過開放API,允許用戶訪問我們的海量數據,幫助開發人員構建各種創新性應用程序。無論您是要進行學術機構排序,還是要展示論文引用關系,API都可以讓您輕松啟動這些項目。
了解更多關于API的信息,請參考API 介紹頁。
總結
以上是生活随笔為你收集整理的微软学术搜索项目 10个版本的历程的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python高级功能_python高级篇
- 下一篇: python经济_python生成器——