python如何爬取sci论文中所需的数据_sci论文中的科研数据处理方法
不直接參與科研的人都覺得科研是一種充滿了新idea和思想碰撞的活動。可是那只是整個科研過程中的一小部分。相信所有已經做過科研的人,不管你在哪一個科研領域,在你的成果足夠寫成論文之前都避免不了進行大量的重復性機械性的工作。這些看上去并沒有技術含量的工作有相當一部分便是數據處理了。做大熱點的方向,隨便做點東西就能發很好文章的人畢竟是少數。大部分科研人員,尤其是剛入門的新手,都需要做系統重復的實驗,和處理大量的數據來提高工作的可靠性和質量。在這些過程中,高效處理自己的科研數據往往會有意想不到的效果。
而利用的簡單的代碼和編程來自動化數據處理則往往會意想不到的節約大量數據處理的時間。寫代碼處理數據的本質就是把模式化的過程自動化。對于編程不熟悉的同學可能初期要花費一些時間寫出相應代碼,可是這些短期的時間投入是絕對值得的。舉個簡單的例子,假設你有3000條數據存在一個文本文件里,每一行代表了某一個時間的一次實驗以及結果,而你現在需要把其中的包含特定結果的500條給找出來,然后做一些數學運算。如果你僅僅依靠手動復制黏貼處理這類問題,輕輕松松幾個小時就過去了。假設你的科研工作經常需要處理這樣的數據,可能你會有無數個煩躁的下午在做最最機械的工作,而且還可能會出錯。可是如果你懂一些腳本語言,比如linux下的grep,
awk, sed,做這個工作可能只需要一行代碼。
假設你現在手上有一個excel表格里面是自己的儀器輸出的實驗數據,你突然需要把每個子表中的特定的行列提取出來做一些計算排序然后最后作圖。正常的做法就是進入每個字表手動復制黏貼,然后處理,最后用excel或者導出到origin之類的軟件作圖。可是只要你會任意一種編程語言,這個也就是幾句代碼的事。相信每一個做科研的人都學過基本的編程語言,比如c/c++,
java, matlab,
或者python。只需要一些編程的基礎知識,或許由于對編程的不熟悉第一次可能要花費一個下午去寫好這樣的可能只有十幾行或者幾十行的一個處理數據的腳本,可是你今后再碰見類似的問題只需要花幾秒鐘再次運行你的代碼。
扯了這么多,推薦一些簡單的做數據處理,歸類的工具和編程語言吧。
首先,Linux下面有大量這樣的語言和工具,而且即使你是windows用戶也沒關系,裝一個cygwin就好了,cygwin就是一個應用程序,可以讓你在不安裝Linux系統,也不用繁瑣的去弄虛擬機的情況下5min獲得Linux使用體驗。Linux下面的一些小工具比如grep,
sed, awk, vim,合理的結合一些循環指令就能很快的處理完一個大型的文本文件。感興趣的同學可以看看以下的幾個鏈接:
Bash: http://tldp.org/LDP/Bash-Beginners-Guide/html/
vi/vim: https://www.cs.colostate.edu/helpdocs/vi.html
grep: https://www.techonthenet.com/linux/commands/grep.php
sed: http://www.grymoire.com/Unix/Sed.html
awk: https://www.tutorialspoint.com/unix_commands/awk.htm
其次,如果你會一點matlab或者python。問題也很簡單,二者都有很強大的I/O模塊用于讀取各類信息,包括文本文件,excel表格,數據庫文件,網頁,PDF文件等等。你需要做的只是搜索比如“matlab如何讀excel文件”然后花一點時間看看那句代碼怎么寫就夠了。
總結
以上是生活随笔為你收集整理的python如何爬取sci论文中所需的数据_sci论文中的科研数据处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 浅谈malloc,calloc,real
- 下一篇: 常用寄存器及其说明