【2016年第1期】基于大数据的玉米田四代棉铃虫发生量的预测模型
趙雷,楊波,劉勇,牟少敏,溫孚江
山東農業大學農業大數據研究中心,山東 泰安 271018
摘要:提出了一種基于支持向量機的預測模型。根據山東省1999-2013年玉米田第四代棉鈴蟲發生程度采集的數據,采用支持向量回歸(SVR)算法,構建了玉米田第四代棉鈴蟲發生程度與其關聯因子間的非線性關系模型,并對該方法進行了測試與分析。結果表明,由SVR預測模型得到的預測發生量與實際發生量基本一致,預測的平均絕對百分比誤差為4.36%,預測值與實際值的相關系數為0.9606,為玉米田第四代棉鈴蟲的有效防控提供了科學指導。
關鍵詞:農業大數據;棉鈴蟲;支持向量回歸;監測預警;玉米
中圖分類號:S431.9 ?????文獻標識碼: A
doi: 10.11959/j.issn.2096-0271. 2016008
Forecasting model for the fourth generation of cotton bollworm in corn fields based on big data
ZHAO Lei, YANG Bo, LIU Yong, MU Shaomin, WEN Fujiang
Agricultural Big Data Research Center, Shandong Agricultural University, Taian 271018, China
Abstract: The monitoring and forecasting model was put forward based on support vector machine program. According to the data collection of the fourth generation occurrence degree of the corn bollworm in Shandong province from 1999 to 2013, the support vector regression (SVR) method was adopted to build the nonlinear correlation model between the occurrence degree of the fourth generation bollworm and the associated factors. The method and the model were tested and analyzed. The results showed that the SVR forecasting model for prediction was almost in accord with the actual insect occurrence situation. The mean absolute percentage error was 4.36%, and the actual and estimated value of the correlation coefficient was 0.960 6. It could provide effective and accurate guidance to the cotton bollworm control in corn fields.
Key words: agricultural big data, cotton bollworm, support vector regression, monitoring and forecasting, corn
?
1? 引言
隨著云計算、物聯網等技術的迅猛發展,數據正以前所未有的速度不斷地增長和累積,大數據時代已經來臨。依靠數據分析獲得洞察力,做出更好的業務決策是數據分析挖掘的主要目的[1,2]。
預測是大數據的核心。跳出傳統的因果關系的思維局限,通過對大量數據的搜集、挖掘和分析,發現數據間隱藏的相關關系,從而揭示事物發生和發展的內在規律,能做出更快、更符合實際的預測[3,4]。如英國和美國科學家在《Science》發文指出,全球變暖會導致非洲和南美洲高原地帶瘧疾的流行[5];基于多年的數據挖掘和分析,荷蘭科學家指明,新煙堿類殺蟲劑吡蟲啉的應用是本地食蟲鳥類種群數量減少的主要原因[6]。因此,借助于大數據的研究手段和方法,能夠使已有的農業數據“活起來”,認識其內在的關聯性,預測發展趨勢,使其在指導生產活動中產生價值[7-10]。
棉鈴蟲屬鱗翅目、夜蛾科,是一種重要的農業害蟲,寄主范圍廣。近年來,隨Bt棉的大范圍種植,第四代棉鈴蟲對玉米葉片和果穗,特別是果穗的危害逐漸加重,造成玉米產量下降,品質降低[11]。截至目前,國內外對棉鈴蟲的監測預警研究主要是依靠有限的氣象因素,如溫度、降雨和光周期等[12-14],采用線性回歸分析,建立相關模型,開展對棉花田棉鈴蟲的預測研究。而對玉米棉鈴蟲的監測預警未見報道。本文基于大數據理念,依據已有的數據積累,采用支持向量回歸(SVR)算法,建立了預測玉米田第四代棉鈴蟲發生量的支持向量機模型,為指導玉米田第四代棉鈴蟲的發生預測及科學防治打下了基礎。
?
2? 資料與方法
2.1 ?數據來源
本文涉及的變量主要有1999-2013年山東省濱州地區玉米田第四代棉鈴蟲的發生量及氣象數據,主要包括7月中旬到8月上旬的平均氣溫、降水量、最高氣溫(≥35 ℃)的日數、降水(≥10 mm)的日數、極大風速、平均本站氣壓、平均風速、平均水汽壓、平均相對濕度、日最低本站氣壓、日最低氣溫、日最高本站氣壓、日最高氣溫、最大風速、最大風速的風向和最小相對濕度,分別計算出每年月氣象因子的平均數。1999-2013年第四代棉鈴蟲的發生量資料來自山東省濱州地區植保部門;該時期的逐日氣象觀測資料來自國家氣象信息中心。
2.2 ?支持向量機
2.2.1 支持向量機的基本思想
支持向量機(support vector machines,SVM)是Vapnik等人根據統計學習理論提出的機器學習方法[15]。基本思想是通過一個非線性映射把樣本空間映射到一個高維特征空間中,將尋找最優線性回歸超平面的算法歸結為求解一個凸約束特性下的凸規劃問題,并得到全局最優解。同時支持向量機通過定義核函數(kernel function),將高維空間中的內積運算轉化為原空間中的核函數運算(如圖1所示)。由于棉鈴蟲的發生具有非線性、不穩定、多變量的特點,對于其蟲害發生系統,很難用確切的公式和解析方法將棉鈴蟲發生的規律表達出來[16]。而這種信息處理方式正是支持向量機所具備的,因此,將支持向量回歸用于棉鈴蟲發生量的建模和預測分析。
圖1 ?支持向量機結構示意
2.2.2 支持向量回歸預測方法
支持向量機的回歸[17]函數擬合分為線性擬合和非線性擬合,首先考慮線性擬合函數。假設有一個樣本集為:(y1,x1),(y2,x2),…,(yi,xi),y∈R,回歸函數線性方程表示如下:
跟基礎定義的線性可分原理一樣,通過函數的最小值找到最佳的回歸函數,得出:
其中,w代表W的維數,ξ和ξ*為松弛變量,ξ為上限,ξ*為下限。Vapnik定義不敏感耗損函數為:
得到對偶優化方程為:
它的約束條件是:0≤a≤c,i=1,…,N;
于是得到支持向量機的回歸函數:
其中,ai、ai*將只有小部分不為0,它們對應的樣本就是支持向量。
對于非線性的支持向量機的回歸,通過一個非線性映射把數據x映射到高維特征空間,然后可以在這個空間進行線性回歸,也就是類似于分類問題。跟支持向量機定義的線性不可分的原理類似,在它的基礎上進行回歸,需用到一個非敏感性損耗函數,且目標函數為:
其約束條件是跟式(4)的約束條件一樣。可通過求得的ai和ai*,得到回歸函數:
2.2.3?核函數
核函數在支持向量回歸中起著重要的作用,它不僅可以解決非線性問題,克服維數災難問題,而且還可以代替高維特征空間中的內積運算,避免高維度運算的復雜性。
支持向量機核函數的回歸預測在諸如疾病預測、天氣預測、市場預測、股價預測等很多方面都得到了廣泛應用。核函數主要有4種。本文將徑向基核函數(RBF)應用于支持向量回歸模型中,支持向量回歸對玉米田第四代棉鈴蟲的發生量預測從線性到非線性轉換,是通過徑向基核函數。徑向基核函數能夠針對棉鈴蟲的發生具有非線性、不穩定性和多變量的特點進行處理。
徑向基核函數為:
3 ?棉鈴蟲發生量模型實例研究
3.1 數據的預處理
本文是以濱州地區玉米地1999-2010年玉米田第四代棉鈴蟲的實際發生量作為訓練樣本(見表1),基于支持向量機理論,建立支持向量回歸第四代棉鈴蟲發生量的預測模型,以2011-2013年第四代棉鈴蟲發生量數據進行預測(見表2)。為了提高數據之間的可比性和收斂速度、縮短訓練時間,本文在對數據處理時,先對原始數據進行歸一化處理。
表1 ?支持向量回歸擬合結果與實際值對比年份真實值擬合值絕
表2 ?支持向量回歸預測結果與實際值對比
其中,xi是原始數據;xi′為歸一化后的數據;xmin和xmax分別代表數據的最小值和最大值。將數據壓縮到[0,1]。
3.2 模型參數的選取
本研究中,采用LIBSVM-3.20軟件包來建立SVR模型。通過對各種核函數進行測試,最終確定預測模型的核函數為徑向基核函數。模型的參數按照相應的標準來選取,本文選定的滑動窗口寬度(嵌入維數)為16,用gridregression.py自動搜索最佳懲罰參數、靈敏度及徑向寬度等核函數參數。
3.3 基于SVR的第四代棉鈴蟲發生量預測模型
根據式(10)得到實際值與擬合值之間的相關系數[18],得到的數據表明實際值和擬合值之間有高度的相關性,相關系數接近1,擬合效果好。數據表明實際值與預測值之間的相關系數為0.96,有高度的相關性,預測結果與實際值相符合。
通過回歸模型得到的訓練集樣本的擬合值與實際值相符合(如圖2所示),而測試集樣本的預測值與實際值相匹配(如圖3所示)。
圖2 ?訓練集擬合結果
圖3 ?樣本的預測結果
其中,yi為樣本的實際值,yi?為樣本的預測值,n為預測樣本數。
支持向量機的預測準確率用偏差來表示,主要包括平均絕對誤差(MAE)、平均相對誤差(MRE)、均方根誤差(RMSE),表達式如下:
其中,yi為樣本的實際值, yi?為樣本的預測值,n為預測樣本數。
用式(11)~式(13)來計算偏差,計算結果見表3。結果表明,擬合誤差水平相當低,預測誤差水平高于擬合誤差。總體而言,誤差水平總體較低,MAE低于2,MRE低于5%,RMSE低于4。而由表2可知,除了2013年的相對誤差達到8.01%之外,其他樣本的相對誤差均較小。由此可知,基于SVR的玉米田第四代棉鈴蟲發生量預測模型具有可行性。
?表3 ?預測樣本的 MAE、MRE、RMSE值
4? 應用分析與討論
玉米田棉鈴蟲的發生具有復雜的非線性變化規律,要建立精確的數學模型相當困難,因此,根據大數據的理念,將支持向量機引入第四代棉鈴蟲發生量的預測中。支持向量機不需要對數據分布性質做任何假設,通用性較強,實驗結果表明,將SVR用于玉米田第四代棉鈴蟲發生量建模與預測,能較好地揭示玉米田第四代棉鈴蟲的發生規律。傳統的模型主要集中在對棉田棉鈴蟲的發生預測上。傳統的方法主要有多元線性回歸分析[12]、二級分辨率模型、Fisher模型、期距法等數十種。近年來,隨著物聯網、機器學習等技術的迅速發展,出現了更為方便、準確率更高的預測方法。如黃健等人[14]利用人工神經網絡(ANN)模型對新疆地區1990-2007年第二代棉鈴蟲的發生等級進行預測的結果表明,BP神經網絡預報模型的擬合精度和預報精度高于逐步回歸模型。朱軍生等人[19]利用1966-1995年山東惠民縣棉鈴蟲的監測數據建立了基于徑向基小波神經網絡的第二代棉鈴蟲卵峰日期預測模型,結果表明,在5年的預測數據中,4年的預測數據偏差在3天以內,另外一年的預測數據偏差為4天。這對于卵峰日的預測偏差較大。以前對棉鈴蟲的預測,大都是對棉田第二、三代棉鈴蟲發生期、發生等級的預測,而未見對玉米田主害代棉鈴蟲進行預測。雖然基于人工神經網絡的模型比傳統的預測模型效果好,但是人工神經網絡容易出現過擬合、維數災難等問題;徑向基小波神經網絡模型結構復雜。而支持向量機模型可以很好地解決小樣本、非線性、過擬合、維數災難和局部最優的問題,結構簡單,便于應用。因此,首次將SVR應用到玉米田第四代棉鈴蟲發生量的預測上。
從理論上講,SVR算法得到全局最優,可解決其他神經網絡算法無法避免的局部最優問題;SVR預測是把線性回歸轉為非線性,需要將內機核函數轉換為高維空間的非線性映射,計算的復雜性取決于支持向量機的數目,不是樣本空間的維數,因此,從一定層面上避免了維數災難的問題。
但是,SVR算法是半監督式學習算法,其模型具有一定的局限性,由表1可知,2011-2013年的預測值的相對誤差逐漸增大,與實際值相差逐漸偏大,說明預測的年份距建立模型的年份越遠,預測結果偏差越大。這需要連續跟蹤現實數據的采集,不斷優化預測模型。
氣象因子是影響玉米第四代棉鈴蟲種群發生和發展的重要因子。本文通過對氣象因子進行分析,建立基于SVR的玉米第四代棉鈴蟲的預測模型,得到較為準確的結果。但在2006年,預測相對誤差達到4.07%,推測原因主要有以下兩點。
●歷史數據的限制。過去十幾年采集的數據量小、數據范圍比較窄。2014年以后,擴展了數據采集面,將農田中諸如生物因子(包括自然天敵、周邊生物環境等)、非生物因子(包括土壤性質等以及地塊類型、施肥、澆水等)都列于采集范圍之內。隨著數據采集的不斷完善以及數據分析方法的逐步改進,將會使預測結果與實際情況更加接近。
●SVR本身的不足,如參數優化等。
?
5 結束語
本研究首次將SVR應用到玉米田第四代棉鈴蟲發生量的預測上,根據1999-2010年第四代棉鈴蟲采集的數據構建了玉米田第四代棉鈴蟲發生量的SVR模型,并對2011-2013年進行了測試,得到的預測發生量與實際發生量基本一致,呈現高度相關性。這一模型的應用,能及時和準確地發布第四代棉鈴蟲監測預警信息,有效地指導玉米田棉鈴蟲的科學防控。
本文首次將SVR用于第四代棉鈴蟲發生量建模與預測中,回歸精度與泛化能力都較高。以上研究表明,SVR應用于玉米田棉鈴蟲發生量預測是可行的。
參考文獻:
[1] GANDOMI A, HAIDER M. Beyond the hype: big data concepts, methods, and analytics[J]. International Journal of Information Management, 2015, 35(2): 137-144.
[2] KAMBATLA K, KOLLIAS G, KUMAR V, et al. Trends in big data analytics[J]. Journal of Parallel and Distributed Computing, 2014, 74(7): 2561-2573.[3] LAZER D, KENNEDY R, KING G, et al. The parable of Google flu: traps in big data analysis[J]. Science, 2014, 343(6176): 1203-1205.
[4] SUN Z F, DU K M, Z HENG F X. Perspectives of research and application of big data on smart agriculture[J]. Journal of Agricultural Science and Technology, 2013, 15(6): 63-71.
[5] SIRAJ A S, SANTOS-VEGA M, BOUMA M J, et al. Altitudinal changes in malaria incidence in highlands of ethiopia and colombia[J]. Science, 2014, 343(6175): 1154-1158.
[6] HALLMANN C A, FOPPEN R P B, TURNHOUT C A M V, et al. Declines in insectivorous birds are associated with high neonicotinoid concentrations[J]. Nature, 2014, 511(7509): 341-343.
[7] 宋長青, 牟少敏, 周虎, 等. 農業大數據研究中心的建設、 研究與實踐[J]. 中國現代教育裝備, 2015(3): 8-11.
SONG C Q, MU S M, ZHOU H, et al. Construction, research and practice of agricultural big data research center[J]. China Modern Educational Equipment, 2015(3): 8-11.
[8] 辛妍. 大數據在農業中的應用[J]. 新經濟導刊, 2015(4): 46-51.
XIN Y. Big data applications in agriculture[J]. New Economy Weekly, 2015(4): 46-51.
[9] 溫孚江. 農業大數據與發展新機遇[J]. 中國農村科技, 2013(3): 4-7.
WEN F J. Agricultural big data and development of new opportunities[J]. Agricultural Sciences in China, 2013(3): 4-7.
[10] 楊波, 劉勇, 牟少敏, 等. 大數據背景下山東省二代玉米螟發生程度預測模型的構建[J]. 計算機研究與發展, 2014(S2): 160-165.
YANG B, LIU Y, MU S M, et al. Based on big data: the establishment of meteorological forecast model for the occurrence degree of the second generation of corn borer in Shandong[J]. Journal of Computer Research and Development, 2014(S2): 160-165.
[11] 陳廣泉. 河西走廊玉米田棉鈴蟲發生規律與藥劑防治技術研究[D]. 咸陽: 西北農林科技大學, 2004: 12-16.
CHEN G Q. The occurrence regularity and cottrol technology research of cotton bollworm in the hexi corridor cornfield[D]. Xianyang: Northwest A&F University, Xianyang: 2004: 12-16.
[12] CH A NGNON D, SA N DSTROM M, ASTOLFI J, et al. Using climatology to predict the first majorsummer corn earworm (lepidoptera: noctuidae) catch in north central Illinois[J]. Meteorological Applications, 2010, 17(3): 321-328.
[13] FENG H, GOULD F, HUANG Y, et al. Modeling the population dynamics of cotton bollworm Helicoverpa armigera (Hübner) (lepidoptera: noctuidae) over a wide area in northern China[J]. Ecological Modelling, 2010, 221(15): 1819-1830.
[14] RAJ K R, KARDAM A, ARORA J K, et al. Artificial neural network (ANN) design for Hg–Se interactions and their effect on reduction of Hg uptake by radish plant[J]. Journal of Radioanalytical and Nuclear Chemistry, 2010, 283(3): 797-801.
[15] VAPNIK V N. The nature of statistical learning theory[J]. IEEE Transactions on Neural Networks, 1995, 10(5): 988-999.
[16] 趙仲華, 沈佐銳. 昆蟲種群動態非線性建模理論與應用[J]. 生物數學學報, 2001, 16(4):439-447.
ZHAO Z H, SHEN Z R. Insect population dynamics of nonlinear modeling theory and application[J]. Journal of Biomathematics, 2001, 16(4): 439-447.
[17] 李永娜. 基于支持向量機的回歸預測綜述[J].信息通信, 2014(11):32-33.
LI Y N. Regression forecast review based on support vector machine[J]. Message Communication, 2014(11): 32-33.
[18] ERDAL H I. Two-level and hybrid ensembles of decision trees for high performance concrete compressive strength prediction[J]. Engineering Applications of Artificial Intelligence, 2013, 26(7): 1689-1697.
[19] 朱軍生, 翟保平, 董保信. 基于徑向基小波網絡的二代棉鈴蟲卵峰日預測模型[J]. 昆蟲學報, 2010, 53(12): 1429-1435.
ZHU J S, ZHAI B P, DONG B X. Forecasting model for the oviposition peak day in the second generation of helicoverpa armigera (lepidopeter: noctuidae) based on radial basis wavelet network[J]. Acta Entomologica Sinica, 2010, 53(12): 1429-1435.
趙雷(1990-),女,山東農業大學碩士生,主要研究方向為農業科研與大數據。
楊波(1988-),女,山東農業大學碩士生,主要研究方向為農業大數據。
劉勇(1968-),男,山東農業大學教授、博士生導師,主要研究方向為害蟲綠色防控和農業大數據。
牟少敏(1964-),男,博士,山東農業大學教授,主要研究方向為大數據、機器學習和模式識別。
溫孚江(1955-),男,現任山東農業大學校長、教授,農業大數據創新戰略聯盟理事長,全國人民代表大會常務委員會委員。早年留學美國,并獲博士學位。主要從事植物保護研究和宏觀農業研究工作。發表論文210余篇,專著5部。最近一部專著《大數據農業》由中國農業出版社于2015年9月出版。目前主要從事農業大數據應用研究工作,是我國農業大數據研究主要發起人之一。
總結
以上是生活随笔為你收集整理的【2016年第1期】基于大数据的玉米田四代棉铃虫发生量的预测模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【计算机组成原理】总线
- 下一篇: 认清JavaScript和JAVA全局变