论文篇-----基于机器学习的交通流预测技术的研究与应用
 
 占有率:占有率反映的是交通流在時空維度的占有情況,包括空間占有率和時間占有率,能夠刻畫交通流的時空特性。空間占有率的定義是:在指定的時間間隔內,某一路段中車輛長度的和與該路段長度的比值。對空間占有率進行測定較為困難,所以一般采用時間占有率。 
 在指定的時間間隔內,使用某一交通傳感器在該時間段內的總的工作時間除以該傳感器被交通實體所占用的時間,就可以得到時間占有率。時間占有率低時,說明車流量較小或車速較高,道路暢通;時間占有率高時,說明車流量較大或車速較低,道路擁堵。 
 
交通流系統是一個不斷變化的復雜整體,其內在相關性和周期性表明了交通流中是有著某種可以被度量的規律的,交通流的各組成部分是相互聯系的,而其繁雜的時空特性和不確定性又揭示了交通流的隨機性和復雜性,要從如此復雜的交通流信息中找出這種規律,找出各種參數之間的內在聯系,絕對不是一件容易的事。
基于統計理論的方法: 
 ARIMA:自回歸積分滑動平均預測方法,是一種針對時間序列進行分析的方法,其目的在于根據觀測到的時間序列數據,建立適當的模型,對事物隨時間變化的規律進行描述,對事物未來的狀態進行預測。ARIMA模型進行預測的基本思想如下:預測基于樣本觀測值的線性函數;目標是尋求一個最簡的模型,實現對觀測數據的準確描述。 
 局部線性回歸:局部線性回歸通過賦予預測點附近的點以一定的權值,一般是通過高斯核函數等計算權值,然后再進行普通的線性回歸,得到預測值和觀測到的 交通流數據之間的線性關系,以此進行交通流預測工作。該種方法對數據的要求較高,且無法處理非線性的短時交通流。 
 卡爾曼濾波:通過觀測和狀態方程組成狀態空間模型,可以實現對平穩和非平穩隨機過程的估計,以此來對交通流進行描述。但是其本質上仍然是線性的模型,無法有效應對短時交通流預測的隨機性和復雜性。 
 總結:基于統計理論的預測方法都是線性的模型,雖然建模簡單,計算容易,但是在預測的時間間隔縮短后,交通流的不確定性和非線性特征不斷增強,由于線性模型不能對這種情況進行有效的處理,模型的預測精度就變得較差。 
 基于機器學習的算法: 
 1.決策樹算法 
 決策樹就是一種對樣本空間遞歸地進行切分的分類器。決策樹是一顆有向樹,其中除根節點以外的每個節點的入度都為1,出度為0的節點被稱為葉子節點,即為決策樹中的決策節點。在決策樹生成過程中,每一次節點切分都會根據不純度最小的原則將樣本空間切分成兩個樣本子空間,決策樹的生成過程中就是確定最優切分的過程,切分的過程不斷進行,直到不純度的減少低于一個事先預定的閾值,切分結束。在用于分類問題時,每個葉子節點都對應著一個類別,當新的樣本進入時,只需要從根節點開始向下搜索,直到匹配到一個葉子節點,就可以完成對該樣本的分類;當用于回歸時,也是類似的原理,只是類別變成了數值。使用決策樹進行分類和回歸的過程就跟現實生活中人類做決策的過程極其相似。 
 2.集成學習算法 
 Bagging是著名的對樣本進行處理的方法之一,通過創建改進的組合分類器來提升準確度,將多個學習分類器的輸出融合稱為一個最終的預測值。 
 其主要流程:給定一個訓練集S,其中有N個樣本,設定迭代次數T,在迭代次數范圍內,采用有放回的抽取方法不斷的從訓練集S抽出n個樣本,得到T個子樣本集St,基于每一個St訓練一個分類器,最后訓練得到T個分類器,將這T個分類器組合起來以提升分類器的性能。
美國加利福尼亞州的交通情況: 
  
  
 從上面的圖可以明顯地看出交通流量的變化是具有一定規律的,特別是工作日期間的交通流量,明顯呈現周期性的變化,周一到周五每天的交通流量分布都較為類似,且每天都有明顯的早高峰晚高峰。相比而言,周末的交通流量則偏少,且變化沒有特別明顯的規律,與工作日的交通情況有所不同。 
 工作日期間的平均速度也具有一定規律,但是相對于交通流量來說沒有那么明顯,其波動也較交通流量更為劇烈。在早晚高峰期間速度有明顯下降,而周末的速度比較平穩,維持在較高的速度區間。
數據清洗:由于道路上的交通傳感器眾多,且面臨著各種復雜的交通情況,所以在進行數據采集的過程中,會產生一些問題數據,比如異常值、數據缺失等等,如果不對這些數據加以處理就直接使用,將會對后期的分析預測工作造成極大的不便。所以需要進行數據清洗的工作,檢測和消除數據中的錯誤數據、重復數據、無關數據等,并對缺失值和異常值進行妥善的處理。 
 缺失數據的處理:刪除記錄和數據插補。其中刪除記錄的方法由于通過減少歷史數據來換取數據的完備,會使得隱藏在數據中的大量信息被丟棄,可能會對分析結果的準確性造成嚴重的影響。相比而言,數據插補的方法更適合交通數據流缺失的處理。常用的插補方法有:均值插補、中位數插補、眾數插補、插值法等。 
 數據去噪: 
 1.滑動平均去噪:根據時間序列的分布的記憶性,采用算術平均的方法,去除時間序列中的隨機波動,使序列變得平滑。 
  
  
 2.小波去噪:小波是一種特殊的波形,其能量集中在某一點附近,同時具有衰減性和波動性,震蕩形式正負相間。 
 隨機森林算法: 
 隨機森林跟顯示中的森林一樣,有一系列的決策樹組合而成,其結合了Bagging集成學習理論和隨機子空間的思想。每個分類器的構造都需要從原始樣本數據集中隨機抽取出一部分樣本作為樣本子空間,然后從樣本子空間中隨機抽取出特征子空間,在這個特征子空間中建立決策樹,最后綜合所有決策樹的輸出得到最終結果。 
 支持向量機在短時交通流預測中,處理有限樣本、非線性和高維問題時有著得天獨厚的優勢。 
  
 數據采集層,數據采集層主要實現對路網交通數據的采集工作,實時的交通數 
 據主要來自于環形感應線圈、收費卡口、車載 GPS 等等,考慮到交通信息來源的 
 復雜性,在本層需要進行數據融合的工作。同時,在采集層也需要對數據進行初步 
 的預處理,控制數據質量。 
 數據存儲層,本層的數據從數據采集層進行抽取,將其持久化存儲于關系型數 
 據庫 Oracle 中。本層存儲的的數據主要分為兩類,一類是交通流數據,一類是天 
 氣數據,交通流數據又分為歷史交通流數據和實時交通流數據。歷史交通流數據用 
 于交通流預測模型的訓練,實時交通流數據用于對預測效果的進行相應的評價,幫助用戶對算法的效果進行判斷,從而實現對算法進行有針對性的選擇。本層為計算 
 服務層提供數據支持,計算服務層所需要的數據都來自于本層。 
 計算服務層,計算服務層是本系統的核心功能層,本系統的目的即為用戶提供 
 精準的交通流預測。本層提供交通流預處理功能以及交通流預測算法庫,其中預處 
 理功能主要是系統自動實現,一般不需要用戶自行選擇,但是交通流選擇算法提供 
 了 LOO-RF 算法和普通的 RF 算法供用戶選擇,用戶可以根據自己的需求,進行交 
 通流數據特征選取工作。交通流預測提供多種預測算法供用戶選擇,主要包括 
 CGA-SVR、普通的 SVR、BPNN、ARIMA 等交通流預測模型,用戶可以根據不同 
 的場景和自己的需求,調用相應的算法進行交通流預測工作。 
 結果展示層,通過計算服務層的計算,可以得到預測結果,并采用可視化方法 
 進行展示。計算服務層和結果展示層之間采用 RESTful 架構,可以實現模塊之間 
 松耦合的連接。通過結果展示層,可以將預測結果以圖表的形式展示給用戶,實現 
 用戶和數據之間的交互。
呼呼,再度理解下什么叫結構化數據,半結構化數據,非結構化數據: 
 結構化數據就是數據庫里存的那種行列形式的數據,半結構化數據指的是XML,JSON這種結構的數據,非結構化數據就是一些文本,視頻,圖像這些。
總結
以上是生活随笔為你收集整理的论文篇-----基于机器学习的交通流预测技术的研究与应用的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: flink整合java,Flink使用S
- 下一篇: 机器学习算法之隐马尔可夫模型
