中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革
?5月19日,由中國電子學會主辦,ZD至頂網協辦的第八屆中國云計算大會進入第二日程,國家自然基金委副主任、中國工程院院士、中國大數據專家委員會副主任委員高文在全體大會上帶來了“大數據分析與智慧城市建設”的主題分享。
高文表示,“現在云計算、大數據也好,把數據挖掘出來,實際上會對我們整個的社會也好、城市也好帶來很多好處。所以把大數據用好了,實際上對整個城市的生活,會帶來很多變化。”
以下是高文演講實錄:(以下內容根據現場速記整理,未經發言嘉賓確認,僅供參考,謝絕轉載。)
謝謝林秘書長的介紹,今天我給大家分享的內容是關于多媒體大數據分析與智慧城市建設這樣一個主題。為了不耽誤后面的演講者的時間,我設定一個提示。
這個就是今天上午我希望和大家分享的內容。主要是關于智慧城市建設大概有什么樣的一個背景或者場景,或者什么樣的需求。在智慧城市建設里面關于多媒體的大數據,實際上比較挑戰,有很多問題,在這里我把其中的三個問題列出來,希望給出一些答案,這答案也許會對大家有一些幫助,最后是一個總結。
智慧城市這題目實際上并不是一個新的題目,我們知道現在在智慧城市里面或者在我們社會里面,涉及到方方面面的領域都有非常多的數據放在他里。以前這數據就是在睡大覺,我們知道現在云計算、大數據也好,我們把數據挖掘出來,實際上會對我們整個的社會也好、城市也好帶來很多好處。所以把大數據用好了,實際上對整個城市的生活,會帶來很多變化。比如說我們現在交通是很熱的話題,可以用通過視頻監控、通過GPS數據,使得交通管理,不管是城市部門對道路的管理,還有我們自己行車找一個最優的路線都有幫助的。醫療衛生,以前我們知道看病主要靠醫生根據他對你的診療,就是問診的數據和你化驗的結果有針對性的治療。我們知道最近的精準醫療,基因測序找到你的基因發生變化的地方。對于發現的問題地方,對于靶點實時治療,使得治療效果最好,傷害最小,現在最新的治療方法等等。當然這靶點怎么治療、怎么用藥,實際上靠前期很多大量的數據分析,特別是治療的前期數據的分析整理。最后得到這樣一些結果。教育也是一樣,以前的教育我們知道都是照本宣科多少年的教材一直這樣下來。學生不管是什么樣的學生都是按照一層不變的方式在灌輸,實際上現在利用大數據的做法,是針對不同人,它的進度可以不一樣,內容的跳躍也可以不一樣這完全基于大數據,授獎者反應,對于理解和掌握的程度,來進行動態的調整。我們知道現在安全,城市的安全,比如現在有很多爆恐的等等,更需要基于大數據和監控數據的來對應。
對個人來講很快就要開始的,剛才說的醫療、保健這些,針對每一個個人數據,其實我們都可以去改變生活的一些東西,教育也是一樣的。關于多媒體數據,我們知道現在為了城市的安全和城市的交通管理,監控視頻實際上已經被大量的考慮,現在我們國內很多城市可能都有的安裝幾萬個攝像頭,大一點的城市像北上廣這種城市,現在攝像頭的數量大概都是在四十萬到五十萬這樣的規模,隨著時間的推移,可能還會增加,因為已經有這樣的一些說法,就是說一個智慧城市,它里面安裝攝像頭的人數,應該是人口的大概二十分之一到五分之一,那你就可以想象,一千萬人口的城市,二十分之一,就應該是五十萬攝像頭,如果是五分之一就是兩百萬個攝像頭。北京的兩千萬整個的攝像頭安裝是非常之多,這里多了以后就產生了大量的數據,目前的數據絕大部分是在睡大覺,大概是一兩個星期,最多一兩個月數據就被扔掉了,因為實在是太多,只能通過往返覆蓋的方式給它覆蓋掉,這實際上是一個很大的浪費。數據怎么樣能夠把有用的抓出來,沒有用的扔掉,這實際上是一個很大的難題,我們現在說大數據里面,大概有一半甚至一大半呢,其實都是這種音頻的數據,所以這些數據,要想把它用好,實際上有三個比較大的挑戰,通俗地說就是三個存不下、看不清找不到這樣三個挑戰。具體對應的技術就是說,存不下這問題主要是到現在為止,我們壓縮算法,或者叫編碼算法還沒有那么強,還是有很多提升的余地,所以不能有效的壓縮它就太大,太大存不下過一段時間只能覆蓋掉。看不清就是因為我們現在人看一幅照片或者一幅什么。
就是我們人眼看一個東西就是車牌號一二三四五六,計算機最后看到什么是識別出來,但是模式識別算法怎么樣做的比較好?清晰度要高。但是我們現在的攝像頭,都是五米、十米,一個人臉、一個汽車牌照也好,汽車牌照問題沒有那么大,特別是人臉,可能變成一個人臉只能很少的像素,大概10×10、20×20。現在希望不要太小,至少人臉里面的像素應該保證在48×48或者64×64或者以上這可以識別,但是現在我們臉上面的像素比較小,還有就是找不到,因為幾十萬個攝像頭,每一個攝像頭物理參數都不一樣的。A攝像頭拍的東西和B攝像頭,最后就跟我們眼睛看差不多,但是用計算機看不一樣。這時候明明同一個人在A被拍到跑到B已經找不到它。這里面就是跨攝像頭搜索的問題。
這就是目前為止技術像第一個存不下的問題,我們是希望找到更好的壓縮算法使得能夠有效的把數據給壓縮了,以后盡量的保存下來。因為現在你這數據的增長,大家可以看到這曲線,數據增長的速度實在太快,攝像頭忽忽往上,但是我們技術的增長就是下面這一條綠色的線,技術增長實際上一個緩慢提升的水平。或者說十年才能翻一倍,但是我們看整個數據量的增長,實際上它是一個指數性爆發增長的趨勢。所以你純粹靠技術這是很難很難滿足這需求,當然我們有更多的辦法,多投錢去擴帶寬,或者多投錢做海量的儲存器把它存起來這也是可以的。但是畢竟你靠成本去滿足線性增長還是有問題,所以我們也希望這一條綠線也能夠盡可能的吻合它,這就是從技術上,因為花錢辦的事不是我們搞技術能考慮的。我們需要考慮的就是說怎么樣提供一個方案,在技術上也能減小這種花錢的壓力,這是第一個問題。
第二個問題就是看不清有很多,剛才也說到,這么多攝像頭,很多東西由于分辨率不夠,所以看起來還是比較困難,找不到是攝像頭這樣的問題是找不到,針對這三個,實際上我們有三種不同的技術來對應它,第一種技術比如說針對存不下這問題,我們技術上要從提高壓縮能力,提高新的編碼技術,就是更新新的編碼技術這樣一個思路去解決它。所以高效視頻編碼就是解決存不問題的直接技術手段。為什么視頻是可以壓縮的?我想我們在座的人都是學理工都是學技術,如果大家學過信號處理就知道。實際上我們的數字視頻實際上它是一個數字圖像序列。數字圖象實際上它是表現的數字信號,數字信號本身我們是可以對它進行處理。我們經過分析發現,在現在的數字圖象序列里面,有三類信息冗余,第一類我們時間冗余,第二類我們叫空間冗余,第三類比較大的冗余,我們叫感知冗余和編碼冗余,實際上還有很多的冗余,知識冗余、編碼冗余等等。我們有辦法把這些冗余擠掉,就能有效的壓縮這些視頻。
具體怎么來壓縮,那肯定對不同的冗余我們可以采用不同的方法。理論上這視頻編碼,我們可以找出它編碼的上界就是最大壓縮到什么程度,這通過矩陣運算或者說通過矩陣分析很容易我們就可以做到一些分析。這條紅線就是我們分析的結果,就是說對于一個2000×2000這樣尺寸的圖像,我們可以做到的理論上限,能壓縮多少倍呢?能壓縮2000倍,也就是能壓縮大2千分之一。這可以很大很大壓縮能力的。但實際上我們技術能做到下面這幾條線,技術上我們最好能做到多少呢?對于2000×2000的圖像,我們現在能做到600:1,600到2000還有一個1400,簡單來說就是這樣一個空間。這實際上技術可以不停地做它,當然怎么能夠做到這一個?就是采取各種不同的技術。
從1993年有第一代的編碼技術,它大概能把高清視頻大概可以壓到75分之一,當時沒有那么高,隨著時間的推移,那個編碼通過優化以后可以做到75分之一。也就是說對于高清頻道,現在衛星上傳輸信號的話,大概需要20兆。到了2003第二代編碼出來,差不多十年以后,它的編碼性能比第一代正好提高了一倍,提高一倍以后,對于高清視頻大概可以壓到10兆。2013年就是3年前出了第三代編碼技術,第三代編碼技術其實又比第二代提升了一倍,可以把高清視頻,壓到每秒5兆BT,按照這樣的預測到2023應該有第四代編碼,它的能力是六百分之一。所以這是技術上的走向。我們可以把這樣的規律,叫做編碼領域的摩爾定律十年性能翻一番的定律。
對于這定律怎么做到的呢?這是一個到現在為止從第一代、第二代、第三代,一直在使用的編碼的框架結構,就這里面實際上從左上一個視頻信號進來,切成塊變換處理,進行濾波運能估計,這是它最基本的架構,但是為什么就這樣一個架構,我們十年翻一番。這里面最主要是采用幾種數學工具或者叫算法,我們習慣叫工具,最上面是基于變換,或者基于正向變換。我們現在的編碼里面用的DNCT,也有人去推薦用小波或者是DNCT變換,也有用離散等等,也有人更早的時候在用(英文)變換,總是在用一種正向變換。
另外一個工具叫做預測,大家學工的都應該學過濾波器設計理論,濾波器最主要的理論就是預測來編碼。另外一個技術就是用商編碼這是最典型的,比如說算術編碼等等各種各樣都可以使用,這三種工具混合在一起就使得編碼效率不停地提高,但是這三種誰貢獻大一點,誰貢獻基本上不變呢?這是一個到現在為止三代編碼技術,誰做了多大貢獻粗略的統計。左邊這兩個顏色空間變換,和整個的變換這兩個大概貢獻了6倍。然后第三個從左往右數,第三個說的是預測與運動估計,這一塊每一代都是變化,第一代因子3、第二個因子6,最右邊的商編碼大概貢獻了因子3,所以你就會發現第一代75倍是這樣得到的,第二代150倍是那樣得到的,第三代的300倍是這樣得到,所以真正大的變化在哪里?就是在預測與運動估計這一列上,每一代它是不一樣的,這其實就給我啟發,就是為了尋找更高的編碼效率,你應該把你的重點,主要關注什么東西。當然為什么預測可以得到更高的編碼效率呢,因為預測主要解決的我們叫做是空域的冗余,也就是說隨著時間的推移,它一針一針往前處理,這時候我們知道圖像出率里面很多東西部變化,這些不變化能夠有效的利用起來,你就可以得到比較高的編碼效率。
最簡單的來說我們對于監控視頻來講,這個講話是不動,只有前面這個在動身體偶爾動一動,上面的情況更有普遍性,就是如果你看的樹林,你一年四季除了在每天的光照變化,一年四季的葉子長出來以外,其他都是不動,所以如果你有辦法,把這模型建起來,可想而知你可以得到很高的編碼,這實際上是我們做的一個比較大的貢獻。到現在為止全世界做編碼大部分都是看著廣電怎么用、電影怎么用。中國的團隊其實我們就是說針對不同應用,我們在考慮不同的技術來做。
比如說最右邊的那個方格,實際上是我們用的面向視頻監控的,所以我們后來提出了一個背景建模技術。就是一個背景建波來幫助你把背景的模型給算出來,你以后在后面做預測的時候,用這模型去做計算你的效率就會非常高。這是因為國際上做編碼大概有三個技術團體,中國是其中一個。另外一個是由國際標準化組織,就是IOS和RTO,H42.5這是一個團體。第三個團體主要是公司,比如早期微軟曾經是一個非常主要的在第二代的時候。到第三代的時候微軟基本上就停止做這一件事,谷歌站出來。所以第三代谷歌是很關鍵,當然除了谷歌和微軟以外還有其他的企業只是規模沒那么大。在第三代我們中國的團隊,其實說中國團隊有點,其實剛才說這三個群體之間都是互相交叉,并不是我做IOS就不做(MP6級),所以這實際上大家都是互相交錯,中國為什么做IOS,做機頂盒的比較多,因為他們沒有技術就比較被動,而且中國市場比較大,所以我們當時就做了中國的標準,這開始只是為了解決知識產權的問題,現在已經在應用方面,我們已經有很多大的貢獻了。
所以從性能上來說,剛剛完成的AVS2比上一代提高了1倍。如果和國外最好的標準相比,基本上這是剛剛在廣電測試過的一些數據,就是你可以看到對數字視頻廣播,基本上我們性能相當,對下面這幾塊,比如說監控視頻,AVS2,要比現在的265,我們基本上性能負41.77%,那是什么意思碼率比它節省了41.77,負是節省的意思,所以你可以看到大概百分之三十幾到百分之五十幾。因為碼力節省50%,其實性能就提高了一倍。所以對于監控食品AVS2已經跨入下一代了。
這是對于實時通訊的用法,和對于電影靜態圖像的統計,去年1月份,當時廣電總局的廣播電視、計量檢測中心,專門對AVS2和265對比一個實驗,最后得到的結果AVS2做超高清視頻是很有優勢,它的和HEVC,圖像質量下降總體平均是,AVS229%,HEVC3.0,大家知道下降的數越少,其實質量越好。就是比它下降還少了0.1%也就是說廣播電視這行當是相當的。
這是剛才的結論就這樣來的,這是中央電視臺專門為實驗拍的東西,每一個碼流大概各雙方損失了多少等等。這是他們給的一個剛才碼流,另一側是中央電視臺測的結論,就是今年2月份為止,又重新針對那碼流的測試,最后是在這條件下AVS2和HEVC265它的下降原質量7.2%和8.2%,這是用的標清6兆碼流,剛才是超高清5月6號實時發布的東西,所以現在已經在開始做一些應用,當然我們最看重是下面的應用,現在一些主流的企業開始在布局,準備用AVS2沖擊全球的市場,比原來的標準提高了1倍的帶寬,而且它可以提高識別效率和精度,這是第一個挑戰。
后面因為時間關系我就說的快一點,第二個就是識別不準的問題,我們是怎么做的呢?實際上就是產生的編碼和識別它像一個鐵軌一樣,它完全的平行做法,它有什么問題?大家互相之間是不通氣。剛才我們說的背景建模技術,可以在你編碼的時候,我就把前景測出來,這樣的好處你可以進行分析、進行識別、進行提取,編碼識別就可以做到,怎么做到?對于上面實施監控視頻碼流來說,這可以理解為它是有兩個碼流構造成的,一個是背景,一個是前景碼流。背景碼流,就是一個背景針,前景是動的,有了前景就好辦,你知道哪個是前景,就是你要處理,你要識別,你要跟蹤你要分析的東西,所以用這個你只要對前景做好表達,你的任務就可以做的很好,就基于這樣一個想法,AVS2也就支持感興趣區域(RCH),就是語法里面對前景手段你可以對它進行描述,這描述可以針對它,采用特殊參數的編碼,盡量使得損失少。對背景接好了以后,背景一次性接過去就比較有效。基于這樣的構建你可以很好的識別編碼模型,上面背景加全景,在上面就是感興趣的區域可以得到對象,根據對象之間的關聯,以及它們失去關系你可以構造時間,這樣就可以在編碼的同時把這一件事做了,所以用它可以做很多運動的分析、目標的檢測、對象的行為分析等等,這就是用這種工具,我們可以在序列里就很容易測出前景,就把前景表達出來,這是另外一個車,也可以前景,下面是人的動作,也可以通過前景檢測的動作,哪里是需要關注的,包括人在道路上走。左邊是傳統的方式,你要在視頻流上去找,但是通過我們表達很簡單,因為背景很干凈,任務就變的簡單多了,這也是一樣,你要知道背景是什么,其實你就很容易把前景表述出來。所以我們說AVS2它的國外版本名HE1857,對感興趣的區域提取對于對象的表達,對動作和行為的檢測等等。而且由于這些做了,實際上對多攝像頭檢測也有非常好的支持。這是在北大校內的系統,我們用這樣的系統就可以知道哪里有人在走,哪里有一個車進來了。這是關于第二個挑戰就是識別難的問題。
第三個挑戰就是說,盡管你有了它的視頻,可以做一些識別,跨攝像頭有一些問題,而且現在的瑟縮成本比較高,為了解決這問題,實際上我們使用了一種叫做CDVS,也就是說緊縮描述式的,這里面最核心的東西就是說我們一定要想法解決它的描述能力比較強,要緊湊,檢索比較快,另外整個特征要比較規范化。如果大家知道多媒體處理歷史的話,在MEPG7大概1997年就開始做,前面的版本一直沒有什么用,一直到第三個部分叫MEPG(英文)簡稱CDVC,這大概是從2009年左右開始做的,它里面比較關鍵就是說,它有特征點的檢測,有特征的選擇,有描述值的壓縮和聚合,最后未知點的壓縮,最后構造程這樣一個基于描述的視頻檢索,時間關系不展開了,大家只要記住CDVS就好,這里面涉及到計算機是覺得技術、涉及到機器學習的技術,關于里面最核心的就是興趣點提取和表述,其實這里面開始我們是用的(SIFT)特征,大家就知道(SIFT)特征到近期最好用的一個特征。
但是(SIFT)特征它在使用時候有很多的問題,后來我們就對(SIFT)特征做了改進,改進的結果以后就可以效果比較好,所以我們把這特征又分成局部和全局。改進的倍數CDVS比SIFT好3倍,然后特征大小是好100倍,然后在100萬幅圖像上的儲存是一百分之一,一個是特征本身,一個是特征儲存的,最下面這一行實際上就是說在一千萬幅圖像庫上面,搜索時間CDVS只需要500毫秒就完成搜索,你要找一個東西,到這一千萬的圖像庫上半秒鐘解決問題,所以這搜索速度非常快,這只是在英特爾CPU上面就可以做到。所以你想面向智慧城市做這樣的任務,實際上并沒有太大的標準,這是MPEG第三部分。
這里主要貢獻者是北京大學、斯坦福大學、另外還有意大利電影系、華為、慕尼黑研究院等等。因為今年1月份我們在圖像處理會刊上專門有一篇,MPEG第一期就可以找得到。這系統實際上是現在在監控里實際使用,所以效果還是相當不錯。
總結一下就是對于一個做的智慧城市里面,如果你要考慮多媒體大數據分析的時候,有三個比較大的挑戰。壓縮問題我們可以通過AVS2去應對,當然你可以有其他的辦法。模式識別問題可以通過我們說的因為支持感興趣區域的AVS2,面向監控的AVS2就可以把這問題解決掉。第三個就是說視頻搜索這樣一個問題,跨攝像頭的搜索,其實可以用CDVS這標準去,當然有更好的技術去開放用,這個領域盡管裝了很多攝像頭,但是技術上可以使用還是有距離,所以這需要各個方面做技術、做系統、做理論的一起共同協同可能才會有一個好的結果。 ?
原文發布時間為:2016年7月6日
本文來自云棲社區合作伙伴至頂網,了解相關信息可以關注至頂網
總結
以上是生活随笔為你收集整理的中国工程院院士高文:运用好云计算、大数据会为城市发展带来变革的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全国四分之三的光伏电站市场面临较大投资风
- 下一篇: 《中国制造业走向2025》从构建新价值网