改变世界,改善生活:我从科沃斯扫地机器人X1,看到了AI新的希望
深度學習是當代人工智能的核心,計算機視覺、語音、NLP則是當代人工智能落地的熱門應用方向。然而,機器人、智能agent這種看起來更加“人工智能”的話題卻在大眾視野出現的越來越少,取而代之的熱點討論反而是看似與人工智能關聯不是那么直接的“AI賦能搜推廣”。
做AI就是做搜推廣?那為什么不直接去做搜推廣呢?
恐怕這也是進入工業界的AI從業者時不時冒出來的困惑。
說好的“AI改變世界,AI改善生活”呢?
直到筆者近期入手了科沃斯的新品掃拖機器人X1,頓時覺得AI技術就該這樣走進人們的生活中,用AI技術去解放人們的雙手,讓人與機器的交互更加自然。
科沃斯X1傳送門YIKO與對話技術
“OK,YIKO,去打掃臥室!”
這是筆者在得知科沃斯X1內置的對話系統叫“YIKO”時,對YIKO發出的第一條指令。收到YIKO的回復時,頓時覺得對話技術的成熟著實有現實意義!
我們知道,工業界常用的任務完成式對話框架一般包含語音識別(ASR)、自然語言理解(NLU)、對話管理(DM)、自然語言生成(NLG)和語音生成(TTS)模塊。如下圖所示:
其中,語音識別是系統接收用戶信號的第一級模塊,語音信號接收的質量、信號處理的質量決定了ASR效果的天花板,盡管在NLP層面對話系統有諸多難點,也是研究熱點,但在實際的工業界對話產品中,ASR識別錯誤卻往往更為致命。因此一個商用的對話系統若要體驗好,首先要有強大的語音硬件設備和良好的產品設計支撐。
在語音硬件設計層面,科沃斯X1在機身頂部環形位置配置了三顆環形MIC陣列,采用環形麥克風設計——可以更加全方位無死角的拾取用戶語音信號,使其具備強大的ASR硬件支撐。
此外,科沃斯X1更是巧妙的結合視覺技術,能夠在用戶召喚后,讓機器人轉向主人,更加精確的接收語音指令,甚至完成“來我身邊打掃”這類高級指令。此外,科沃斯X1內置的降噪技術、回聲消除等技術,也保障了其能夠在嘈雜的工作狀態下,仍然能實現高達96%的語音喚醒成功率 (來自科沃斯實驗室測試數據)。
如果說ASR技術是實現流暢對話的可靠性保障,那NLU則是關乎對話系統聰明與否的重要模塊。傳統的內置語音控制的掃地機器人往往僅能支持固定指令,而科沃斯X1則實現了將指令泛化成眾多語言表述的能力,例如無論用戶是表達,掃一下,還是打掃,清掃,清潔,干活兒等,YIKO均能準確理解,這便是NLU模塊的功勞。
在有了扎實的ASR和NLU基座之后,對話管理模塊(DM)則匯聚各方信息和系統狀態,扮演了決策中樞的角色。
例如,
“OK,YIKO,到客廳的沙發進行清掃!”
YIKO收到該指令并ASR轉成文本后,NLU模塊將理解后的指令發送給DM模塊,DM結合對家居的理解,配合AI視覺導航,準確找到客廳及位于客廳的沙發的位置,并查詢系統位置狀態,計算出最優通行路徑,進而一方面讓TTS模塊合成語音告知用戶自己“聽懂了”,另一方面將路線決策傳遞給機器人“運動中樞”,機器人到達指定位置后,X1將開始辛勤工作。
對話管理模塊的設計強依賴對家居環境的理解,以及目標檢測、地圖建模等技術模塊的協同,科沃斯X1能夠有效將用戶指令轉化為復雜的系統決策,靠的便是這份聰明的對話決策中樞——DM模塊,這也是YIKO系統的技術壁壘所在。
YIKO除了可以流暢與用戶進行日常清掃的交互,還內置了諸多貼心實用的對話技能。例如:
OK,YIKO,耗材到期了嗎?“
——“當前耗材情況良好,請放心使用
“OK,YIKO,來找我。”
——“好的,讓我看看你在哪兒,請原地稍等”
“OK,YIKO,你會些啥?”
——我會做的事情可多了,試著對我說“OK,YIKO,播放音樂”,我會開始播放音樂。如果想了解更多,打開App找到更多的語音指令吧。
總之,X1成為家庭的一份子后,我們就不再需要找遙控器,不需要找說明書,不需要下載APP在里面點點點,直接對話就可以跟YIKO進行日常操作了!
這不就是最為自然炫酷的人機交互形態嗎?
確實,對話系統不一定非要替代人工客服才叫落地,也不一定非要成為無所不能無所不知的智能助理智能音箱,更不一定能夠勝任“虛擬女友”才能叫技術成熟。將目光拉近,若復雜家電內置的對話系統普遍像YIKO一樣取代說明書和APP,用最自然的方式滿足用戶需求,那這標志著人機交互的新時代可能真的來了。
如今主打情感聊天的諸多對話產品內置了很多先進的超大模型,動輒上億參數。學術前沿更為夸張,似乎模型沒個百億參數都不好意思對外宣傳。然而,將場景拉近到現實生活的點滴中,YIKO扎實的將對話技術與掃地機器人場景進行了深度融合,打造出了該場景下扎實的ASR技術、聰明的NLU模塊、智慧的DM中樞和逼真有特點的TTS單元,做到了在機器人的召喚、操控、查詢等諸多維度上非常高的完成度,其帶給筆者的贊嘆度可能絲毫不亞于一個擁有百億參數的復雜聊天機器人。
而這種系統級、業務場景深度定制的優化,或許正是大部分“人工智障”產品所欠缺的。
X1中的視覺技術
桌子、凳子、貓、地毯、玩具、人…無論房間多大,總是少不了各種奇奇怪怪的障礙物。因此一個“機靈”的掃地機器人,一定離不開強大的計算機視覺能力——物體識別與目標檢測技術。
經過筆者對科沃斯X1的若干天試用,其對障礙物的識別與避障能力大大超出了筆者的預期。出于好奇,筆者調研了科沃斯發表的目標檢測技術相關論文和博客。挖掘出了科沃斯機器人內置的目標檢測模型和系統工作流程,如圖所示:
眾所周知,在目標檢測領域,有one-stage和two-stage兩種思路,雖然精度方面前者略遜于后者,但前者需要的計算資源開銷卻遠少于后者,更加適合電力敏感的場景。科沃斯正是使用了one-stage的方式進行目標檢測建模。
在模型結構方面,科沃斯則沿用了SSD detector的設計思路,但是設計了一個計算量顯著減少的輕量特征抽取網絡以替換SSD中的VGG backbone。
為了減少計算量,科沃斯設計的輕量級特征抽取網絡一方面使用depthwise separable convolutions替換了傳統的卷積操作,這種方式僅需要1/9的計算量就可以完成3*3的傳統卷積。此外,科沃斯還使用了ReLU6作為激活函數,進一步減少了計算量。還將淺層特征與高層特征進行拼接,有效提升了機器人視野中的小型目標的召回率等。可以說這個改進的模型結構更加契合掃地機器人的低功耗、小型物體召回要求高等特點。
而在bounding box預測階段,科沃斯同樣做了諸多針對掃地機器人的優化工作。例如,借助大量的場景數據積累,科沃斯借助遺傳算法為不同的物體類別學習了不同數量和大小的bounding box,從而可以有效召回更多的正樣本,避免在訓練階段遭遇驗證的正負比不均衡問題。下圖是優化前后的大小物體的召回數量對比,可以說非常顯著了
在loss層面,科沃斯還在focal loss的基礎上,對物體位置引入了weighting策略,從而引導模型對位置相近的物體給予更多的注意力,這也更加貼合機器人實際場景的目標檢測特點和難點。
此外,科沃斯還首次突破壁壘,將AIVI視覺識別與3D檢測融合,進一步提升了避障精度。
簡單來說,攝像頭組件雖然對于物體識別來說基本夠用,但對于深度探測方面則表現不佳。對于以上案例,機器人若想走出一個“不知道什么東西”的巨大障礙物的包裹,顯然需要對障礙物的距離信息有足夠精確的把握,這樣在機器人偶然轉動到出口方向時,才會以比較高的置信度將該方向判別為“正確的發力方向”。
盡管原理清晰,但畢竟深度探測與攝像頭屬于兩個通道的信息,要將雙通道信息做到合理的融合和聯合決策,同樣是一個頗具挑戰的事情。除了必要的算法支撐外,還需要工程層面對現實世界的大量Corner case有較為充分的挖掘和建模,這是極端情況下不掉鏈子的重要保障。
科沃斯與AI技術
可能讀者會疑惑,為什么通篇都是科沃斯而不是其他機器人產品呢?
并不僅僅是因為筆者入手了全球銷量第一的科沃斯,而且科沃斯機器人還是全球最早的服務機器人研發與生產商之一,已經成為了行業標準的制定者,且擁有行業規模最大、最權威的機器人實驗室,超700人的研發團隊和超1000項的發明專利。
在AI技術層面,科沃斯更是一家可圈可點的科技公司:
? 2013年,地寶9開創性地將旋轉式LDS雷達放在掃地機器人身上
? 2018年,將Smart Eye視覺導航用在地寶上,科沃斯成為行業內唯一一家同時布局VSLAM和LDS-SLAM雙技術路線的公司
? 2019年,科沃斯行業內第一個推出了AIVI人工智能的產品,可以像人一樣實現視覺避障
? 2020年,提出True Detect 3D結構光避障技術,第一次將避障技術推到毫米級
可以說,科沃斯一直在技術層面革新進步,引領著行業的一次次突破。
期待科沃斯能為我們帶來更多“未來感”的黑科技!
科沃斯X1傳送門總結
以上是生活随笔為你收集整理的改变世界,改善生活:我从科沃斯扫地机器人X1,看到了AI新的希望的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI从业几年还不具备提出新模型的技术能力
- 下一篇: 谁说发 paper 一定要追快打新?20