论文翻译——FingerSound:Recognizing unistroke thumb gestures using a ring
1. INTRODUCTION
? ? ? ?可穿戴計算已經發展到相當大的消費市場,近年來已經有了大量的應用。可穿戴設備 - 最突出的智能手表和屏幕帶,以及Oculus Rift等移動虛擬現實設備 - 現在可以被視為商品硬件,大部分人口在日常生活中使用它們。隨著這種普及,出現了簡化對可穿戴和移動計算設備的輸入的期望和機會。前者的原因是傳統的交互方式(例如鼠標和鍵盤)通常不太適合小型化的移動和可穿戴設備。另一方面,小型化的進步和大大增加的傳感和計算能力使創新和可能更方便的交互方式成為可能。此外,隨著全新設備類別和/或應用領域的出現,需要開發出既方便用戶又可靠自動處理的有效輸入裝置。? ??
? ? ? 在移動虛擬現實(VR)的示例中,用戶沉浸在合成世界中,其中諸如鍵盤和鼠標的傳統計算機接口可能消失。因此,對新穎,有效的輸入方式的需求是驚人的。可以說,在這種情況下,短消息的文本輸入可能仍然是必要的,用于響應來自其他人的通知,標記文件或對象,或控制操作系統。輸入短消息輸入的需要導致VR系統在虛擬世界中呈現虛擬鍵盤和控制,用戶可以通過頭部或手部移動來選擇每個字母。另一種選擇是在虛擬世界中呈現物理鍵盤的表示,以便用戶可以對其進行渲染。這兩個選項都需要顯著的視覺和手動注意力,并且可以打破虛擬世界中的沉浸感。此外,物理鍵盤(以及在特定位置呈現的虛擬鍵盤)需要用戶移動到界面,這在虛擬世界是笨拙的或分散注意力的。
? ? ? ?在本文中,我們介紹了FingerSound,這是一種用于單擊拇指手勢識別的系統,可為可穿戴計算設備提供基于字符的輸入。 FingerSound使用帶有陀螺儀的環和拇指上的接觸式麥克風來檢測針對手的非擊打手勢。 用戶可以通過在拇指上摩擦/刮擦拇指來執行手勢。 可以在任何時間和任何位置虛擬地啟動輸入,而無需用戶的視覺注意來選擇每個字母。 類似地,可以在不需要用戶的視覺注意力的情況下進行命令手勢,或者使用戶感覺盲目地搜索接口設備的物理環境。
? ? ? ?FingerSound在某些??可穿戴計算環境中也很有用。想象一下,在一個團隊會議中,頭戴式顯示器集成在一副眼鏡的鏡片中[18]。與在會議中使用移動電話不同,頭戴式顯示器設計得非常精巧,并保持對話的融洽關系。然而,一旦用戶觸摸眼鏡來控制它們,它就會引起注意佩戴者和系統的使用。使用FingerSound,用戶可以將手放在桌子下面并向頭戴式顯示器發出命令。假設頭戴式顯示器顯示來電。用拇指對著手掌繪制X會將呼叫發送到語音郵件。類似地,傳入的文本消息可以顯示用戶通過在他的手掌上繪制數字或字母來選擇快速響應的選項。例如,“見到你吃晚餐”可能會顯示“K:OK X:無法制作”,用戶通過在他們的手掌上畫一個K來選擇'OK'。對于需要構建自定義和短消息的情況,FingerSound允許通過在拇指上刮擦拇指來寫入所有36個字母和數字。雖然FingerSound僅限于逐字逐句地編寫單詞,但今天的自動完成系統可以幫助加快文本輸入速度,并在將來糾正識別和拼寫錯誤。
? ? ? ?在本文中,我們展示了不同的容易學習的單行程手勢(例如,方向控制,數字0-9和Grafti字符),如圖1所示,可以由佩戴者巧妙地執行,而無需查看設備。箭頭表示拇指的運動。此外,它不會導致使用其他可穿戴設備(如Google Glass)導致的任何社交尷尬。總之,FingerSound提供了以下貢獻:
? ? ? ?? 帶有內置接觸式麥克風和陀螺儀傳感器的戒指設計,可捕捉拇指繪制手勢沿著手柄的聲音和動作。
? ? ? ?? 演示了三組基于單筆畫的拇指手勢。
? ? ? ?? 使用K-Nearest-Neighbors進行分類和Dynamic Time Warping作為手勢分類的時間距離度量的數據處理管道。
? ? ? ?? 用戶研究驗證FingerSound在每個手勢僅使用三個訓練樣本識別三組單筆畫手勢時的有效性。
? ? ? ?? 討論實際部署的機遇和挑戰
2、相關工作
?
341/5000
? ? ? ?可穿戴設備通常比傳統計算設備小得多。?因此,對這些小型設備的投入往往具有挑戰性,這已成為人機交互界多年來的研究主題。?在本節中,我們將FingerSound與其他可穿戴輸入技術進行比較,尤其是那些也將環用作外形的技術。
? ? ? ?許多新穎的可穿戴輸入技術基于某種形式的臂帶以便于用戶輸入。 已經探索了各種傳感模式來捕獲手臂上的信號,例如聲信號[6,15]和肌電信號[17]。 盡管這些臂帶提供了豐富的輸入功能,但是用戶可能在日常活動中佩戴這些裝置時不方便且在社交上很不方便。
? ? ? ?不同于袖標,更容易說服用戶佩戴腕式設備,因為人們已經佩戴了多年的手表。 因此,許多項目都建立了用于輸入的腕式設備。 這些設備嵌入了不同的感應模式,以識別fnger或手勢,如力感應[4],聲學感應[16,22],電感應[26],靜電感應[3],接近感應[5] ,相機[12]和動作感應[11,25]。 這些的輸入詞匯都相對較小,因此不支持文本輸入。 Twiddler [13]允許用戶通過手持鍵盤輸入文本。 然而,在日常活動中佩戴裝置可能是麻煩的。 此外,它具有更陡峭的學習曲線,以至于用戶需要花費超過20小時來學習如何有效地使用設備進行輸入。
? ? ? 與FingerSound類似,之前的項目已經探索過利用戒指用于輸入,因為戒指相對較小且較輕。戒指可以通過應用適當的感測模式來捕獲fnger運動。一些戒指被構建用于支持表面上的手指交互[10,26]或與其他對象的交互[21]。其他環設計用于捕捉3D空間中的fnger運動,例如uTrack [2,24]和CyclopsRing [1]。 DigitSpace [7]探索了使用拇指輸入和發現的設計空間,可以使用拇指輸入Grafti字母。然而,在一個交叉驗證分析中只評估了6個grafti字母。如[20]中所示,也可以使用由印刷電極制成的戒指來檢測細微的折邊運動。最近的工作FingOrbits使用了類似的傳感模式,但只識別了一組較小的手指手勢[23]。
? ? ? ?雖然已經探索過使用拇指進行輸入,但已經演示的手勢數量相對較少,這限制了潛在應用的范圍。例如,我們不知道使用拇指移動來識別整套Grafti字母的任何工作。 FingerSound最多可以識別42個單擊手勢。
3 FingerSound
3.1 技術描述
? ? ? ? FingerSound的動機是建立一個始終可用,易于使用并提供豐富輸入集的系統。我們通過設計用于佩戴在拇指上的戒指形狀實現了這一點。戒指以一種對日常生活活動無阻礙的方式增強了手指可用性,并且與其他可穿戴輸入設備不同,在社會上是可接受的[13]。選擇拇指作為戒指的位置的原因是因為拇指可以到達背部的大部分部位。這允許用戶將手指用作手勢畫布。其他現有的環輸入設備(例如,[2])要求用戶在空中執行手勢而沒有觸覺反饋和手勢開始和結束的清晰信號。我們設計了FingerSound,允許用戶通過刮擦手掌和手掌來執行拇指手勢,提供自然的觸覺反饋,并清楚地指示手勢何時開始和結束(這是用戶拇指與手勢畫布的接觸)。用戶可以使用此反饋來指導他們的拇指順利執行手勢。此外,通過連續感應拇指與手接觸的時間,我們提供始終可用的輸入模態。
? ? ? ?為了執行手勢,要求用戶沿著手掌或手柄刮擦環形或拇指,以便制作預設圖案。這種將拇指摩擦在皮膚上的刮擦動作產生了一種小但易于感知的聲音以及拇指的微妙運動。與僅使用運動來檢測手勢事件相比,使用聲音和運動兩者可以幫助識別來自噪聲的手勢。例如,身體運動(例如,行走)可能看起來非常類似于陀螺儀上的拇指手勢。但根據我們的調查,這些日常活動引起的聲音與拇指在進行手勢時摩擦所引起的聲音完全不同。因此,我們將接觸式麥克風捕獲的聲音與陀螺儀傳感器捕獲的運動數據通過多個濾波機制傳遞,然后對其進行分析以確定是否執行了手勢或者是否僅僅是來自其他與此相關的活動的噪聲。考慮到設備在fnger上的位置,很容易獲得在執行手勢模式時未產生的輸入(聲音和動作),但是通過任何類型的手柄觸摸到另一個表面而產生。這就像Midas觸摸問題[8],我們的系統需要處理它。我們設計了一個專用的機器學習管道來識別有效的手勢,同時拒絕噪音。以下各節將詳細介紹詳細的技術實現。
3.2 硬件設計? ? ? ?
? ? ? ?如上所述,我們設計了一個帶有內置接觸式麥克風和陀螺儀的環,用于捕獲相關的聲學和運動數據,以捕獲拇指手勢。 與普通的機載麥克風相比,接觸式麥克風使系統能夠最大限度地提高邊緣劃痕聲音的質量,同時最大限度地降低環境噪聲的影響。 我們使用的接觸式麥克風是Knowles BU-21771,它的尺寸為7.92 mm×5.59 mm×4.14 mm,提供低噪音,頻率響應非常低,但輸出電壓也很低。 為了有效地捕獲信號,我們設計了一個預放大器板,可以將信號放大100倍以上,然后在通過電路板之前將音頻信號放大。 前置放大器的設計如圖3所示。前置放大器的輸出通過USB聲卡傳送到筆記本電腦(2013 MacBook Pro),并以44,100Hz采樣。
? ? ? ?我們在環上使用的另一種感應模式是陀螺儀傳感器,即InvenSense ITG-3200。 我們將此傳感器連接到Teensy 3.2微控制器板,該板通過USB將數據發送到同一臺筆記本電腦。此陀螺儀的初始采樣率約為200 Hz。為了獲得更高的采樣率,我們優化了傳感器之間的I2C1通信。到了Teensy并以120MHz的頻率對Teensy的CPU進行了超頻。 因此,我們能夠以大約3,800Hz的頻率對陀螺儀傳感器進行采樣。 使用最高采樣率可以提供幫助使用類似的硬件集,算法和訓練集,為可實現的最高識別精度提供基線。
? ? ? ? ?如圖2所示,戒指有兩個部分:3D打印模型和Velcro制成的帶子,允許我們在大多數用戶的拇指上敲擊戒指而不改變戒指的尺寸。 設計環時的另一個挑戰是如何在3D打印模型和皮膚之間很好地接觸麥克風。 如果接觸式麥克風沒有位于環中,則在用戶執行手勢時可能會引入很多噪音。 為了解決這個問題,我們將麥克風粘在環內,同時允許其中一個表面突出。
3.3 數據處理管道
? ? ? ?我們的數據處理管道允許FingerSound系統實時捕獲和分析數據。硬件組件 - 麥克風和陀螺儀 - 通過USB端口分別將數據發送到MacBook Pro筆記本電腦。 Java程序同時讀取兩個輸入并將它們存儲在易于訪問的數據結構中。在另一個并行線程中,連續分析輸入聲音流以檢測輸入手勢活動。這是使用基于能量的滑動窗口分割技術完成的,如3.4節所述。如果該算法檢測到可能的輸入,則將聲音數據的該部分和相應的陀螺儀數據分段并保存以供進一步處理。在分割陀螺儀數據時,我們在兩個方向上擴展該段以獲得一些額外的陀螺儀數據作為緩沖器。我們這樣做是為了防止在手勢中剪切任何陀螺儀數據,并且還適應任何數據接收延遲。然后,該分段的聲音和陀螺儀數據通過支持向量機(SVM)分類器以檢測數據是否表示真實的手勢或噪聲。有關分類的詳細信息,請參見第3.5節。如果數據被SVM分類器識別為手勢,則陀螺儀數據通過低通濾波器發送到我們的分類器,該分類器識別輸入手勢模式,如第3.6節所述。圖4突出顯示了數據處理管道的主要組件。
3.4 基于能量的手勢分割
? ? ? ?為了檢測手勢的開始和結束,我們分析了拇指放在手指或手掌上產生的聲音。 我們的分析基于麥克風信號的短期能量表示。 該能量被計算為在短分析窗口(幀)上麥克風信號的歐幾里德范數之和的平方根。 該分析窗口為4,410個樣本(0.1s)長并沿原始傳感器數據移位。
? ? ? ?產生的能量信號是檢測相關拇指手勢的開始和一組相關拇指手勢的基礎。 對于手勢分割,即確定連續傳感器數據流中相關拇指手勢的起點和終點,我們采用兩階段過濾方法。
? ? ? ?首先,使用另一個滑動窗口程序,我們提取覆蓋連續兩秒音頻(能量)數據的分析窗口。通過我們的實證研究,我們發現相關的拇指手勢通常持續不超過兩秒,這決定了窗口長度。在中間處理步驟中,我們首先消除信號能量低于某個噪聲閾值的窗口,從而有效地跳過“靜音”階段。
? ? ? ?其次,在每個提取的兩秒窗口內,我們然后搜索潛在的拇指手勢的起點和終點。因此起點被表征為在兩個第二窗口內的第一個位于正平面上,即當信號能量從“0”增加到正值時。相應地,終點被確定為在負片段上的兩秒窗口內的最后一個點(從正值到“零”)。通過這種起始和設定檢測程序,我們可以非常有效地分割手勢候選者。
? ? ? ? 如果提取的手勢候選的長度超過最小手勢長度的預設閾值,則我們認為它是真正的輸入。然后將提取的這些手勢的起點和終點用作索引點,用于從連續數據流中分割實際聲音(不是能量)和陀螺儀數據,并將該數據傳遞到我們處理流水線中的后續階段,即特征提取和分類。
3.5 特征提取和基于SVM的噪聲分類
? ? ? ??基于聲能的手勢檢測方案可能過度分割基礎信號,即產生假陽性預測。 其主要原因是在處理流程的這個階段,僅應用了相對一般的分析規則,其相當粗略地分析聲學信號。 到目前為止,尚未執行實際分類。
? ? ??在下一步中,我們通過為每個提取的段應用二進制SVM分類器來消除誤報手勢預測。 這個分類器有效地將那些與拇指手勢不相符但與噪聲相對應的數據部分清除掉。 請注意,分類器不對原始信號進行操作,而是對其特征表示進行操作(參見下文)。 我們使用Weka提供的SVM的順序最小優化(SMO)實現。
? ??? ?陀螺儀和聲音數據都用于計算有意義的特征。我們使用的特征在[22]中介紹,如下。對于每個陀螺儀數據軸,我們通過計算每個軸數據的導數來提取虛擬傳感器。對于原始傳感器及其派生的虛擬傳感器的每個軸,我們提取一組統計特征,包括最小值,最大值,標準偏差,零 - 交叉率,均方根(RMS),峰值和峰值之間的差異。我們還計算了第一和第二峰值,能量峰值的比率和差異,以及原始陀螺儀和衍生虛擬傳感器之間的不同軸之間的相關性。對于聲學數據,我們在頻域中提取一組共同特征,包括26個Mel頻率倒譜系數(MFCC)和快速傅里葉變換(FFT)的低30個頻段。我們選擇這些功能是因為它表明這些頻率范圍是信息量最大的[22]。將從陀螺儀和聲學數據中提取的特征連接在一起,我們有154個組件的特征向量,用于訓練SVM以分類手勢與噪聲。
3.6 手勢分類算法
? ? ? ? 在處理流程的最后階段,先前已被分類為手勢的每個提取的片段現在由專用識別器分析,該識別器對手勢的類型進行分類。 由于我們的系統應作為實際應用的輸入模式,(近)實時性能是強制性的。 該約束排除了許多識別技術,因為它們僅僅是對計算資源的要求。
? ? ? ?我們采用基于動態時間扭曲的分類,它已廣泛用于分析時間序列數據,尤其是手勢識別[19]。 動態時間扭曲本質上是動態編程的一種實現,其中使用特定編輯距離比較兩個時間模式。 DTW通過對最小的操作集合 - 插入,刪除,匹配,替換 - 將一個序列映射到另一個序列從而使用每個操作的成本因子來量化兩個順序輸入模式之間的不相似性。 通過最小化整體編輯成本,該過程可以實現最佳對齊并量化誤差。 基于DTW的分析的優勢在于它考慮了不同長度的輸入模式,并且非常有效。
? ? ? ?我們將基于DTW的序列匹配與標準k-NN分類器(k = 3)組合用于分類。 有效地,這個過程轉化為非常有效和有效的模板匹配。 我們的模板數據庫包含所有相關拇指手勢的代表性示例。 DTW的實現由Java機器學習庫提供。
4、評估
4.1 程序
? ? ? ?為了展示識別單指拇指手勢和評估與FingerSound的交互體驗的能力,我們進行了一項用戶研究,共有9名參與者,平均年齡為26歲(3名男性),兩組簡單的手勢 - 數字0-9和定向滑動 (參見圖1) - 在兩個設置下。 所有參與者都是從大學校園招募的。 該研究是在基于實驗室的環境中進行的。 每個用戶研究持續約一個小時。 在研究之前,兩位研究人員提供了大約100個手勢和100個噪聲樣本作為構建SVM噪聲分類器的基本訓練數據。 在研究開始時,一位研究人員幫助參與者戴上戒指并演示了如何執行每個手勢。 允許參與者練習每個手勢,直到她感到舒適進行實際測試。 實際研究包括2個培訓課程和6個測試課程。
? ? ? ??在前兩次培訓課程中,參與者被要求將手和手放在桌子上。在每個會話期間,每個單筆劃手勢以隨機順序執行3次。屏幕上的視覺刺激和音頻提示用于提醒參與者要執行的手勢。手勢分割管道連續運行以檢測和分割手勢實例。如果系統未能檢測到手勢,則建議參與者重復該手勢,直到成功檢測到。我們將第一個會話視為練習會話,這有助于參與者熟悉unistroke手勢集以及我們的實驗實時系統。第二個會話被用作訓練數據收集會話,用于構建手勢分割(SVM)和手勢分類(具有DTW距離功能的KNN)的機器學習模型。總共收集30個(3×10個手勢)和12個(3×4個手勢)手勢樣本作為針對每個參與者的用于單行數字手勢和定向輕掃手勢的訓練數據集。收集的手勢數據與來自研究人員的預先收集的數據相結合,以訓練每個參與者的基于SVM的噪聲分類器。
? ? ? ?在前兩個會話之后,每個參與者被要求每個手勢提供30個測試實例,他們的手放在兩個不同的位置。 在每個會話中,每個參與者以隨機順序為每個手勢提供5個實例。 手勢識別結果在屏幕上實時呈現給參與者。 如果分類結果與刺激手勢匹配,則背景標記為綠色。 否則,它變成了紅色。 此外,如果參與者執行了手勢,但系統未能檢測到它或將其標記為噪聲,則該手勢被標記為假陰性錯誤。
? ? ? ?為了研究用戶是否能夠以無眼的方式和不同的手勢進行手勢,我們將這6個測試會話分為兩組。 在前4個測試階段,參與者將手放在桌子上,類似于訓練課程。 對于每個參與者,在這4個測試會話中總共測試200個用于單行數字的樣本(5×10個手勢×4個會話)和用于定向滑動的80個樣本(5×4個手勢×4個會話)。 在最后兩個會話中,參與者被要求握在桌子下面以執行手勢。 這兩個會話旨在模擬真實場景,用戶可能會以各種手部姿勢以無眼的方式執行手勢。 總共在最后兩個會話中測試了100個用于單行數字的樣本(5×10個手勢×2個會話)和用于定向滑動的40個樣本(5×4個手勢×4個會話)。
? ? ? ?保存所有實時識別結果和原始傳感器數據以供以后分析。
4.2 結果
? ? ? ? 我們報告實時分類結果。 對于10個單行程數字,前四個會話和后兩個會話的平均準確度分別為92%和89%。 平均而言,每次會話中捕獲了2.58個假陰性錯誤。 混淆矩陣在圖5中給出。最準確的手勢是數字'1','7','8',最不準確的數字是'0','6'和'4'。 '0'和'6'是最相互混淆的手勢對,因為它們的手勢模式非常相似。 唯一的差異是'6'結尾略低于'0'。 有趣的是,'4'與'1'被錯誤分類,而'1'獲得了最高精度。 要執行'1',很容易發現在手指上繪制'4',參與者需要先將手指向下拖動,這與'1'相同,然后將拇指向右轉。
? ? ? ?四次定向滑動的平均準確度一般較高,前四次和后兩次(無眼睛)分別為98.19%和96.94%。當手被放在桌子下面時,只有“向下”和“向左”會引起一些混亂。平均每個會話中觀察到2.74個假陰性錯誤。
? ? ? ?目前的結果表明,當參與者在桌子下進行手勢時,準確度略低。有兩個因素會影響這種準確性。第一個因素是降低的準確度是由于在最后兩個會話中執行手勢時缺乏對手的視覺觀察引起的。然而,即使在基于我們觀察的前四個會話中,所有參與者一旦掌握了手勢就開始執行手勢而不用看他們的手。另一個假設是在將手放在桌子上時收集訓練數據。然而,當手被握在桌子下方時,手的姿勢是不同的,這可能影響手勢的執行方式。
? ? ? ?圖7顯示了每個參與者的準確度,其中P1和P8提供了最高的精度和P6以及最低的準確度。 除P1外,大多數參與者的準確度在無眼評估中有所下降。 我們的觀察是P1在所有會話中執行手勢的方式非常一致。
4.3 利用Gra?iti手勢輸入
? ? ? ??
? ? ? ? 識別10位數和4次方向滑動的結果令人鼓舞。 為了進一步理解FingerSound可以支持的輸入詞匯的豐富性,我們進行了一項后續研究,以識別更大的28個單擊手勢,包括26個Grafti風格的字母,如圖8所示.Grafti是一個手勢集,是 由Palm,Inc.5創建,用于在PDA上提供文本輸入。 每個Grafti手勢都類似于英文字母的大寫形式,因此易于學習和使用。 之前的一項研究已經表明,參與者在練習五分鐘后可以達到97%的準確度[14]。 表明我們的系統能夠識別Grafti手勢,不僅展示了我們的技術識別豐富的一瞥手勢的強大功能,而且還考察了將此技術用作未來短消息的替代文本輸入方法的可能性。
? ? ? ?在這項研究中,我們減少了測試會話的數量(給定了大量樣本),但與之前的用戶研究相比,增加了一個練習課程,以便為用戶提供更多時間來學習更大的手勢集。 總的來說,我們在這項研究中有5次會話。 前兩個會話是練習會話(每個會話每個手勢3個樣本),第三個會話(每個會話每個手勢3個樣本)是訓練數據收集會話和最后兩個會話(每個會話每個手勢5個樣本,僅限于桌面) )是測試會議。 和以前一樣,實時分類結果被呈現給參與者并被記錄。
? ? ? ?總共有10名參與者(包括4名研究人員,2名女性)平均年齡為27歲參加了這項研究。 沒有參與者參與第一項研究。 所有會議都在一小時內完成。 用于識別28個單行程手勢的實時分類結果導致平均準確度為92.46%。 每次會話平均觀察到5.9個假陰性錯誤。
? ? ? ?圖10顯示了此手勢集的混淆矩陣。 最準確的手勢是字母“X”和“Z”,其精度為100%。 最不準確的手勢是字母“D”和“P”,精度分別為69%和74%。 這兩個字母之間混淆的原因在圖8中可見,因為它們看起來非常相似。它們之間唯一不同的是手勢結束的地方。 “D”結束于比“P”結束的位置低,與其他字母相比,這似乎更難以通過直覺來區分。
? ? ? ?每個參與者的準確度如圖9所示.P1和P8的最高準確度分別為98.93%和最低準確度80.36%。 我們的觀察是P8在練習和訓練期間沒有形成一致的模式。 因此,每次手勢被錯誤分類時,P8都傾向于調整手勢的執行方式,最終導致更多的誤報錯誤。 它表明某些用戶可能需要更長的時間來掌握拇指手勢,或者應該在將來部署強化學習方法。
5、討論
5.1在嘈雜的環境中評估FingerSound
? ? ? ?為了理解FingerSound在存在運動和聲學背景噪聲的嘈雜環境中的表現,我們對5名參與者進行了一項后續研究(兩名有經驗的用戶,三名新手用戶,平均年齡31歲,女性1名)。 參與者被要求在嘈雜的環境中行走時執行10個單行數字。 有三個會話:練習課程,培訓課程和測試課程。 只有新手參與者被要求通過以隨機順序重復每個手勢三次來完成練習。
? ? ? ??培訓課程與之前的研究相同。參與者在坐在桌子前面的訓練課程中為每個單節目數字提供了三個訓練樣本。然后為每個參與者進行一次測試會話,其中每個手勢以隨機順序測試5次。根據之前的研究,為了模擬現實世界的情景,參與者被要求在整個測試過程中繼續在一張大桌子(大約4 x 3米)周圍走動。將筆記本電腦揚聲器放置在桌子的中央,以80分貝的速度播放預先記錄的街道/人群高斯噪聲,以模擬用戶在日常活動中可能遇到的聲學噪聲。戒指連接到放在推車上的筆記本電腦。研究人員在每次會議期間移動購物車跟隨參與者。要求參與者以正常的步行速度行走,并且在執行手勢時不要停止。與之前的研究類似,音頻和視覺刺激以及實時分類結果都顯示在筆記本電腦上。一位研究人員觀察了這項研究并記錄了假陰性/陽性錯誤。在所有參與者中對10個單行程數字進行分類的平均準確率為92.8%,這與我們之前的研究相似。最低精度為90%,這是一個新手用戶。在本研究中,我們沒有觀察到檢測到手勢事件的任何誤報錯誤。但是,測試會話中所有參與者的平均假陰性錯誤數增加到5。我們將此歸因于在手勢/噪聲二元分類器(SVM)的最終訓練數據集中從嘈雜環境中收集的數據的缺乏。在嘈雜環境中收集訓練數據可以潛在地提高識別準確度并減少假陰性錯誤。然而,為了提供基線以幫助讀者理解我們提出的系統的普遍性以及將當前結果直接與先前研究的結果進行比較,我們在更具挑戰性的環境中進行了這項額外的用戶研究,其中訓練數據是在受控設置(無噪音)下收集的,但在嘈雜的環境中進行測試。
5.2 降低陀螺儀的取樣頻率
? ? ? ?我們以當前硬件組支持的最高速率(3800 Hz)對陀螺儀進行采樣。 較高的采樣率不會影響分類精度,但會導致更高的能耗[9]和更長的響應時間。 為了研究采樣率對準確度的影響,我們將從研究中收集的數據下采樣到100Hz,并使用與研究中使用的相同的分類管道重新處理數據。 令人驚訝的是,準確度與之前的研究相當,分別為96.85%,89.96%和93.21%,用于識別4個定向滑動,10個單行程數字和28個Grafti單行程手勢。 在較低頻率下獲得的可比較的準確度意味著不需要超頻。 這表明將來可以以低得多的采樣率再現性能,這需要低處理能力和能量消耗。
5.3 構建用戶獨立模型
? ? ??在用戶研究中,每個參與者被要求在測試手勢之前提供三個訓練樣本。在實際場景中,從提供更好的用戶體驗的角度來看,使用該系統是理想的,而無需首先提供校準或訓練數據。因此,我們對從用戶研究中收集的數據進行了獨立于用戶的分析。使用由其他參與者提供的訓練數據構建訓練模型(每個參與者每個手勢3個實例)。我們為每個參與者為每個手勢集運行了分類管道。識別4次定向滑動的所有參與者的平均準確度為87%,但是對于單行數字和Grafti unistrokes手勢,低于70%。這表明識別系統中的手勢越多,所需的訓練就越多。但是,我們注意到4個方向滑動手勢參與者的準確性存在巨大差異,其中4個參與者的準確率超過96%,而兩個參與者的準確率大約為65%。對于兩個異常值,混淆矩陣表明某些手勢完全錯誤分類。這表明通過一小組手勢(例如,4個定向滑動),一些用戶可以在不收集任何訓練數據的情況下使用該系統。但是,某些用戶可能需要為無法識別的手勢提供校準手勢。該研究僅在相對較小的一組訓練數據中進行。需要進一步調查一組更大的訓練數據才能得出某些結論。
5.4?重新設計拇指輸入的單筆畫手勢
? ? ?在這項研究中,我們使用三個常見的單筆畫手勢集評估了FingerSound。但是,這些手勢集專門設計用于使用手寫筆輸入,這可能不適合基于拇指的手勢。與使用觸筆進行輸入相比,拇指具有相對有限的移動自由度。當用手寫筆書寫時可以很容易地區分的手勢,在用拇指進行時可能會引起混淆,因為我們的系統不是直接測量拇指的運動軌跡,而是捕捉環上的旋轉運動。視覺上可區分的一些姿勢可能難以分類,例如“D”和“P”,“V”和“J”。但是,我們也注意到我們的系統可以很容易地識別出一些視覺上相似的手勢。例如“U”和“V”或四個方向滑動。這些手勢都有不同的起始位置。我們的觀察是我們的系統可以很容易地區分手勢之間的不同起始位置。此外,參與者報告說,用拇指進行一些手勢是不舒服的。例如,“Y”要求用戶通過將拇指朝向右上方向移動來手掌上的手勢,這是具有挑戰性的,因為拇指在該區域中的移動自由度有限。
? ? ? ?盡管我們的系統能夠識別出超過92%準確度的單行手勢,但只有少數手勢會導致大多數分類錯誤,例如“D”和“P”。 如果修改這些手勢的設計以適應拇指手勢,那么這些手勢將更容易被識別。 因此,我們總結了我們對該研究的觀察,作為未來拇指手勢設計實踐的指導:
(1)如果方向或起點不同,可以區分視覺上相似的手勢。
(2)避免設計軌跡相似的姿勢,只根據長度進行設計。
(3)避免設計將拇指移向手掌邊緣的手勢,因為這符合人體工程學的不舒服。
5.4 硬件限制和改進
? ? ? ??當前系統設計的一個限制是環僅用作感測單元并且連接到識別算法運行的膝上型計算機。 它無法獨占運行整個算法。 但是,我們預計這種限制可以通過以下兩種方式之一解決。 一個是隨著技術的進步,處理器和電池可以比現在更小。 因此,所有的硬件都可能潛入環本身,盡管摩爾定律的限制使得這種可能性降低。 另一種是在環上添加無線傳輸單元(例如,藍牙)。 然后,數據處理和識別可以在另一個便攜式設備上進行,例如智能手機。 我們預計第二種方法將更加普及,因為它融入了我們在行業中觀察到的互聯智能設備的當前趨勢。
? ? ??傳感器漂移是另一個需要解決的問題,才能在實際應用中廣泛部署。在當前系統中,我們在每個參與者啟動系統之前校準傳感器一次。將環放置在工作臺上2.5秒,程序記錄累積的o ff組,然后用于校準所有傳感器值。在每個參與者的一小時用戶研究期間,我們沒有觀察到由傳感器漂移引起的識別系統的任何顯著影響。然而,如果系統部署較長時間,則傳感器可能保持漂移,從而影響手勢識別系統的性能。這個問題的一個流行的解決方案是使用IMU傳感器組中的其他傳感器來補償漂移。
5.6 提高識別速度
? ? ? ?為了對新的手勢實例進行分類,我們當前的實現計算了未分類實例與訓練集中的每個實例之間的DTW距離。隨著訓練集中手勢的數量增加,系統響應時間也增加,這可以影響交互體驗。由于計算DTW距離是最耗時的計算,因此減少DTW距離計算的數量將減少響應時間。因此,不是使用每個訓練樣本計算DTW距離,而是實時分類系統應該僅使用來自每個手勢集的一些預先選擇的模板樣本來計算距離。可以基于它們與相同手勢的其他訓練樣本的DTW距離來選擇這些代表性樣本。通常,選擇與其他人具有最小DTW距離的樣本作為模板。例如,如果我們選擇每個手勢1個樣本作為模板,則與當前實現相比,響應時間將減少三分之二。此外,即使訓練樣本的大小增加,實時響應時間也不會改變。較低的采樣率還可能潛在地減少DTW計算所需的時間,這也可以提高識別速度,正如我們在前一節中所討論的那樣。
5.7自定義拇指手勢
? ? ? ?雖然我們只展示了對三個單行程手勢集(4,10和28個手勢)的識別,但該系統有可能識別更廣泛的拇指手勢,包括用戶自己設計的手勢。 這些定制的手勢可以被用戶映射到不同的功能,例如用于其他連接設備的解鎖手勢。
5.8 激活手勢
? ? ??當前系統僅在實驗室環境中進行評估,其中在所有會話期間檢測到手勢事件時觀察到零假陽性。 但是,如果用戶參與其他體重運動較多的活動,可能會出現更多誤報錯誤。 這是每個手勢識別系統在實際部署之前必須解決的難題。 我們的解決方案是設計一個激活手勢來啟動整個系統。 這意味著,僅當檢測到激活手勢時,系統才開始識別全套手勢。 可以從與其他手勢混淆最少的手勢中選擇激活手勢。 例如,我們可以選擇“X”作為我們系統的激活手勢,因為它具有100%的精度和99%的召回率,如圖10所示。
5.9 應用
? ? ? ?但是,FingerSound并非設計用于所有任務的輸入。 它可能不適合編寫長文本,因為使用FingerSound的輸入在速度和準確性方面不如使用傳統鍵盤。 一些參與者報告說,長時間使用拇指輸入(在研究中一小時),身體要求很高。 另外,對于需要極快響應的應用可能不是所希望的,例如第一人稱視點拍攝或賽車游戲。
? ? ? ?鑒于其當前的設計和性能,FingerSound更適合用于需要短響應的其他設備或應用程序。 例如,家庭娛樂系統使用遙控器進行輸入。 但是,要輸入文本,用戶必須使用繁瑣的輸入技術,例如在屏幕上導航QWERTY鍵盤的方向按鈕。 通過使用FingerSound,可以通過簡單地用拇指抓住手來完成文本輸入。
? ? ? ??FingerSound還可以用作智能手表的替代輸入設備。 由于手表屏幕相對較小,因此輸入短文本或數字非常具有挑戰性。 這些人可能會遮擋內容。 FingerSound允許智能手表用戶使用相同的手或不同的手在他們的手表上輸入而不會遮擋屏幕。
? ? ? ?與其他基于手勢的輸入技術類似,FingerSound無法提供完美的識別準確度,這意味著用戶在使用系統時可能會遇到識別錯誤。 為了提供最佳的用戶體驗,需要補償這些錯誤。 一種顯而易見的方法是進一步提高系統精度,我們將在下一節中討論。 另一個同樣重要的解決方案是在應用程序的上下文中適當地設計交互。 例如,設計者應該考慮使用最準確和最有效的手勢來訪問“刪除”功能,這有助于糾正錯誤。
5.10 限制和未來工作
5.10.1提高準確性和效率。 該系統僅在基于實驗室的環境中進行測試。 然而,在系統部署在野外時,僅使用三個訓練樣本來實現類似的識別性能可能是具有挑戰性的。 一種解決方案是在嘈雜的環境中收集更多的訓練數據。 另一種是采用更先進的算法,如隱馬爾可夫模型,以提高識別效率和準確性。 此外,當前的噪聲訓練數據是在實驗室環境中收集的,這可能不能最好地代表日常活動中的噪聲。 在日常活動中收集噪音數據可能有助于改善表現。 例如,我們當前的噪聲樣本是在基于實驗室的環境中收集的。 雖然它在研究中有效,但我們計劃在未來的自然環境下收集日常活動中的噪聲數據。
? ? ? ?我們計劃進行的未來工作的另一部分是提高輸入準確性和效率。 正如我們所討論的,應用更先進的機器學習技術(例如,HMM)可以在更大的訓練數據集的情況下提高準確性。 此外,采用自動完成系統將進一步提高輸入效率。 我們計劃將來進一步調查這些問題。
5.10.2其他。 我們還計劃用9度IMU傳感器更換陀螺儀傳感器。 基于新傳感器,可以實施傳感器漂移補償算法以增加傳感器數據的穩定性。
當前系統中的另一個問題是環被電纜束縛,這可能限制其移動自由度并降低識別精度。 環的方向也會影響系統的性能。 為了解決這些問題,我們計劃在未來通過添加無線通信模塊使整個系統可移植,這樣我們就可以在環的方向上保持一致并在野外部署系統。
6、結論
? ? ? ? FingerSound是一種輸入技術,使用環形識別單指拇指手勢,包括接觸式麥克風和陀螺儀傳感器。 具有DTW的距離函數的KNN模型被實現為僅針對每個手勢使用三個訓練樣本來識別手勢。 一項有19名參與者的用戶研究表明,FingerSound能夠識別4個方向滑動,10個單行程數字和28個Grafti字母,平均準確度分別為92%,98.19%和92.46%。 我們討論了在將其部署到實際應用程序之前需要解決的潛在應用程序,機會和挑戰。
總結
以上是生活随笔為你收集整理的论文翻译——FingerSound:Recognizing unistroke thumb gestures using a ring的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Ubicomp一些有意思的论文
- 下一篇: HBase 数据存储结构