南洋理工大學開發高精度手勢識別機器學習架構

查看引用/信息源請點擊:techxplore

下一步計劃是根據視覺數據和傳感器數據的仿生融合構建一個VR和AR系統。

映維網 2020年08月28日)新加坡南洋理工大學和澳大利亞悉尼理工大學最近開發了一種旨在以高精度識別手勢的機器學習架構,而方式是通過分析可伸縮應變傳感器捕捉到的圖像。研究人員已經將論文發表在《Nature Electronics(自然電子)》中,并表示新架構的靈感來自人類大腦。

南陽理工大學的陳曉東教授表示:“我們的項目概念源于人腦處理信息的方式。在人腦中,思維、計劃、靈感等高感性活動不僅依賴于特定的感官信息,其同時屬于不同感官的多種感官信息的綜合整合。這啟發了我們結合視覺信息和體感信息來實現高精度的手勢識別。”

在解決實際任務時,人類通常會整合從周圍環境收集的視覺信息和體感信息。這兩種類型的信息彼此互補,而可以更好地幫助人類理解問題涉及的所有要素。

所以在開發手勢識別技術時,陳曉東教授及同事確保它能夠整合由多個傳感器收集的不同類型信息。最終,團隊的目標是建立一個能夠以高精度識別人類手勢的架構。

陳曉東教授解釋道:“為了達到我們的目標,我們通過設計和制造可伸展的舒適傳感器來改進傳感器的數據質量。與現有的可穿戴傳感器相比,這種傳感器可以收集更精確的手勢體感數據。另外,我們開發了一種生物啟發式的體感視覺(Bioinspired Somatosensory-Visual;BSV)學習架構,它可以合理地融合視覺信息和體感信息,這類似于大腦中的體感-視覺融合結構。”

所述的BSV學習架構復刻了人腦是如何以多種方式融合體感信息和視覺信息,但方式是通過一個仿生生物神經網絡結構。

另外,機器學習架構中的一些分段網絡將如同大腦神經網絡一樣處理相同的模態感覺數據。例如,分段卷積神經網絡(CNN)專門執行卷積運算,復制生物神經系統內局部感受場的功能,從而模擬人腦視覺處理部分發生的初始視覺信息處理。

最后,研究人員設計的架構使用了新開發的稀疏神經網絡來融合特征。這個網絡復刻了大腦多傳感神經元是如何表示視覺信息和體感信息之間高效初始交互。

陳曉東教授表示:“我們開發的技術有三個獨特的特點。首先,它可以處理視覺和體感信息的早期交互。其次,CNN的卷積運算類似于生物神經系統中的局部感受場的功能,它可以自動學習層次化的深空特征,并從原始圖像中提取平移不變特征。最后,我們提出了一種基于弗羅貝尼烏斯定理條件數的疏剪策略來實現高效的稀疏神經網絡。”

在一系列的初步評估中,這種BSV學習架構的結果優于單模態識別方法(即只單獨處理視覺或體感數據,而不是同時考慮兩者)。值得注意的是,與過去開發的三種多模式識別技術(加權平均融合(SV-V)、加權注意力融合(SV-T)和加權乘法融合(SV-M)架構相比,它能夠更準確地識別人類手勢。

相關論文Gesture recognition using a bioinspired learning architecture that integrates visual data with somatosensory data from stretchable sensors

陳曉東教授說道:“與單模態識別方法和常見的多模態識別方法(SV-V、SV-T和SV-M)相比,我們的仿生學習架構可以達到最佳的識別精度。在圖像噪點大、曝光不足或曝光過多的非理想情況下,它依然能夠保持較高的識別精度。”

所述的大腦啟發式架構最終可以支持一系列的用例,如能夠讀懂病人肢體語言的醫療機器人,幫助創造更先進的虛擬現實和增強現實系統等等。

他表示:“它獨特的仿生特性使得我們的架構優于大多數現有的方法,我們的實驗結果已經證實了這一點。我們的下一步計劃是根據視覺數據和傳感器數據的仿生融合構建一個VR和AR系統。”

原文鏈接http://www.hydestar.com/news/77347.html
轉載須知:轉載摘編需注明來源映維網并保留本文鏈接
英文閱讀:點擊前往映維網合作伙伴 RoadtoVR 閱讀專業英文報道
入行必讀:深度分析:VR的過去、現在、未來
入行必讀:深度分析:AR的過去、現在、未來與現實
資訊 rb88