HI~歡迎來到數(shù)造云打印平臺!
我們已經(jīng)介紹過很多僅用RGB相機進行動作捕捉的研究了,其中大多數(shù)是模擬出骨骼進行追蹤,少數(shù)則是通過模擬出的骨骼套上一個粗糙的模型,便可稱為3D模型了。
近日,F(xiàn)acebook AI Reaserch(FAIR)開源了一項將2D RGB圖像的所有人類像素實時映射至3D模型的技術——DensePose,而且采用的也不是我們經(jīng)常介紹的骨骼追蹤,而是一種十分密集的方案追蹤來構建3D模型。
在戶外和穿著寬松衣服的 也表現(xiàn)良好。
還支持多人同時追蹤。
那這個密集如何來理解呢?
對于一般的骨骼追蹤,追蹤的點大多在十到二十個之間,再多也沒有多少實際的效果。而DensePose所追蹤的點一共有336個,密密麻麻全身都是點。(密集恐懼癥退避)
之所以要追蹤這么多的點,是構建一個平滑流暢的3D模型所必須的數(shù)據(jù)。
辛苦的付出也是值得的,DensePose無論是在戶外還是多人下都表現(xiàn)良好,還能實時更換場景中人的衣服。
那就來看看他們是怎么做到的吧。
為了讓機器可以學習,研究人員手動標記了5萬張照片中的336個點,光這個步驟就是一個巨大的工程了,如果按部就班的標記注釋,不知道要到什么時候完成了。
研究人員將一個人拆分成了24個部分,分別為頭、軀干上部、軀干下部、大臂、小臂、大腿、小腿、手、腳。每個部分標記14的點。
對于頭部、手部、腳部都由人手動標記。同時還要求注釋者在標記的時候標出被衣物掩蓋住的部位,比如寬松的裙子。
這些工作做完后進入第二階段,研究人員對每一個展開部位區(qū)域進行采樣,會獲得6個不同的標記圖,提供二維坐標地圖使標記者更直觀的判斷哪個標記是正確的。
最后再將平面重新組合成3D模型,進行最后一步校準。
這樣兩步下來,研究人員得以高效準確的獲得了準確的標記。不過在軀干、背部還有 臀部有較大的誤差。
接下來就是深度學習的階段了,這時一個好的方案就好比性能優(yōu)越的催化劑。
研究人員采用與Mask-RCNN架構的DenseReg類似的方法,構成了'DensePose-RCNN'系統(tǒng),還進一步開發(fā)使得訓練的準確度提高。首先由外觀粗略的估算像素所在的位置,然后將其與準確的坐標對齊。
DenseReg MaskRCNN的關鍵點分支中使用相同的體系結構,由8個交替的3×3完全卷積和512個通道的ReLU層組成。得益于Caffe2,所產(chǎn)生的架構實際上與Mask-RCNN一樣快。
為了降低錯誤率,還訓練了一個“教師”網(wǎng)絡來重建地面,部署它完整的圖像域,產(chǎn)生一個密集的監(jiān)督信號。研究人員將人類監(jiān)督者半自動監(jiān)督和“教師網(wǎng)絡”進行對比,結果是“教師”完勝。
研究人員還將其方法與SMPLify進行了對比,在模型的模擬方面,研究人員的自下而上的前饋方法在很大程度上勝過了迭代的模型擬合結果。
同時在多人處理時,F(xiàn)CN明顯差于'DensePose-RCNN,再與其他方案比較時優(yōu)勢也十分突出。
最后,整體呈現(xiàn)的效果如開頭所講,能夠處理大量遮擋物,成功的模擬出了衣服后面的人,但有一點需要注意,那就是所有人都是通過固定的曲率擬合的。而且在多人狀況下表現(xiàn)十分良好。
來源:of week
編輯:董強
相關推薦
全部評論 0
暫無評論