點對點即時虛擬人物線上會議系統


摘要

近年來,線上會議的需求日益增加,人們也越來越習慣利用網路視訊方式與他人互動,例如遠距離教學、遠距離辦公等等。但人們通常因為隱私考量而不願意將視訊鏡頭開啟,影響了線上教學或是會議的互動性;如果想要利用虛擬人物來發起或是參加會議的話,通常需要購買特定軟體或是器材才能達成,對於單純想要發起會議的使用者來說非常不方便。基於上述原因,我們提出一個利用Live2D Cubism WebSDK、ReactJS、MediaPipe FaceMesh,整合臉部辨識、2D虛擬人物以及即時視訊以及語音通話的網頁系統。使用者可以利用虛擬人物,在不需要露面的前提下保持會議的互動性。本系統利用可在使用者端網頁執行的AI臉部追蹤(Face Alignment),將所偵測到的資料套用至可自由變形的2D虛擬人物,以多媒體串流(MediaStream)的方式直接傳送到參加者的電腦上。





引用文獻

Bazarevsky和Kartynnik等人在2019年提出BlazeFace臉部偵測框架,和上述提到的MobileNet架構類似,但主要利用行動裝置上的GPU運行,可在上述裝置上達到200~1000FPS的速度,可以利用來偵測臉部位置,以利更精細的臉部偵測處理,BlazeFace的感測範圍(紅色外框)以及後續特殊處理(綠色外框和節點)。

例如Kartynnik和Ablavatski等人在2019年提出的臉部模型辨識Face Mesh就有應用到上述的技術。此論文先利用BlazeFace將畫面中臉部位置的部分分離出來,以及大略標記出眼睛、鼻子、耳朵等等的特徵點以利對齊,再來以分離出的臉部畫面為基準,標記出臉部468個特徵點。此論文可以在Google Pixel 3上以7.4微秒的速度標記出臉部特徵點。

此外,Ablavatski和Vakunov在2020年提出利用上述方式,偵測到臉部的468個特徵點後,提取出眼睛周圍的臉部畫面,偵測出眼睛瞳孔的特徵點(瞳孔中心、4個瞳孔外框特徵點、16個眼眶特徵點,加上原本臉部特徵點,輸出總共478個特徵點。





示範 - Animeet


前往網站





示範 - Face-Test


前往網站