<table id="ej5zp"></table>

  • 展會信息港展會大全

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊
    來源:互聯網   發布日期:2022-02-16 08:35:21   瀏覽:9965次  

    導讀:新智元報道 編輯:袁榭 拉燕 【新智元導讀】 為了讓廣大視頻通話用戶體驗更佳,也讓更多AR、VR用戶青睞元宇宙,Meta的AI研發團隊最近開發了能更好處理虛擬背景的AI模型 。 自新冠疫情開始以來,大部分人都已經習慣了在和朋友、同事和家人遠程視頻通話。視頻...

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    新智元報道

    編輯:袁榭 拉燕

    【新智元導讀】為了讓廣大視頻通話用戶體驗更佳,也讓更多AR、VR用戶青睞元宇宙,Meta的AI研發團隊最近開發了能更好處理虛擬背景的AI模型。

    自新冠疫情開始以來,大部分人都已經習慣了在和朋友、同事和家人遠程視頻通話。視頻聊天的時候都使用過虛擬背景。

    用戶在視頻時變換背景,能賦予其在虛擬影像中掌控身邊環境的權利,減少因環境帶來的分心,還能保護隱私,甚至還能讓用戶在視頻里看起來更有精氣神。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    但有些時候虛擬背景呈現出來的效果可能和用戶需求的不一樣。大部分人都經歷過在移動的時候虛擬背景把人臉擋住了,或者是虛擬背景無法識別手和桌子之間的邊界。

    最近,Meta利用強化的AI模型來分割圖像,優化了背景模糊功能,虛擬背景功能和其它Meta產品服務的AR效果。這樣可以更好的分辨照片和視頻中的不同部分。

    來自Meta AI、現實實驗室和Meta其它部門的研究人員和工程師,組成了一個跨部門小組,最近開發了新的圖像分割模型,已用在Portal、Messenger和Instagram等很多平臺的實時視頻通話和Spark AR的增強現實應用中。

    該小組還優化了雙人圖像分割模型,已經在Instagram和Messenger上應用了。

    如何讓AI改進虛擬背景

    該小組在推進圖像分割的優化過程中,主要有以下三大挑戰:

    1.要讓AI學會在不同的環境下也能正常識別。比如說環境偏暗、人物膚色不同、人物膚色接近背景色、人物不常見的體態(比方說彎腰系鞋帶,或者伸懶腰)、人物被遮擋、人物在移動等等。

    2.要讓邊緣的位置看起來更加的流暢、穩定、連貫。這些特征在目前的研究中討論較少,但是用戶反饋研究表明,這些因素極大影響人們在使用各類背景效果時的體驗。

    3.要確保模型能夠在全世界幾十億部智能手機中都能靈活、高效的運作。只在一小部分最先進的手機中才能使用是不行的,這類手機往往搭載最新款的處理器。

    而且,該模型必須能支持各種長寬比的手機,這樣才可以在筆記本電腦、Meta的便攜式視頻通話設備和人們的手機的肖像模式、橫向模式中都保證模型的正常使用。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    用Meta的AI模型處理后的虛擬背景示例,左為頭身像,右為全身像。

    真實世界個人圖像分割模型的挑戰

    圖像分割的概念不難理解,但獲得高精確度的個人圖像分割結果卻很困難。要有好結果的話,處理圖像的模型必須一致性極高、延遲度極低。

    不正確的分割圖像輸出,會導致各種讓使用虛擬背景的視訊用戶走神的效果。更重要的是,圖像分割錯誤會導致用戶的真實物理環境發生不必要的暴露。

    因為這些,圖像分割模型的精度必須達到交并比90%以上,才能進入實際的市場產品應用。交并比是衡量圖像分割預測值與基底真實值重疊部分比值的常用標準度量。

    由于使用場景與實例復雜度之海量,Meta的圖像分割模型要達到的交并比,最后10%完成起來遠比之前的所有部分都更難。

    Meta的軟件工程師們發現,當交并比已達到90%時,圖像的可衡量指標趨于飽和,在時間一致性與空間穩定性上難有更好提升。

    為了克服此障礙,Meta開發了一個基于視頻的衡量系統,與其他幾個指標一起來解決這額外的難度。

    為真實世界應用開發AI訓練與衡量策略

    AI模型只能從已交付的數據集里學習。所以想要訓練出高精度的圖像分割模型,光是簡單錄入一大堆視頻用戶在明亮室內正襟危坐的視頻樣本是不行的。樣本類型得盡可能貼近真實世界地豐富。

    Meta AI實驗室用了自家的ClusterFit模型,來從不同性別、膚色、年齡、身體姿勢、動作、復雜背景、多人數的海量樣本中提取可用數據。

    靜態圖像的度量值并不準確反映模型實時處理動態視頻的質量,因為實時模型通常要有依賴時間信息的追蹤模式。為了測量模型的實時質量,Meta AI實驗室設計了當模型預測出畫面時、計算每幀畫面的各指標的定量性視頻評估架構。

    與論文中的理想狀況不同,Meta的個人圖像分割模型是被日常的海量用戶評判性能。如果有鋸齒、扭曲、或其他不滿意的效果出現,其他性能比基準值好出再多也沒用。

    所以Meta AI實驗室直接詢問自家產品用戶對圖像分割效果的評價。結果是邊緣不平滑和模糊對用戶體驗影響最大。

    針對此需求,Meta AI實驗室在視頻評估架構中,另添加了「邊緣交并比」這一新指標。當畫面的普通交并比超過90%、幾近飽和時,邊緣交并比就是更需注意的指標了。

    而且,畫面時間一致性不夠,會帶來圖形邊緣的混雜效果,這也會影響用戶體驗。Meta AI實驗室用兩種方法來測量畫面的時間一致性。

    首先,Meta研究人員假設時點緊鄰的兩幀畫面,圖像基本一致。所以任何模型上的預測差異都代表最終畫面會有時間不一致。

    其次,Meta研究人員從時點緊鄰的兩幀畫面的前景動作入手。前景里的光流能讓模型從第N幀的預測值推進到第N+1鄭然后研究者就將此預測值與真實的N+1幀數值對照。

    這兩種方法中測算出的差異度都以交并比這一度量來體現。

    Meta AI實驗室使用了來自30種的100余類人群的1100個視頻樣本來輸入AI模型,分類包括所有人類表征性別與菲茨帕特里克量表上的膚色色調。

    分析結果是,Meta的AI模型在所有人群子分類的視像處理效果上都有差不多的顯著準確性,交并比與置信度都在95%以上,各分類間交并比差異基本都在0.5個百分點左右,性能優異可靠。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    不同膚色與性別人群的視頻,Meta的AI模型處理后的交并比數據

    優化模型

    架構

    Meta研究人員使用FBNet V3作為優化模型的主干。這是一種由多層混合形成的解編碼結構,每一層都有相同的空間分辨率。

    研究人員設計了一種配備輕量級解碼器加重量級編碼器的架構,這樣可以擁有比全對稱設計的架構更好的性能。生成的架構由神經架構搜索支撐,并對設備上運行的速度進行了高度優化。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    語義分割模型架構。綠色的長方形代表卷積層,黑色的圓圈代表各層融合點。

    數據學習

    研究人員使用離線大容量的PointRend模型為未注釋的數據生成地一個偽標準實值標簽,以此來增加訓練的數據量。同樣地,研究者使用師-生半監督模型來消除偽標簽中的偏差。

    長寬比相關的重新采樣

    傳統的深度學習模型會將圖像重新采樣成一個小正方形,輸入到神經網絡里。由于重新采樣,圖像會出現畸變。并且由于每幀圖像具有不同的長寬比,因此畸變的幅度也會不相同。

    畸變的存在、畸變程度的不同,會導致神經網絡AI學習到不穩健的低層次特征。這種畸變引起的限制在圖像分割應用中會被放大。

    如此一來,如果大多數訓練圖像都是肖像比例,那么該模型在實景圖像和視頻上的表現要差得多。

    為了解決這個問題,研究團隊采用了 Detectron 2 的長寬比相關的二次采樣方法,該方法將具有相似長寬比的圖像分組,并將它們第二次采樣到相同的大校

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    左為長寬比不調帶來畸變的基線圖像,右為AI模型處理后的改進圖像

    自定義補邊框

    長寬比相關的二次采樣法需要將具有相似長寬比的圖像補邊框,但常用的零補框方法會產生偽影(artifact)。

    更糟糕的是,當網絡的深度不斷增加的時候,該偽影會擴散到其他區域。過去的辦法是,使用復用邊框的手段來移除這些偽影。

    最新的一項研究中顯示,卷積層中的反射邊框可以通過最小化偽影傳播的方式來進一步提高模型的質量,但相對應地,時延成本也會增加。偽影的案例,和如何移除偽影的示例如下。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    追蹤

    時間不一致,會讓AI處理圖形時在幀到幀之間存在預測性差異,帶來閃爍(flicker),它的出現會極大損害用戶的體驗。

    為了提高時間一致性,研究人員設計了一個名為「面具偵測」的檢測過程。它從當前幀圖像(YUV)中獲取三個通道,并且還存在第四通道。

    對于第一幀圖像,第四通道只是一個空矩陣,而對于隨后的幀數,第四通道則是對上一幀的預測。

    研究人員發現,這種利用第四通道跟蹤的策略顯著提高了時間一致性。同時,他們還采用了最先進的跟蹤模型中的一些想法,例如CRVOS和變換不變性CNN等建模策略,來獲得時間上較為穩定的分割模型。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    「面具偵測」法流程圖

    邊界交叉熵

    構建平滑、清晰的邊界,對于AR圖像分割的應用至關重要。除了在分割圖像的時候會有的標準交叉熵損失之外,研究人員還必須考慮邊界加權損失。

    研究人員發現,對象的內部是更容易被分割的,所以Unet模型與其之后大多數變體的作者都建議使用三元圖加權損失來提升模型的質量。

    然而,三元圖加權損失有一個限制,就是三元圖只會根據標準實值來計算邊界區域,因此它對所有的誤判都不敏感,是一種非對稱的加權損失。

    受「邊界交并比」的啟發,研究人員采用交并比的方法為標準實值和各種預測提取邊界區域,并在這些區域中建立交叉熵損失。在邊界交叉熵上訓練的模型,很明顯是優于基準的。

    如此除了能使最終掩碼輸出中的邊界區域更清晰之外,應用新方法后,新模型的誤報率更低。

    Meta開發新虛擬背景處理AI,讓元宇宙中人像不再虛糊

    Meta虛擬背景處理器應用的新AI模型,其新功能效率更高、更穩定,也更多樣化。這些優化都會提高背景濾鏡的質量和連貫性,從而提高在產品中的應用效果。

    舉例來說,優化過的分割模型可以被用來識別多人場景和人物的全身,也可以識別被沙發、書桌或餐桌遮擋的全身人像。

    除去應用在視頻通話以外,通過虛擬環境和和現實世界中的人、物結合,這項技術還可以給AR和VR技術增添新的維度。在建設元宇宙、營造沉浸式體驗時,這項應用會尤其重要。

    參考資料:https://ai.facebook.com/blog/creating-better-virtual-backdrops-for-video-calling-remote-presence-and-ar/

    贊助本站

    人工智能實驗室
    AiLab云推薦
    展開
    Copyright © 2010-2022 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港
    18禁无遮拦无码国产在线播放

    <table id="ej5zp"></table>