愛奇藝論文入選CVPR 2022 Oral 有照片就能在視頻里虛擬換裝
把下面圖片中的衣服,換到視頻里的模特身上,你需要分幾步走?

愛奇藝AI團隊的答案是“一鍵換裝”。
近日,國際AI頂級會議CVPR 2022公布了最新論文入選結果,愛奇藝AI團隊的論文《ClothFormer: Taming Video Virtual Try-on in All Module》以Oral Presentation(口頭報告論文)入選。論文研究的目標就是通過圖像生成模型,把圖片里的衣服,穿到視頻中的人物身上。
CVPR(Computer Vision and Pattern Recognition)由IEEE主辦,是計算機視覺領域的三大頂會(CVPR、ICCV、ECCV)之一。CVPR代表著AI學術領域的世界前沿水平。今年最終有2067篇論文被接收,接收率約為25%,Oral接收率更是不到5%。
愛奇藝AI團隊的這篇論文提出了ClothFormer算法,并提出了業(yè)內首個基于真實場景的視頻虛擬試穿數據集iQIYI-VVT,不僅能夠更真實、自然地完成“虛擬換裝”,也為業(yè)內深入研究該技術提供了豐富的數據支持。
有了愛奇藝這項技術,觀眾足不出戶試穿影視劇同款、全世界潮流服飾的愿望指日可待。
虛擬換裝≠軟件修圖
把圖片里的衣服換到人身上,這項操作似乎和軟件修圖類似,實際上兩者相差甚遠。
假如給一支時長1分鐘視頻里的人換裝,即使每秒只有25幀,也需要修改1500張圖片,若是人物動作復雜、遮擋物多的視頻,全部修改完也不一定能流暢播放。
這與“視頻虛擬換裝”的三大關鍵點有關:一是精準地把款式衣服變形,使其貼合模特動作,二是把衣服“穿”到模特身上,三是使生成的視頻看上去夠流暢。每個關鍵環(huán)節(jié)都存在眾多難點,比如衣服變形不夠精準,視頻里的人物被遮擋或動作復雜,生成的視頻不穩(wěn)定,加上現(xiàn)有真實場景的數據集不足,很難準確理解復雜場景……這些問題都導致衣服無法“穿”到人身上。
為了解決“虛擬換裝”面臨的技術問題,愛奇藝AI團隊提出ClothFormer算法,該算法重新對視頻虛擬試穿框架進行了創(chuàng)新,有效改善了遮擋、視頻穩(wěn)定性等問題,降低了復雜姿態(tài)和復雜場景的挑戰(zhàn),換裝后的視頻也更加自然。(了解ClothFormer算法詳情可訪問:https://cloth-former.github.io/)

ClothFormer算法讓“虛擬換裝”走進真實場景
未來,在愛奇藝拍攝短視頻,用戶任意拿一張衣服的照片,或者影視劇劇照,就能給自己一鍵換裝,真正實現(xiàn)“穿衣自由”。“虛擬換裝”還可以用在虛擬制作中,比如拍攝結束后演員需要更換服裝,通過虛擬換裝技術給自動給演員更換,可以節(jié)省重新置景、拍攝的時間和成本。
近年來,“虛擬換裝”成為熱門研究領域,在CVPR等眾多計算機視覺頂會中,越來越多的相關文章被收錄。隨著技術的進步,研究者們逐漸從小尺寸圖片演變到高清圖片以及視頻的虛擬試穿,但大多仍限定在特定場景中,背景、姿態(tài)都比較簡單,在真實場景上難以真正應用起來。ClothFormer算法則讓“虛擬換裝”進一步從實驗走向真實場景。