在視頻擴(kuò)散生成領(lǐng)域,如何精準(zhǔn)操控視頻中的運(yùn)動(dòng)細(xì)節(jié)而又不犧牲畫(huà)面質(zhì)量,一直是研究者共同追逐的目標(biāo)。
來(lái)自 Neflix、Stony Brook 大學(xué)等機(jī)構(gòu)的研究人員創(chuàng)新性地提出通過(guò)結(jié)構(gòu)化的潛在噪聲采樣控制運(yùn)動(dòng)。
實(shí)現(xiàn)方法很簡(jiǎn)單,只要對(duì)訓(xùn)練視頻做預(yù)處理,生成結(jié)構(gòu)化噪聲。這一過(guò)程不涉及擴(kuò)散模型的設(shè)計(jì),無(wú)需改變其架構(gòu)和訓(xùn)練流程。
研究提出了一種全新的噪聲扭曲算法,速度超快,能實(shí)時(shí)運(yùn)行。它用光流場(chǎng)推導(dǎo)的扭曲噪聲,取代隨機(jī)的時(shí)序高斯噪聲,同時(shí)保持了空間高斯性。由于算法高效,能用扭曲噪聲以極小的成本微調(diào)視頻擴(kuò)散基礎(chǔ)模型。
這為用戶(hù)提供了全面的運(yùn)動(dòng)控制方案,可用于局部物體運(yùn)動(dòng)控制、全局?jǐn)z像機(jī)運(yùn)動(dòng)控制以及運(yùn)動(dòng)遷移等場(chǎng)景。
此外,算法兼顧了扭曲噪聲的時(shí)序一致性和空間高斯性,既能保證每幀畫(huà)面的像素質(zhì)量,又能有效控制運(yùn)動(dòng)。
論文鏈接:https://arxiv.org/pdf/2501.08331
本研究的貢獻(xiàn)如下:
創(chuàng)新的視頻擴(kuò)散模型解決方案:提出一種簡(jiǎn)單新穎的方法,將運(yùn)動(dòng)控制轉(zhuǎn)化為可用于噪聲變形的流場(chǎng),在潛在空間采樣時(shí)能直接使用。它不僅能與任意視頻擴(kuò)散基礎(chǔ)模型搭配,還可和其他控制方式協(xié)同使用。
高效的噪聲變形算法:研發(fā)出高效的噪聲變形算法,它既能保持空間高斯性,又能追蹤跨幀的時(shí)間運(yùn)動(dòng)流。這讓微調(diào)運(yùn)動(dòng)可控的視頻擴(kuò)散模型時(shí),花費(fèi)的成本最小,操作也更方便。
實(shí)驗(yàn)和用戶(hù)研究充分驗(yàn)證了該方法在各類(lèi)運(yùn)動(dòng)控制應(yīng)用中的優(yōu)勢(shì)。這些應(yīng)用涵蓋局部物體運(yùn)動(dòng)控制、運(yùn)動(dòng)傳遞到新場(chǎng)景、基于參考的全局相機(jī)運(yùn)動(dòng)控制等。在像素質(zhì)量、可控性、時(shí)間連貫性以及用戶(hù)主觀偏好等方面,表現(xiàn)十分優(yōu)異。
Go-with-the-Flow
當(dāng)前的視頻擴(kuò)散模型存在局限性,研究者提出了一種創(chuàng)新且簡(jiǎn)單的方法,旨在把運(yùn)動(dòng)控制當(dāng)作結(jié)構(gòu)化組件,融入到視頻擴(kuò)散模型潛在空間的無(wú)序狀態(tài)中。
具體實(shí)現(xiàn)方式是關(guān)聯(lián)潛在噪聲的時(shí)間分布。
先從二維高斯噪聲片入手,把它和根據(jù)訓(xùn)練視頻樣本提取的光流場(chǎng)算出來(lái)的扭曲噪聲片,按照時(shí)間順序連接起來(lái)。下圖清晰展示了該方法的流程。
Copyright 2025 //m.ahlmtdl.com/ 版權(quán)所有 豫ICP備2021037741號(hào)-1 網(wǎng)站地圖