Runway前腳剛發(fā)布Gen-3 Alpha,Google后腳就跟了個王炸。
北京時間6月18日凌晨,Google Deepmind發(fā)布了視頻生成音頻(Video-to-Audio,V2A)技術(shù)的進(jìn)展,可以為視頻創(chuàng)建戲劇性的背景音樂,逼真的音效,甚至是人物之間的對話。
V2A技術(shù)支持為AI生成視頻“配樂”,Google還特別強(qiáng)調(diào)了官網(wǎng)發(fā)布的Demo視頻都是由自家在五月份發(fā)布的生成視頻模型“Veo”和V2A技術(shù)合作打造。
有不少網(wǎng)友表示,這下終于可以給用Luma生成的meme視頻配上聲音了!
從Google Deepmind官網(wǎng)發(fā)布的Blog上看,V2A技術(shù)會采用視頻像素和文本提示來生成與底層視頻同步的音頻波形。
首先,V2A會對視頻和文本提示進(jìn)行編碼,并通過擴(kuò)散模型迭代運行,將隨機(jī)噪聲細(xì)化為與視頻和所提供的文本提示相匹配的真實音頻,最后再對音頻進(jìn)行解碼并與視頻數(shù)據(jù)相結(jié)合。
X網(wǎng)友紛紛表示太贊了,但就是有一個小小小小的問題,和同樣是凌晨發(fā)布的Runway的視頻生成模型Gen-3 Alpha一樣,這
又是一個大家都用不上的超贊模型,到底啥時候開源讓咱們試試水!
