
文章插圖
魚羊 發(fā)自 凹非寺這般絲滑的美食展示 , 是否讓跟隨鏡頭移動的你食指大動?
量子位 報道 | 公眾號 QbitAI
再看這放大鏡里流暢變化的彈簧 , 你敢相信 , 這完全是用靜態(tài)圖像合成的嗎?
沒錯 , 這樣的動圖并非截自視頻 , 而是來自AI的合成大法 。
甚至只需手機隨手拍攝的十幾張2D照片 , 就能實時渲染生成 。
比起大名鼎鼎的谷歌前輩NeRF , 這只名為NeX的AI , 能直接把每秒渲染幀數(shù)從0.02幀提升到60幀 。
也就是說 , 渲染速度能提升3個數(shù)量級 。
細節(jié)之處 , 也更加接近真實效果 。
這項已經入選CVPR 2021 Oral的研究 , 是怎么做到的?
像素參數(shù)與基函數(shù)結合多平面圖像(MPI)視圖合成技術 , 使得不用3D建模 , 只用少數(shù)幾張圖像還原多視角逼真3D效果成為可能 。
不過 , 此前的MPI主要采用的是標準RBGα表示法 , 簡單說就是把圖像轉換成RGBα平面 , 以進行后續(xù)的計算 。
這樣做的局限性在于 , 其表示出的物體外觀僅與漫反射表面有關 , 與視角無關 。
這就極大地限制了MPI可以捕捉的物體和場景類型 。
為此 , 來自泰國科學技術研究所VISTEC的研究人員提出:將每個像素的參數(shù)轉化為基函數(shù)的系數(shù) , 進行線性組合 , 并以此創(chuàng)建與視圖相關的效果模型 。
就如上圖所示 , 多平面圖像中每個像素都由alpha透明值、基色k0和視圖相關的反射系數(shù)k1…kn組成 。
將這些系數(shù)和神經網(wǎng)絡預測的基函數(shù)進行線性組合 , 就產生了最終的顏色值 。
如此一來 , 像金屬勺子在不同視角下的反射效果這樣的信息 , 都能在合成圖像中顯示出來 。
具體到整個NeX的結構 , 對于輸入圖像 , 首先根據(jù)不同平面深度 , 對像素坐標(x , y)進行采樣 , 以構建出MPI中的每個像素 。
然后 , 把這個數(shù)據(jù)喂給多層感知機(MLP) , 得到alpha透明度 , 以及和視圖相關的基礎系數(shù)(k1 , k2 , … , kn) 。
這些系數(shù)再與顯式的k0一起 , 與另一個MLP預測的基函數(shù)相乘 , 生成RGB值 。
輸出圖像 , 如公式1所示 , 為所有平面復合運算的結果 。
而在細節(jié)效果的提升方面 , 研究人員人員發(fā)現(xiàn) , 通過比較渲染圖像和真實值之間的差距 , 對基色k0進行優(yōu)化 , 就可以得到很好的效果 , 顯著減輕網(wǎng)絡壓縮和細節(jié)重現(xiàn)的負擔 , 減少迭代次數(shù) 。
研究人員還補充說 , NeX可以被理解成是隱式輻射場函數(shù)的離散抽樣 。
至于實時渲染 , 論文指出 , NeX MPI中的每一個模型參數(shù)都可以轉換為圖像 。而給定預先計算好的圖像 , 就可以在OpenGL/WebGL的片段著色器中實現(xiàn)上述公式1 , 實現(xiàn)捕獲場景的實時渲染 。
實驗結果有NeRF珠玉在前 , NeX具體到數(shù)據(jù)上 , 到底有怎樣的提升?
在運行時間方面 , 輸入17張分辨率為1008×756的照片 , 批量大小為1的情況下 , 使用單個英偉達V100訓練 , NeX的耗時大概為18小時 。
使用WebGL , 此場景可以以每秒60幀的速度被渲染出來 。
以上關于本文的內容,僅作參考!溫馨提示:如遇健康、疾病相關的問題,請您及時就醫(yī)或請專業(yè)人士給予相關指導!
「愛刨根生活網(wǎng)」www.malaban59.cn小編還為您精選了以下內容,希望對您有所幫助:- 接到捧花真的就能脫單嗎
- 每天9.9元起就能用蘋果手機 9.9元買蘋果手機
- 新冠最新疫情實時動態(tài)全球 新冠疫情風險提示第271期
- 看充電器接口顏色就能辨認真假快充 充電器辨別真?zhèn)?
- 從星座就能看出來 從星座能看出什么
- 就能用手機剪映發(fā)高清視頻 手機剪映怎么做高清視頻
- 用手機就能當電腦攝像頭 用手機可以當電腦攝像頭
- 不忘初心就能活成最好的自己 不忘初心方得始終做最好的自己
- 用手機就能賺錢的游戲 用手機可以賺錢的游戲
- 有哪些可以發(fā)布視頻就能賺錢的視頻平臺 發(fā)布視頻哪個平臺賺錢
