英特爾實驗室推出AI擴散模型從文字提示產生360度影像

英特爾實驗室與Blockade Labs合作推出Latent Diffusion Model for 3D（LDM3D），這是一款新穎的擴散模型，使用生成式AI創造栩栩如生的3D視覺內容。LDM3D是業界首款使用擴散過程產生深度圖的模型，建立可360度觀看的生動、沉浸式3D影像。從娛樂、遊戲再到建築、設計等方面，LDM3D具備為內容創作、元宇宙應用和數位體驗帶來革命性變化的潛力。

「生成式AI技術可以進一步擴大和提升人類的創造力並節省寶貴的時間。然而，今日絕大多數的生成式AI模型均侷限在產生2D影像，僅有極少數能夠從文字提示中產生3D影像。與目前潛在擴散模型（latent diffusion model）不同的是，LDM3D使用參數數量幾乎相同的模型，從給定的文字提示中產生影像和深度圖。相較於標準深度估測後處理法，可為影像中每個像素提供更準確的相對深度，為開發者節省建構場景所耗費的大量時間。」

–Vasudev Lal，英特爾實驗室AI∕ML研究科學家

封閉的生態系僅具備有限的規模，而英特爾真正落實AI民主化的承諾，未來將透過開放式生態系讓人們更廣泛地運用AI優勢。近年來在電腦視覺領域，特別是生成式AI取得顯著進展。然而，今日許多先進的生成式AI模型僅限於產生2D影像。與通常僅能從文字提示中產生2D RGB影像的現有擴散模型不同，LDM3D讓使用者能夠從給定的文字提示中同時產生影像和深度圖。LDM3D在使用與潛在擴散模型幾乎相同的參數數量情況下，相較標準的深度估測後處理法，為每個像素提供更為精確的相對深度。

這項研究可能徹底改變人們與數位內容的互動方式，使用者能夠以過往想像不到的方式去體驗他們的文字提示。LDM3D所產生的影像和深度圖，讓使用者能夠把靜謐的熱帶海灘、科幻宇宙中的未來世界，透過文字敘述轉換成精細的360度全景圖。這種捕捉深度資訊的能力可以立即強化整體的真實感和沉浸感，為娛樂、遊戲、室內設計、房地產銷售，以及虛擬博物館和沉浸式虛擬實境（VR）體驗等各式各樣的行業開啟創新應用。

6月20日，LDM3D在電腦視覺與圖型辨識會議（CVPR）的3DMV工作坊上獲得最佳海報獎（Best Poster Award）。

LDM3D是由LAION-400M資料庫中的10,000個樣本進行訓練，該資料庫內含超過4億個影像與文字標註。該團隊使用Dense Prediction Transformer（DPT）大型深度估測模型（先前由英特爾實驗室所開發）對訓練語料庫進行標註。DPT大型模型為影像中的每個像素提供高度精確的相對深度。LAION-400M資料集專為研究目的而打造，讓廣大的研究人員和其它有興趣的社群，以更大的規模進行模型訓練測試。LDM3D模型在搭載Intel® Xeon®處理器和Intel® Habana Gaudi® AI加速器的英特爾AI超級電腦上進行訓練。生成的模型和流程結合產生的RGB影像和深度圖，可以產生360度視角，帶來沉浸式體驗。

為證明LDM3D的潛力，英特爾和Blockade的研究人員開發出一款利用標準2D RGB照片和深度圖來創造沉浸式、可互動360度視角體驗的應用程式－DepthFusion。DepthFusion使用以節點為基礎的可視化程式設計語言TouchDesigner，該語言應用於即時互動多媒體內容，能將文字提示轉換為可互動和沉浸式的數位體驗。LDM3D模型為可同時建立RGB影像及其深度圖的單一模型，可節省記憶體耗用量並改善延遲。

LDM3D和DepthFusion的推出，為多視角生成式AI和電腦視覺的進一步發展鋪路。英特爾將繼續探索運用生成式AI來擴大人類的能力，並建立強大的開放原始碼AI研發生態系，讓這項技術的使用更加民主化。英特爾持續大力支持AI開放式生態系，目前正透過HuggingFace進行LDM3D開源工作，將讓AI研究人員和從業人員能夠進一步改善系統，並為客製化應用進行微調。

更多內容：英特爾的研究已於6月18日至22日的IEEE/CVF CVPR上發表。更多資訊請參閱「LDM3D: Latent Diffusion Model for 3D」或觀賞LDM3D展示。

選擇您的語言

使用 Intel.com 搜尋功能

快速連結

最近的搜尋

進階搜尋

僅在以下條件搜尋：

英特爾實驗室推出AI擴散模型從文字提示產生360度影像

新聞

關注社群媒體的 Intel 新聞室：

標籤

使用 Intel.com 搜尋功能

快速連結

最近的搜尋

進階搜尋

僅在以下條件搜尋：

英特爾實驗室推出AI擴散模型 從文字提示產生360度影像

新聞

關注社群媒體的 Intel 新聞室：

標籤

英特爾實驗室推出AI擴散模型從文字提示產生360度影像