Text-to-3D從文本到立體模型,OpenAI 發布Point-E用于3D建模
魔猴君 行業資訊 696天前
OpenAI 是Elon Musk 創立的人工智能,支持流行的 DALL-E 文本到圖像生成器。近日,OpenAI宣布發布其最新的圖片制作工具 POINT-E,可以直接從文本提示生成 3D點云。據了解,現有系統(如 Google 的 DreamFusion)通常需要數小時和 GPU 來生成圖像,而 Point-E 只需要一個 GPU 和一兩分鐘即可完成。
開放人工智能
3D建模已經被各種行業的發展采用,從零件、汽車、飛機、建筑設計到現代電影大片、視頻游戲、VR 和 AR 的 CGI 效果,再甚至到NASA 的月球隕石坑測繪任務、Google 的遺址保護項目以及 Meta 的 Metaverse 愿景都取決于 3D建模功能。
然而,創建逼真的3D圖像仍然是一個耗費資源和時間的過程, Text-to-3D 是該研究的一個分支。與類似系統不同,Point-E利用大量(文本、圖像)語料庫,使其能夠遵循多樣化和復雜的提示,為了根據文本提示生成3D對象,OpenAI 首先使用文本到圖像模型對圖像進行采樣,然后根據采樣圖像對3D對象進行采樣。這兩個步驟都可以在幾秒鐘內完成, 并且不需要昂貴的優化程序。
如果輸入文本提示,比如“一只貓在吃墨西哥卷餅”,Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖3D渲染。然后,通過一系列擴散模型運行生成的圖像,以創建初始圖像的 3D、RGB 點云,首先生成粗略的 1,024 點云模型,然后生成更精細的 4,096 點云模型。在實踐中,Point-E假設圖像包含來自文本的相關信息,并且沒有明確地限制文本上的點云。
這些擴散模型分別在“數百萬”個 3D 模型上進行訓練,所有模型都轉換為標準化格式。目前OpenAI 已在 Github 上發布了該項目的開源代碼。
人工智能與工業設計
雖然目前OpenAI 發布的Point-E針對性解決的問題是從文本到立體模型的轉化,還并沒有涉及到工業設計這樣深層次的建模。不過在3D科學谷看來,OpenAI 要顛覆的商業模式是將軟件的服務即銷售的SaaS模式變為模型即銷售的MaaS模式,那么下一步Point-E滲透到工業設計領域的人工智能建模或將指日可待。
在安世亞太張效軍老師的《人工智能如何改變工業設計?》一文分享過,相比制造和業務流程的數字化智能化,設計的智能化、自動化發展相對緩慢,在很多領域,采用CAD繪圖式的低效設計環節甚至成為整體產品開發或企業擴產能的瓶頸,眾多的設計人員也將為企業帶來較大成本支出。
根據《人工智能如何改變工業設計?》一文,智能算法驅動的設計完全是動態的,無論是滿足幾何關系約束的運動,還是像真實物理世界的物體在力的作用下產生的運動或變形,都可以在設計過程中實現,過程中任意狀態的幾何模型都可以輸出。在這種動態的智能設計過程中,仿真已經成為真正的驅動設計的工具,力可以直接用來塑造形狀,就像大自然一樣。
來源:3D科學谷