-
日期: 2025-12-29 | 來源: 深網 | 有0人參與評論 | 字體: 小 中 大

毋庸置疑,1997年的宋亞宸是AI應用領域非典型性創業者。在大模型創始人普遍擁有耀眼技術背景的當下,他文科出身,曾聯合創立了MiniMax。
宋亞宸選擇將創業方向押注在AI 3D大模型上,於2023年創立VAST。他堅信,AI 3D時代的大眾級創作與設計工具,能夠讓每個人以幾乎零門檻、零成本、即時完成3D創作。隨著AI硬件與相關基礎設施逐步成熟,信息終將回歸其叁維的本真形態,並由此孕育出壹個“3D版的TikTok”。
據《福布斯》報道:截至2025年8月,VAST年經常性收入(ARR)已突破1200萬美元,在擁有超650萬專業用戶(85%位於海外)的同時,全職員工總數不足百人。
12月29日,VAST的Tripo Studio 1.0上線。如果說Tripo大模型是“大腦”,負責生成,那麼Studio就是“手”。它試圖重構傳統的3D制作管線,將以往需要專業團隊耗時數周的建模、綁骨、貼圖工序縮短至分鍾級。
宋亞宸希望通過這款產品,讓專業設計師從80%的機械勞作中解脫,去回歸那20%的創意本身。
2025年底,《深網》在VAST北京辦公室見到了宋亞宸。這位“非典型”創業者、“小怪獸”CEO,將向我們揭示,他如何規劃那條通往“3D版TikTok”的現實路徑。
以下是對談整理,經節選與編輯:
3D:是“小眾工具”,還是信息的“源文件”
深網:不少C端用戶對“3D”還比較陌生,更不用說“AI 3D”。能否介紹壹下VAST究竟在做什麼?
宋亞宸:我們專注於AI 3D大模型的研發。它的核心是“多模態生成”,就像壹個精通多國語言的翻譯官。用戶只需輸入壹段文字描述或上傳壹張圖片,模型就能直接“翻譯”出立體的、可交互的3D內容。這意味著,即使毫無建模經驗,任何人都能通過壹句話或壹張圖,構建出真實的叁維模型。
深網:當初為什麼選擇AI 3D這個相對硬核的賽道,而不是更熱門的大語言模型?
宋亞宸:因為我們看到了它被長期低估、但潛在規模遠大於現有媒介的市場空間。傳統的文學、電影,本質上都是以觀看為核心的媒介,用戶更多是旁觀者,市場規模也相對穩定。游戲是壹個很好的參照。它同樣是數字內容,但通過交互機制,讓用戶真正參與進來,已經支撐起壹個約2600億美元的全球市場。從這個意義上說,游戲可以被看作是目前最成熟、也最成功的壹類3D可交互內容形態。當3D內容的生成和使用門檻被進壹步降低後,它會從游戲這壹單壹場景,擴展到更多領域。所以我們判斷,AI 3D可交互內容最終支撐起壹個接近30000億美元且仍在高速增長的市場。
深網:但對比抖音、小紅書這類成熟的UGC平台,3D內容的體量似乎還很小?
宋亞宸:這正是我們的機會所在。歷史證明,當壹種內容載體出現“革命性”的創新工具,讓大眾都能參與創作時,其市場規模將是原有精英市場的5到10倍。微博之於詩歌,抖音之於電影,都是如此。3D之所以小眾,是因為壹直缺乏讓普通人也能上手的“超級工具”。我們的核心商業邏輯,就是打造這個工具,催生出壹個萬億美金級別的、可交互的3D UGC內容平台。
深網:但3D內容需要用戶主動交互,這比被動地“刷”短視頻累得多。這種高交互成本,是否會限制它的用戶規模?
宋亞宸:人類的需求是復雜立體的,絕非只有“懶惰”這壹面。如果只追求省力,那最火的運動應該是下棋,而不是籃球、足球。關鍵在於,你提供的體驗是否足夠獨特和吸引人。B站的彈幕、抖音的評論,都證明了人們願意為高質量的互動體驗付出精力。只要3D體驗足夠好,交互本身就會成為魅力,而非負擔。
深網:除了商業潛力,從更根本的技術演進角度看,你如何定義3D這種媒介形式?
宋亞宸:我認為,3D才是信息的“源文件”,而文字、圖片、視頻都只是受技術所限的“壓縮格式”。在人類文明出現前的幾拾億年裡,物理世界本身就是叁維的。我們發明各種低維媒介,是因為過去的“傳輸帶寬”不夠。隨著技術發展,信息載體必將“返璞歸真”。如果未來真的存在AGI(通用人工智能),它理應基於最原始、最真實的3D“源文件”進行訓練,而不是基於人類發明的壓縮格式。因此,3D是通往終極通用的必經之路。
從“大腦”到“雙手”:如何打造AI原生的3D工作流
深網:VAST先發布了3D大模型Tripo,現在又推出了工作台Tripo Studio 1.0。你如何規劃“大腦”和“手”的關系?
宋亞宸:早期行業普遍是“模型即產品”,就像ChatGPT,給你壹個對話框生成結果。但我們很快意識到,用戶需要的不是壹個孤立的3D文件,而是端到端的完整工作流。因此,我們“勇敢”地發布了Tripo Studio,試圖重構3D內容的生產管線。最初的版本有成功的創新,也有不符合實際需求的功能。經過半年與用戶的深度磨合,Tripo Studio1.0版本是我們交出的新答卷。
深網:Tripo Studio 1.0最大的升級是什麼?
宋亞宸:主要在兩方面。第壹,交互體驗的融合。我們思考了AI原生工作流該有的樣子,既保留了專業用戶熟悉的操作習慣,不讓它變得“反人類”,又深度融合AI能力來降低門檻。第贰,大幅降低上手曲線。我們不再假設用戶都懂3D“黑話”,優化了引導,讓新手也能邊做邊學,無需啃說明書。在此基礎上,從輸入到生成壹個完整、可直接使用的3D模型的整體效率提升約300%,制作流程也因此變得更順暢、更穩定。
深網:“大腦”Tripo模型本身有哪些進化?
宋亞宸:模型能力全面升級:幾何模型(高模)到3.0版,細節更精細、表面更平整;貼圖材質到3.0版,色彩更准確;為實時渲染優化的低模到2.0版,能快速生成高質量網格。這保證了從生成到使用的鏈條都更高效。
深網:你曾把AI 3D的發展比作手機攝像頭的進化。按從360P到4K的標尺,你們現在處在什麼階段?
宋亞宸:這取決於用戶群體。對於大眾消費和3D打印愛好者,我們的生成質量已達到“驚艷”的領先水平。但對於航天器螺絲釘級別的工業精度要求,目前還遠遠不夠。AI 3D作為大眾創作工具的價值正在爆發,但走向全面工業化應用還有長路要走。
深網:AI 3D領域是否存在類似大語言模型的“幻覺”問題?
宋亞宸:這是兩回事。3D生成是壹個確定性極強的轉換過程:輸入壹張紅色物體的圖,就必須輸出紅色的3D模型。如果輸出綠色,那叫Bug,不叫幻覺。我們面對的挑戰更多是“角落案例”,比如處理透明物體或復雜光影,這些是技術難題,而非模型“胡編亂造”。Tripo的產出是高度穩定和可控的。
深網:你曾將產品願景對標AI編程助手Cursor。但3D創作流程比寫代碼更復雜,如何讓它真正嵌入工作流?
宋亞宸:Cursor是方向。文字、視頻領域能直接做“模型即產品”,是因為已有成熟的UGC平台來承載創作結果,立刻產生價值。但3D缺乏這樣的“TikTok”。因此,我們必須先從工具切入,為專業和准專業人群提供壹套像Cursor壹樣完整的工程化流程,讓創作結果能在現有工作場景中產生價值。這是當前最務實的路徑。
深網:目前產品更偏向專業人士,這與“讓每個人都能創作”的願景是否矛盾?
宋亞宸:不矛盾,這是分階段實現的策略。Tripo Studio是為“專業效率”打造的復雜工具。同時,我們還有壹款處於保密階段、即將發布的產品,它專門面向“小白”用戶,將以極其簡單直觀的方式,讓普通人瞬間體驗3D創作的樂趣。從專業到大眾是逐漸泛化的過程。
成為“TikTok”:如何在巨頭的視野盲區裡成長
深網:這個領域大廠也已關注。你覺得你們的時間窗口長嗎?
宋亞宸:時間窗口不是“藏”出來的,是靠持續創新跑出來的。當行業對3D大模型尚無認知時,我們憑“先相信”獲得了技術領先。當巨頭看懂模型並開始追趕時,我們已定義了Tripo Studio這套新工作流。等大家看懂Studio,我們已在布局面向大眾的UGC產品了。生意場的領先,在於不斷勇敢定義下壹件別人還沒完全看懂的事。
深網:如果大廠進入這個領域,你們的護城河是什麼?
宋亞宸:這取決於“全力”的程度。如果真有大廠CEO明天告訴我,他放棄主營業務,砸兩千億All-in AI 3D,那我肯定洗洗睡了(笑)。但現實中,大廠的決策邏輯並非如此。你看泡泡瑪特或米哈游,大廠有資源,但能輕易幹掉它們嗎?很難。很多時候,真正的機會存在於大多數人“看不見”或“看不上”的認知縫隙裡。即便我告訴大家“3D版抖音”的願景,許多人當下也不會相信。這就是我們的護城河。
深網:據說你們銷售團隊只有兩人?為什麼?
宋亞宸:我們的理念是,當技術和產品足夠領先時,對銷售的依賴會減弱。銷售主要做兩件事:讓世界知道你;在產品同質化時靠關系取勝。目前,我們選擇讓產品力本身說話,對技術領先度有足夠信心。這是營收增長的核心驅動力。
深網:國內市場潛力巨大,但你們的客戶85%在海外。為什麼?
宋亞宸:國內3D產業(游戲、動畫、電商等)非常蓬勃,但核心問題是,企業對SaaS軟件的付費意願和習慣仍在培養中。這是許多科技企業選擇出海的核心原因之壹。不過,對於C端大眾市場,情況反而樂觀。只要產品能激發創作熱情,這個市場的潛力是巨大的。
深網:你提到過“3D版TikTok”的願景,這聽起來是壹個非常宏大的未來,你預判它什麼時候會到來?
宋亞宸:“3D版TikTok”只是壹個更好理解的說法,本質上它是壹個承載海量可交互3D內容的平台。當每個人都能通過手機和AI工具低門檻地參與創作時,這種平台壹定會誕生。至於具體時間,我覺得會比大家想象中快不少。雖然很難准確預判是5年還是10年,但壹旦技術和認知的臨界點到了,它的爆發速度會非常驚人。- 新聞來源於其它媒體,內容不代表本站立場!
-
原文鏈接
原文鏈接:
目前還沒有人發表評論, 大家都在期待您的高見