2023年,估計沒有比「AIGC」更熱的話題了。
一款叫ChatGPT的聊天機器人程序在全網(wǎng)爆火,迭代速度更是呈指數(shù)級發(fā)展,由此引發(fā)了全球?qū)τ?AIGC技術(shù)及其話題的熱議。此后,多個科技巨頭持續(xù)加碼布局,AI繪畫、AI語音智能生成等AIGC產(chǎn)品集中發(fā)布,可以預(yù)見的是,數(shù)字內(nèi)容產(chǎn)業(yè)的技術(shù)革命已近在眼前,未來內(nèi)容領(lǐng)域的作業(yè)模式將進一步向“工業(yè)化”時代邁進。面對數(shù)字世界和物理世界加速融合帶來的海量數(shù)字內(nèi)容需求,AIGC作為一種新型的內(nèi)容生產(chǎn)方式,將為內(nèi)容生產(chǎn)領(lǐng)域帶來巨大變革。
數(shù)字內(nèi)容產(chǎn)業(yè)又稱內(nèi)容產(chǎn)業(yè)、信息內(nèi)容產(chǎn)業(yè)、文化創(chuàng)意產(chǎn)業(yè),該產(chǎn)業(yè)是信息技術(shù)與文化創(chuàng)意高度融合的產(chǎn)業(yè)形態(tài),并非傳統(tǒng)意義上的獨立產(chǎn)業(yè),而是由多個細分領(lǐng)域交叉融合而成的一個龐大產(chǎn)業(yè)集群。這些細分領(lǐng)域雖然邊界模糊,領(lǐng)域之間存在交叉滲透,但其共同點都是以數(shù)字內(nèi)容為核心,涵蓋了文字、圖片、聲音、視頻、可交互的圖形圖像等多種載體形式。綜合來看,數(shù)字內(nèi)容產(chǎn)業(yè)既是科技與文化融合的未來產(chǎn)業(yè),也是接地氣、聚人氣的“溫度”產(chǎn)業(yè),還是生生不息、引領(lǐng)潮流的“新潮”產(chǎn)業(yè),具有巨大的產(chǎn)業(yè)爆發(fā)力和社會影響力。
近年來,隨著數(shù)字經(jīng)濟的蓬勃發(fā)展,以數(shù)字技術(shù)為載體的內(nèi)容產(chǎn)業(yè)高速增長,創(chuàng)造出了巨大的經(jīng)濟社會價值,逐漸成為當今社會發(fā)展中的重要產(chǎn)業(yè)之一。據(jù)Research and Markets預(yù)測,2020—2024年,全球數(shù)字內(nèi)容市場將增長5198.3億美元(約35855.27億元),其間年復(fù)合增長率達15%。同時,各行業(yè)數(shù)字內(nèi)容消費需求的井噴式增長,推動了創(chuàng)作者經(jīng)濟的蓬勃發(fā)展,過去兩年,超過1.65億創(chuàng)作者加入了創(chuàng)作者經(jīng)濟,目前全球的創(chuàng)作者數(shù)量達到3.03億,數(shù)字內(nèi)容產(chǎn)業(yè)迎來巨大的市場空間。
隨著數(shù)字經(jīng)濟與實體經(jīng)濟融合程度不斷加深,人類對于數(shù)字內(nèi)容總量和形式的要求不斷提高,各行業(yè)衍生了海量數(shù)字內(nèi)容需求,并且內(nèi)容的形態(tài)著朝向三維化、交互化、沉浸式演進。
縱觀整個數(shù)字內(nèi)容生產(chǎn)方式的發(fā)展歷程,內(nèi)容消耗與供給的缺口是生產(chǎn)方式演進的直接動因。從Web1.0時代的PGC到Web2.0時代的UGC,當前,內(nèi)容生產(chǎn)方式正朝向PGC、UGC、AIGC“人-機”協(xié)同生產(chǎn)進化。
Web1.0時代: PGC(專業(yè)生成內(nèi)容)為主,以平臺創(chuàng)造、平臺所有為主要特征,內(nèi)容質(zhì)量高,但受制于專業(yè)人力資源的供給側(cè)限制,創(chuàng)作門檻高、生產(chǎn)周期長、制作成本高、內(nèi)容傳播具有單向性,難以滿足大規(guī)模內(nèi)容需求。
Web2.0時代:UGC(用戶生成內(nèi)容)為主,雖然降低了生產(chǎn)成本及中心化程度,內(nèi)容豐富性提升,在一定程度上解決PGC產(chǎn)能瓶頸,但內(nèi)容質(zhì)量難以保證,內(nèi)容傳播仍以單向性為主,優(yōu)質(zhì)內(nèi)容存在巨大供需缺口。
Web3.0時代:PGC、UGC、AIGC“人-機”協(xié)同生產(chǎn)。在數(shù)字經(jīng)濟及元宇宙時代, PGC、UGC的生產(chǎn)方式難以滿足井噴式的數(shù)字內(nèi)容需求。同時,隨著虛擬現(xiàn)實、增強現(xiàn)實、數(shù)字孿生等新形態(tài)內(nèi)容生產(chǎn)及消費需求激增,傳播轉(zhuǎn)向雙向互動,內(nèi)容的創(chuàng)作門檻和成本顯著增高。AIGC基于人工智能技術(shù)生成內(nèi)容, 能夠兼顧內(nèi)容產(chǎn)能和質(zhì)量,同時還可以定制風(fēng)格,滿足個性化需求,三種創(chuàng)作方式協(xié)同生產(chǎn),有助于彌合優(yōu)質(zhì)數(shù)字內(nèi)容供需鴻溝,打造新的數(shù)字內(nèi)容生成和交互形態(tài)。
受內(nèi)容需求牽引,當前,AIGC已經(jīng)從概念走向現(xiàn)實,在文本生成、繪畫生成、音樂生成等方面有大量應(yīng)用問世。例如,在文本生成方面,Jasper 以“AI 文字生成”為主打產(chǎn)品,用戶可以基于其輕松生成 Instagram 標題,完成編寫 TikTok 視頻腳本、廣告營銷文本、電子郵件內(nèi)容等略復(fù)雜的重復(fù)性工作;在繪畫生成方面,借助AI繪圖工具Midjourney完成的《太空歌劇院》畫作在美國科羅拉多州博覽會藝術(shù)比賽中獲得一等獎;在音樂生成方面,索尼計算機科學(xué)實驗室(CSL)發(fā)布的AI輔助音樂制作應(yīng)用程序Flow Machines Mobile,利用AI技術(shù)輔助音樂制作,能夠根據(jù)創(chuàng)作者選擇的風(fēng)格提示旋律、和弦和貝斯線生成音樂。
數(shù)字內(nèi)容產(chǎn)業(yè)是最典型的技術(shù)密集、知識密集產(chǎn)業(yè),也是一種勞動密集型產(chǎn)業(yè)。AIGC主要以技術(shù)嵌入工具軟件的方式幫助數(shù)字內(nèi)容產(chǎn)業(yè)大大提升生產(chǎn)效率,通過強大的AI生成能力廣泛服務(wù)內(nèi)容生產(chǎn)的各類場景和內(nèi)容生產(chǎn)者,將在內(nèi)容生產(chǎn)中產(chǎn)生變革性影響。
從市場規(guī)模來看,AIGC目前處于落地初期,但已經(jīng)顯現(xiàn)出巨大的市場發(fā)展?jié)摿?,未來將進一步釋放其價值。據(jù)Gartner預(yù)測,在未來2-5年內(nèi),生成式AI將實現(xiàn)規(guī)?;瘧?yīng)用;到2025年,AI生成數(shù)據(jù)占比將達到10%。此外,據(jù)紅杉資本《Generative AI:A Creative New World》分析,AIGC有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。
從內(nèi)容模態(tài)來看,最初,AIGC可生成的內(nèi)容形式以文字為主。但經(jīng)過2022年指數(shù)級的發(fā)展增速,AIGC技術(shù)可生成的內(nèi)容形式已經(jīng)拓展到了包括文字、代碼、圖片、聲音、視頻等多種內(nèi)容形式。但是結(jié)合產(chǎn)業(yè)實際,如AIGC想要在制造業(yè)、建筑業(yè)、醫(yī)療等巨型垂直實體領(lǐng)域中得到廣泛應(yīng)用,其生產(chǎn)的內(nèi)容就不能僅停留在圖片和文字領(lǐng)域,而是需要進入信息更為豐富的3D內(nèi)容生產(chǎn)領(lǐng)域,多模態(tài)3D內(nèi)容生產(chǎn)是大勢所趨。例如,在醫(yī)療領(lǐng)域,3D內(nèi)容能夠清晰的展示出真實器官的內(nèi)部復(fù)雜結(jié)構(gòu),幫助醫(yī)生更直觀、更深入地了解病灶與周圍組織的空間位置關(guān)系,還可以根據(jù)需求進行交互操作,拆解展示組織、器官、肌肉或骨骼的細節(jié),有效降低診療及人才培育的試錯成本。
從發(fā)展階段來看,紅杉資本曾在2022年9月對 AIGC 做出了以下預(yù)測:文字類 AI 生成將在 2023 年進入黃金時期,圖片類 AI 生成黃金時期將在 2025 年左右抵達,3D 和視頻類 AI 生成在 2023 年可能正處于草稿階段,進入黃金時期或許在 2030 年。不可否認,文字與圖片的 AI 生成確實走在了前面,但 3D 數(shù)字內(nèi)容生成作為未來趨勢,也已經(jīng)開始有廠商進行探索。
事實上3D內(nèi)容以其獨一無二的優(yōu)勢長期存在于數(shù)字內(nèi)容世界,3D?視覺是人類的本能,3D數(shù)字內(nèi)容所攜帶的光、影、材質(zhì)、幾何等多維度信息,能夠帶來遠超2D內(nèi)容的感官體驗和交互體驗,3D內(nèi)容在展現(xiàn)事物結(jié)構(gòu)、人機交互等多種領(lǐng)域表現(xiàn)極其出色,越是復(fù)雜多維的領(lǐng)域,它相較于其他形式的內(nèi)容,就表現(xiàn)的越好,未來如果要生成可以精準表達設(shè)計的成果,需要向3D和更高信息維度去邁進。
盡管用戶對于3D內(nèi)容的需求從未改變,只是因其生產(chǎn)效率低下和展示終端的限制緣故,3D內(nèi)容一直未能像2D內(nèi)容那樣被大規(guī)模應(yīng)用。不是內(nèi)容生產(chǎn)者不想使用3D內(nèi)容,而是當下3D內(nèi)容生產(chǎn)面臨技術(shù)門檻高、生產(chǎn)周期長和成本高等問題,生產(chǎn)的質(zhì)量和效率亟待提升。
隨著數(shù)字經(jīng)濟的不斷發(fā)展及技術(shù)的不斷演進, 3D數(shù)字內(nèi)容將迎來增長拐點。據(jù)頭豹研究院數(shù)據(jù)顯示,預(yù)計2025年VR內(nèi)容市場規(guī)模將達到832.7億元。根據(jù)調(diào)研機構(gòu)MarketsandMarkets預(yù)測,預(yù)計2027年全球數(shù)字孿生市場規(guī)模將增長到735億美元。未來5年,僅這兩個關(guān)聯(lián)市場的內(nèi)容需求量就已十分驚人。急速上升的3D數(shù)字內(nèi)容需求,唯有通過生產(chǎn)力的躍升才能得以滿足,我們堅信AIGC將會為3D內(nèi)容生產(chǎn)大規(guī)模解放生產(chǎn)力,而且未來也定會成為元宇宙內(nèi)容基建的最好助手。接下來,AIGC需要重點攻破的就是視頻與實時3D內(nèi)容了。
3D AIGC的技術(shù)支撐是“AI”,生成的AIGC屬于“內(nèi)容與場景”,背后還需要“后端基建(算力)”、“底層架構(gòu)(渲染引擎)”的支撐。
技術(shù)的進步離不開業(yè)內(nèi)企業(yè)的積極推動,一些優(yōu)秀公司在這方面的探索已經(jīng)悄然走在了世界前列,具備了很多的底層技術(shù)基礎(chǔ)、場景基礎(chǔ)和數(shù)據(jù)基礎(chǔ)。
在算力方面,隨著生成式AI應(yīng)用創(chuàng)新周期的到來,以微軟、谷歌為代表的科技巨頭拉開了大模型訓(xùn)練的序幕,算力需求迎來確定性爆發(fā)增長。據(jù)業(yè)內(nèi)人士分析,ChatGPT需要TB級的運算訓(xùn)練庫,甚至是P-Flops級的算力。半導(dǎo)體行業(yè)資訊機構(gòu)SemiAnalysis估算,以GPU衡量,ChatGPT訓(xùn)練需要約3617臺英偉達HGX A100服務(wù)器,也就是28936塊A100。不同形態(tài)內(nèi)容智能生產(chǎn)中模型訓(xùn)練面臨的任務(wù)復(fù)雜度有所不同,那么未來3D AIGC勢必帶來更高體量的算力需求。在2022年英偉達GTC大會上,黃仁勛多次提及“下一個時代的AI”,并且推出采用Hopper架構(gòu)的新一代加速計算平臺,同時發(fā)布了首款基于Hopper架構(gòu)的的NVIDIA H100 Tensor Core GPU,展現(xiàn)出英偉達對于算力的領(lǐng)先布局。
該GPU結(jié)合 NVIDIA® NVLink® Switch 系統(tǒng),可連接多達 256 個 H100 來加速百億億級 (Exascale) 工作負載,另外可通過專用的 Transformer 引擎來處理萬億參數(shù)語言模型,進一步拉大了與追趕者的差距。此外,英偉達已經(jīng)推出了AI云服務(wù)產(chǎn)品,允許客戶在云端訪問其DGX AI超級計算機。從其商業(yè)動作來看,英偉達全面聚焦AI算力產(chǎn)業(yè)革命, 從2016年前后的GPU并行計算架構(gòu),到如今完成硬件、軟件、平臺、應(yīng)用層的全面部署,英偉達押注AI多年獲得豐厚回報,其市值在2023年初兩個月內(nèi)增長超過 2100 億美元。隨著3D AIGC的發(fā)展,其市場潛力將得到進一步釋放。
除算力外,渲染引擎也是支撐3D AIGC發(fā)展的關(guān)鍵技術(shù)。數(shù)字內(nèi)容生產(chǎn)軟件是圖形、圖像、交互等領(lǐng)域復(fù)雜知識的代碼化沉淀,其底層算法引擎技術(shù)積累需要非常長的時間,這是一個進入壁壘很高、對開發(fā)周期、資金要求很高的高科技賽道,不僅開發(fā)難,驗證和跑通也很難,只是做一個 Demo,并不能證明一款引擎的能力和通用特性,需要經(jīng)過很長時間的驗證和算法優(yōu)化。
值得一提的是,國內(nèi)一家名為艾迪普的公司,在這方面已經(jīng)擁有了深厚的技術(shù)儲備,并且已經(jīng)開始在3D AIGC領(lǐng)域進行深度布局,持續(xù)圍繞實時三維圖形圖像領(lǐng)域進行AI技術(shù)研發(fā)和探索。
目前,艾迪普已經(jīng)研發(fā)出完全自主知識產(chǎn)權(quán)的實時三維圖形圖像引擎、數(shù)字內(nèi)容生產(chǎn)全鏈路工具集和3D數(shù)字資產(chǎn)云平臺,能夠很好的滿足從三維設(shè)計、快編包裝、虛擬合成、實時交互到可視化呈現(xiàn)的數(shù)字內(nèi)容多樣化的制作需求,可以廣泛的應(yīng)用于虛擬現(xiàn)實、增強現(xiàn)實、虛擬仿真、數(shù)字孿生、大數(shù)據(jù)可視化等領(lǐng)域。
圖片來源于《2023·愛分析元宇宙廠商全景報告》
艾迪普通過將自研引擎的核心能力進行封裝,針對不同行業(yè)領(lǐng)域、應(yīng)用場景及應(yīng)用開發(fā)需求,抽取了2000+算法模組,這些基礎(chǔ)功能的算法模組,可以結(jié)合不同行業(yè)客戶的業(yè)務(wù)應(yīng)用場景,像“搭積木”一樣高效組合成更多的AI應(yīng)用,實現(xiàn)智能化的數(shù)字內(nèi)容生產(chǎn)。據(jù)悉,其已經(jīng)在旗下自研的數(shù)字內(nèi)容生產(chǎn)工具中引入AIGC技術(shù),實現(xiàn)了AI數(shù)字人融合、天氣預(yù)報視頻智能生成、2D轉(zhuǎn)3D、音樂卡點等功能,并通過無代碼編程方式快速創(chuàng)作出交互式的3D內(nèi)容,這將大大推動3D內(nèi)容生產(chǎn)朝著更高效和更富創(chuàng)造力的方向發(fā)展。
數(shù)字人視頻:其推出的iClip實時三維圖形快編包裝工具基于深度學(xué)習(xí)、自然語言處理、計算機圖形學(xué)、語音合成、圖像合成、肢體動作合成等技術(shù),能夠快速生成形象逼真、能說會動的3D數(shù)字人創(chuàng)意短視頻。同時,通過3D數(shù)字人與數(shù)字場景、三維模型、圖文動畫、動態(tài)特效進行深度融合,能夠極大增強數(shù)字人在不同應(yīng)用場景中對客戶進行內(nèi)容、產(chǎn)品的服務(wù)能力,適配資訊播報、電商帶貨、賽事解說、泛知識講解等多元場景應(yīng)用需求。
氣象播報視頻:其研發(fā)的氣象短視頻生成工具作則能夠?qū)崟r接入外部天氣數(shù)據(jù),結(jié)合數(shù)字人形象,用戶只需通過簡單技術(shù)指令,即可一鍵自動生成不同城市、不同天氣狀況、不同虛擬場景、不同AR前景、不同數(shù)字人角色的3D氣象高質(zhì)量播報視頻,可以大幅降低新形態(tài)播報內(nèi)容的制作周期和成本。
氣象播報視頻,圖片來源于艾迪普公開信息
2D轉(zhuǎn)3D:傳統(tǒng)的3D模型制作需要經(jīng)過原畫、建模、UV拆分、烘焙貼圖、繪制材質(zhì)、渲染等多個環(huán)節(jié),艾迪普的iArtist實時三維可視化創(chuàng)作工具基于智能算法,在2D圖像輸入時自動進行深度預(yù)估和幾何捕捉,實現(xiàn)?2D?平面內(nèi)容到?3D?立體模型的實時智能化生成,模型生成后,創(chuàng)作者可以根據(jù)需求,在工具中對模型進行自由編輯和精細調(diào)整,能夠極大減少建模所需時間。
音樂卡點:艾迪普的iClip實時三維圖形快編包裝工具,還可以基于算法構(gòu)建音樂分析模型,通過波形分析自動標記音頻節(jié)奏點。未來,該功能有望基于多模態(tài)訓(xùn)練框架,結(jié)合數(shù)字圖形資產(chǎn)云平臺,實現(xiàn)音頻、圖片、視頻之間的跨模態(tài)內(nèi)容檢索、精確匹配和自動生成,大幅提高視頻創(chuàng)作效率。
社會又一次來到了新的發(fā)展節(jié)點,轉(zhuǎn)型窗口期已經(jīng)悄然開啟。每一輪產(chǎn)業(yè)和技術(shù)升級,必定會出現(xiàn)一系列全新的“現(xiàn)象級應(yīng)用”。雖然目前AIGC還處于發(fā)展初期,但隨著人工智能技術(shù)的持續(xù)發(fā)展,數(shù)字內(nèi)容生產(chǎn)力將進一步得到釋放,融合文字、圖片、音頻、視頻、虛擬場景、3D模型等多模態(tài)的數(shù)字內(nèi)容生產(chǎn)終將成為現(xiàn)實,我們的工作與生活場景,也將迎來顛覆性的改變,我們共同期待這一天的早日到來。
文章轉(zhuǎn)載自量子位