产业

OpenAI再开源3D模型,元宇宙加速到来

当地时间5月5日,OpenAI发布开源的“文本生成3D”模型Shap-E,公布了该模型的权重、推理代码和样本。

摘要

事件:当地时间5月5日,OpenAI发布开源的“文本生成3D”模型Shap-E,公布了该模型的权重、推理代码和样本。

自我更新,Shap-E同时支持纹理网格和NeRF两种类型3D表示,效果力压OpenAI另一开源3D模型。该模型的论文提出:1、与最近产生单一输出表示的  3D 生成模型不同,Shap-E 直接生成隐式函数的参数,这些参数可以呈现为纹理网格和神经辐射场(NeRF)。2、Shap-E的训练分成两个步骤:1)训练一个编码器,该编码器确定性地将 3D 资产映射到隐式函数的参数;2)在编码器的输出上训练条件扩散模型。3、当在包含成对的 3D 和文本数据的大型数据集上训练时,该模型能在几秒钟内生成复杂多样的 3D 资产。与OpenAI此前开源的点云上的显式生成模型 Point-E 相比,Shap-E 收敛速度更快,并且尽管对更高维的、多表示的输出空间建模,仍可达到相当或更好的样本质量。

大语言模型开源社区一日千里,Shap-E引领3D生成“圣杯”进入“Stable Diffusion时刻”。AIGC产业存在着“AI民主化”“AI平权”浪潮和浓厚的开源氛围。在AIGC的文字生成领域,自2023年2月24日Meta开源大语言模型(LLM)LLaMA以来,LLM的“Linux时刻”到来,Alpaca、GPT4All、Vicuna、Koala、OpenAssistant和Hugging Chat等多个基于LLaMA的LLM诞生,ChatGLM、Dolly2、RedPajama、StableLM和MOSS等LLM也陆续出现,开源LLM渐呈燎原之势。而在文生图领域,Stable Diffusion率先开源,与闭源的Midjourney难分伯仲。尽管OpenAI此次发布的Shap-E存在“对单个物体的理解能力较强,对物体的组合的理解能力较弱”“略显粗糙,细节缺失(如仙人掌的纹路)”,我们认为,Shap-E将吸引开发者不断提升AIGC的3D内容生产模型的速度和质量。

OpenAI、谷歌、英伟达引领AIGC 3D生成浪潮,营销、游戏、建筑、工业数字孪生等多场景受益,元宇宙加速到来。当前在“文本生成3D”赛道,Shap-E的主要竞争者包括谷歌DreamFusion和英伟达Magic3D。3月,英伟达宣布与设计工具Shutterstock合作训练“文本生成3D”模型,计划随后发布。Shutterstock 首席执行官 Paul Hennessy 表示这一合作将大大缩短从创建到发布具有精美纹理、结构化的 3D 模型的周期。显然,3D比2D更生动形象,接近物理世界,是更好的元宇宙形象载体。我们认为,AIGC作为生产力工具对3D生成内容的降本增效,将深刻推动产业变革,给用户更真切的视觉体验,促成元宇宙的加速到来。

投资建议:1、算力:算力是AIGC蓬勃发展的基石,我们看好光通信及边缘算力,建议关注新易盛、中际旭创、天孚通信、太辰光、德科立、锐捷网络、寒武纪、美格智能、紫光股份、中兴通讯等;2、模型层:建议关注国内外大模型的边际变化,包括昆仑万维、三六零、科大讯飞等;3、应用层:我们看好游戏的迭代创新,包括恺英网络、神州泰岳、盛天网络、游族网络等;4、数据层:监管将是贯穿AIGC发展的挑战,看好中国移动、中国电信、中国联通、浩瀚深度、新华网、人民网等。

风险提示:伦理风险:人工智能与人交互过程中,可能出现伦理风险。市场竞争风险:开源大模型的发展一日千里,对商业公司而言,是机遇也是挑战。政策法律监管风险:随着相关法律的逐步完善,或出现法律监管的问题,例如在个人数据保护和知识产权保护方面出现大量纠纷。

1000 (39)

本文节选自国盛证券研究所已于2023年5月7日发布的报告《OpenAI再开源3D模型,元宇宙加速到来》,具体内容请详见相关报告。

关键词

24快报
JSON抓取失败