企业

中科深智:端到端虚拟人全流程服务

对于公司未来,他表示,“现阶段公司是解决一个人的动作生成,我们可以用声音去生成,也可以用传感器信号去生成。接下来,我们要解决两人和多人交互的动作表情生成。3至5年后,就除了人以外,我们还涉及到跟物品的交互、跟场景的交互。”

中科深智创始人兼CEO成维忠

  “我们团队既要扎扎实实的立足于国内市场,同时在看待技术方向和整个战略的时候,还要有全球眼光。”中科深智创始人兼CEO成维忠如是说。

  在国内,提到虚拟人绕不开的企业之一便是中科深智(全称“北京中科深智科技有限公司”)。他可以说是生成式AI虚拟人和3D AIGC领导者。

  资料显示,中科深智可提供全流程、端到端的实时3D虚拟人产品。公司已获得国家发明专利超18项、计算机软件著作权超67项。合作伙伴覆盖中国电信、中兴、腾讯等诸多知名企业。

  成维忠在接受新浪VR访谈时表示,未来虚拟人并不缺市场。在他看来,未来1000亿虚拟人里面,如果每个虚拟人花10块钱做技术支撑,就是万亿市场,如果每个训练产生100块钱,就是一个10万亿的收入市场。

  对于公司未来,他表示,“现阶段公司是解决一个人的动作生成,我们可以用声音去生成,也可以用传感器信号去生成。接下来,我们要解决两人和多人交互的动作表情生成。3至5年后,除了人以外,我们还涉及到跟物品的交互、跟场景的交互。”

  全球领先自动生成表情

  2014年7月,Facebook宣布以20亿美元的价格收购Oculus。在Facebook看来,Oculus的技术开辟了全新的体验和可能性,不仅仅在游戏领域,还在生活、教育、医疗等诸多领域拥有广阔的想象空间。

  一石激起千层浪,Facebook这一举措,被外界视其在为未来买单。同时,这也刺激着对市场敏感的人,掀起VR创业热潮。而彼时,对市场敏感的成维忠也看到了VR行业机会的到来。

  2016年,全球掀起了一股VR热潮。Oculus和HTC纷纷推出消费版本的VR头显,开启了外界业内普遍盛传的“VR元年”。机构数据显示,2016年里国内外VR、AR行业投融资规模分别同比大幅增长了387%、968%。

  而中科深智也正是在这一年成立。成维忠讲到,“我们开始筹备中科深智的时候,行业开始走下坡路。当时我们有两个选择,要么继续顺着原来移动互联网的路走,要么选择一个新的事情。2015年以后新兴的移动互联网公司基本非常少,(移动互联网)已经过了一个创新高点,所以我们就在想我们做下一代互联网。”

  基于此,当时成维忠对于互联网未来一个大判断是,未来下一代互联网是以这个实时渲染产生的图形、图像视频为主的时代。他表示,“要发展的话,就需要场景、物品、人三个基础设施,我们把人作为落脚点。”

  “我们觉得虚拟的数字就是下一代互联网基础设施,我们也在基础设施基础设施的研发当中,我们要占一席之地,这是我们创办公司的一个初衷。”成维忠如是说。

  他表示,当前在3D环境中,数字人要去表演无非两种,一种是AI驱动的,一种是某种意义上人去驱动的。这两种技术并没有好坏之分。但是用动捕去驱动这种技术,在未来是一个非常小众的技术。

  “所以未来一定是AI驱动的数字人,在大命题下面,我们就把生成AI驱动虚拟人作为我们的核心技术。我们把生成式AI虚拟人作为一个重点。这是我们对整体技术方向的一个大的研判。”

  他举例讲到,比如最早迪士尼做动画,人建模绑定,大概占整个工作量的10%~15%,后期的渲染大概占10%,预算和时间投入70%都是动作表情处理。

  近几年随着动画工作流的改进,比如动作表情捕捉技术。但动作表情处理占的工作量和预算的比重还超过50%。因此,未来在必须得要去解决动作表情生成的问题,才能完成整个3D AIGC的一个闭环。

  “这就是我们做生成式AI虚拟人和 3D AIGC去生成表情的主要因素之一,奠定了我们3D、AI经济当中一个不可或缺的这样一个地位。”成维忠强调到。

  “我们团队既要扎扎实实的立足于国内市场,同时在看待技术方向和整个战略的时候,还要有全球眼光。”他表示,过去公司一直把生成式AI虚拟人和3D AIGC作为重心,毫不动摇持续的在投入。

  “每一项新的技术出来以后,我们都用它来进一步增强我们的动作表情处理方面的能力,我们在国内同行之间实际上已经拉开了一定的差距。可以说,当前在深层次的动作表情领域、深层次AI动作表情领域,我们处于全球领先行列。”

  端到端虚拟人全流程服务

  中科深智作为生成式AI虚拟人和3D AIGC领导者,目前可做到提供全流程、端到端的实时3D虚拟人产品。已获得国家发明专利超18项、计算机软件著作权超67项。合作伙伴覆盖中国电信、中兴、腾讯等诸多知名企业。

  在大语言模型方面,中科深智有200亿和20亿两个参数两个轻量级版本,可为大中小企业进行私有化部署。

  在3D模型生成方面,通过文本等多模态输入,生成3D数字人模型。中科深智结合图像渲染技术、3D建模技术和机器学习算法来实现,基于深度学习的生成对抗网络(GAN)和变分自编码器(VAE)等技术,建立网络学习3D模型的特征和规律来生成新的3D人物模型。

  在CLLAP模型方面,中科深智自主研发的跨多模态AI生成算法,通过持续的不同模态数据的关联和交叉训练,已经获得基于语音语义实时生成动作和表情的能力。“通过公司自研的重定向算法介导,这些实时生成的动作和表情数据,即可最终驱动虚拟人,从而完成生成式AI虚拟人的技术闭环。”

  在Motionverse方面,据他介绍,多模态实时驱动虚拟数字人的业务中台,整合了中科深智底层大语言模型以及动作和表情生成等算法、自动建模技术及模型库、Hive虚拟人云端渲染技术,形成面向产品和应用的AI虚拟人业务中台。“除了支撑公司自有产品外,也为有二次开发能力的行业开发者,提供SDK和管理后台。”

  对于行业未来趋势,成维忠表示,行业的未来市场还是看在下一代互联网大趋势,但不得不承认移动互联网已经到头了。下一代互联网当中一定会人货场,根本就不缺场景,市场会很大。在他看来,将来整个虚拟人的总体的量应该是千亿级。

  成维忠认为,“1000亿虚拟人里面,如果每个虚拟人后面花10块钱做技术支撑,就是万亿市场,如果每个训练产生100块钱,就是一个10万亿的收入市场。”

  “对我们这样的公司来说,只要扎扎实实把自己的事情给做好就OK了,未来的训练应该是无处不在,无所不在的。这个市场会不断的融合,因为新技术出来是不断融合。”

  对于公司未来,他表示,“现阶段公司是解决一个人的动作生成,我们可以用声音去生成,也可以用传感器信号去生成。接下来,我们要解决两人和多人交互的动作表情生成。3至5年后,就除了人以外,我们还涉及到跟物品的交互、跟场景的交互。”

  在访谈最后,成维忠表示,出海将成为公司的一个重点。“接下中科深智除了继续做国内的市场以外,出海是一个重点。”

 

关键词

24快报
JSON抓取失败