由ChatGPT引发的讨论热潮正带动对于AIGC应用的极大关注,数字人被视为一个重要方向。数字人产业近年来快速升温,但目前来看,数字人产业链各环节仍较为分散,产品、市场与商业化能力,仍需技术帮助突破瓶颈,并通过产业链上下游公司的协同加速推进。
协同主要以技术+解决方案公司或运营公司合作进行,打造面向B端或C端的数字人产品。这些合作加速了对数字人应用和商业化的探索,但也容易导致技术发展和产品、市场脱节,仅靠一两家公司难以解决数字人发展链路上存在的多个问题。因而更多产业链上下游公司,已经开始探索更多协作模式。
去年,生成式AI虚拟人和3D AIGC技术公司中科深智和NVIDIA展开深度合作,将自身旗下数字人多模态实时驱动引擎 Motionverse引入NVIDIA 3D 模拟和协作平台Omniverse。
这成为数字人大厂生态协同的一个典型应用案例。此次合作对双方来说,发掘了契合的协同点,帮助推动数字人更加适应智能化、实时性、多模态等趋势。
对中科深智而言,主要针对数字人领域中的数字人驱动、相应的表情和动作自动生成等进行深耕,整体链路过长,并非初创企业可以包揽。以NVIDIA Omniverse作为协作和AI平台,利用其中数字人资产和相关工具链,可以提升形象生成到云端渲染的效率等。而NVIDIA与中科深智这种可通过生成式AI技术驱动数字人的公司合作,也能更好实现深入B端产业生态的诉求。
AI加速数字人产业变革
数字人产业正处于加速变革的重要节点,AI的加入被视为可能会极大加速整体进程。
作为深耕在数字人应用领域的一家公司,中科深智CTO宋健明显感受到产业近年来的变化。
他谈到,数字人行业在这几年的快速发展中,解决了很多关键性的问题。比如快速建模的问题,以前做一个数字人可能需要半年时间,花费一百万,而现在可能只需要一天时间甚至非常便宜,这大大降低了成本。整个应用和技术成熟度提升以后,以前持观望态度的不同行业用户可以很快地去做尝试,并在现有的业务流程用数字人实现其中的一部分。
“很多传统工作流的环节,可以通过数字人进行数字化。目前的趋势可能会比较快地加速这个流程,取决于成本和技术的完善。”宋健。
NVIDIA中国Omniverse业务负责人何展也表示,未来,可以通过简单的逻辑来描述且又是高频次不断重复的工种,可能会面临被数字虚拟人所替代的情况。相比以前人为、手工的技术路径,AI能够解决简单重复的事情,让创建数字人变得更高效。
但从数字人行业本身的发展来说,目前的产品化或者工程化的数字人方案仍处于非常初级的阶段。
之所以说是初级阶段,现在做的效果还有巨大的提升空间。“AI能够复现出性格、情感,和真人一样,这些都做完以后还要进行交互,交互也不单单是目前的对话。因为AI的介入,迭代速度会远远超出我们的想象。”何展表示。
基于这样的现状,行业协作变得至关重要。
宋健表示,中科深智一直把Omniverse当成非常重要的协作和AI平台,目前把现有的一部分能力和平台连起来,比如可以支持不同的驱动方式驱动Omniverse的数字人和相应的一部分资产,利用Omniverse一部分的功能模块和微服务完善数字人的工具链,让行业用户可以非常方便地创建自己从形象到最后的生成和云端渲染,整个链条有很多依赖于Omniverse和NVIDIA提供的工作流工具。
而NVIDIA作为AI基础设施的提供商,在此之上需要大量的行业应用填补各种各样的空间和空白。
成立于2016年的中科深智,由来自于中国科技大学校友组成的创始团队创立,拥有深厚的原创技术和专用数据积累,并基于 Transformer 自研了虚拟人动作和表情生成的大模型CLAP(Contrastive Language-Action Pretraining),已申请80余项核心技术专利池,专注于生成式AI虚拟人和3D AIGC技术领域的应用。
对于四五年前开始布局数字人研发的NVIDIA来说,数字人应用目前处于第二阶段。相比第一阶段重在如何构建完全逼真的数字人,第二阶段引入AI技术,探索如何驱动或者赋能交互技术的应用。
其中Audio2Face的版本迭代尤为引人瞩目。它可以通过一段音频驱动数字人面部表情的动捕,如同常人说话一般,实现口音口型和面部表情、细微动作,而且整个过程耗时不到3分钟。
“Audio2Face的工具已经进行了多个版本的迭代,拥有非常惊艳的效果,比如现在可以达到Audio to Emotion效果,通过音频驱动情绪情感的表达。”何展表示。
NVIDIA目前还在大力融合和整合AI赋能工具。在ChatGPT搅动科技圈的当下,NVIDIA日前宣布将在3月举行的GTC会议上,CEO Jensen Huang黄仁勋和OpenAI联合创始人兼首席科学家IIya Sutskever将就“AI Today and Vision of the Future”话题展开讨论,引发外界想象。
从初创加速计划,到平台接入:“NVIDIA+中科深智”典型案例
作为双方协同的一个典型案例,中科深智去年对外展示了蛋糕店数字人销售系统。参展人对着屏幕里的蛋糕店数字人店员提出需求时,数字人店员几乎没有延迟,如同真人一般与参展人进行交流,展现出AI数字人实时互动的能力。
蛋糕店数字人销售系统结合了中科深智数字人开放平台Motionverse与NVIDIA Maxine、NVIDIA Riva 、NVIDIA NeMO等NVIDIA AI SDK,在NVIDIA的高性能GPU上运行,成就了展位上蛋糕店3D虚拟数字人互动点餐的落地场景。
宋健提到,整个过程涉及到自动语音识别技术(ASR)、自然语言处理(NLP)、语音合成(TTS),以及数字人表情和动作的生成。传统的做法是将这四个独立模块串联,因此会有延时。而NVIDIA能够把ASR、NLP、TTS和表情动作的自动生成放在同一个管道,结合Motionverse引擎,达到几乎无延时的效果。
“目前为止,3D数字人的交互领域还没有看到比这个延时更低的部分。”宋健表示。
这是双方合作深化的一部分。早在合作之初,中科深智就认识到,针对数字人领域中的数字人驱动、相应的动作生成,整体数字链条非常长,需要利用非常多的部分把整个链条连起来。而NVIDIA提供的大量应用,比如当前使用的NVIDIA Maxine和NVIDIA Omniverse,可以弥补很多环节的缺失。
双方的合作可以追溯到2021年。当时,中科深智加入到了NVIDIA初创加速计划。这是NVIDIA提供的加速创业公司发展的全球生态项目,在中国的会员企业已超过1500家,全球超过了1万家。