近日,「冰城论道暨第24届中国智能视听与科技创新高峰论坛」在哈尔滨隆重举行。本届论道以“破界·共生”为主题,邀请到了智能视听领域的企业翘楚与行业领袖莅临齐聚,围绕新时代下的破界、破局、破壁与共生、共创、共赢等话题,全方位展望产业的趋势动向。
中科深智行业解决方案总监洪峰参加了哈尔滨在16日下午举办的「技术赋能视听论坛」上,与会嘉宾聚焦诸多新技术、新业务,探讨了视听的新可能。会上,中科深智行业解决方案总监洪峰进行了主题为《中科深智数字人赋能OTT行业——开启元宇宙之旅》的演讲,并针对中科深智生成式AI虚拟人技术赋能进行了讲解。
以下为演讲全文:
各位好,这是我第一次参加流媒体网论道,感到非常高兴。中科深智在广电行业,包括IPTV和OTT行业还并未被大家知晓,希望通过这样的机会跟各位有比较深层次的讨论。数字人、元宇宙概念,从去年开始就特别火爆,非常巧合在这两个月ChatGPT又大火了,所有的受众破圈理解,我们今天做一个比较直观的讲解。
前两年,包括广电、电信有非常多的行业客户或者是偏娱乐角度的客户都讲虚拟人,虚拟人有非常多的背景,也使得虚拟人产业不断延伸,第一块是底层技术的不断发展,包括算力、计算资源、网络资源、存储资源等底层技术的发展,第二个是应用角度,或者说不同跨界行业的角度,比如说一些CG的玩家,动画的玩家进来实现多融合的行业交融,同时,客观来讲,这么多数字人并没有找到一个非常好的特别落实的应用场景。
以虚拟人的全面表达,赋予元场景服务的基本能力
前两年元宇宙厂家很多,而去年开始很多不断没落。中科深智成立于2016年,核心团队成员来自北大、中科大等著名高校,公司总部位于北京,在数字人和元宇宙领域已经有一些积累,今天我从政府相关的一些政策引导的角度做一些分享。
首先,上海、北京、成都、武汉、苏州、杭州等城市不断发布元宇宙的政策,我们公司在北京,但是我在上海,我们深度参与上海和北京两块元宇宙相关的场景招募。越来越觉得说元宇宙的一些应用场景和相关的一些行业应用正快速落地,比如说最近在上海有一个非常有意思的现象,国家相关部门组织各种大型的需求方发布了20个重大的项目,他们把元宇宙希望达成的目标或者是需求非常明确表述出来,由各位供应商去做落地。而且希望能够达到更多的商业价值的变现。我们公司也参与其中。另外我们公司在北京也不断参与政府的相关项目。
作为中科深智来说,先介绍一下公司背景,中科深智早期是做动画和影视相关工具业务的,从2019年开始把所有的应用场景跟相关的技术做了一些深化,更加聚焦于AI生成式的动作表情的实时生成。
我们作为链主型“元企业”,上下链都需要人的情况下,就需要我们底层的驱动和架构,我们拥有深厚的原创技术和专用数据积累,并基于Transformer自研了虚拟人动作和表情生成的大模型CLAP。中科深智目前做了三件事情,或者说基于生成式AI虚拟人技术做了三件事情,第一块是生成式的动作和表情的实时驱动。第二件事情是做生成式的3D建模和资产数据,照片生成后可以直接捏出人,游戏行业比较多,我们更多偏向工具类的东西。第三块更加聚焦3D AIGC内容的生产工具,底层有一个逻辑基于多模态的输入方式,不管是语音文字声音甚至是音乐、语义作为我们其中一个输入,作为AI creator中间的算法层,最终实现一个稳定的 SDK。
我们目前会不断发展相关的应用集成商,目前已经在各个不同的领域,包括教育、医疗、文旅等等,最终服务于不同的屏,包括电视的屏,手机的屏,一体机的屏,AR和VR屏等等。从品牌合作方的角度来说,目前比较主流的一些主芯片以及操作系统,从AI和VR的角度也已经配合,我们希望能够打造一个所谓数字人的底层基座,能够不断的服务于上下游客户。
中科深智团队规模接近150人,80%左右研发人员,我们在上海、北京、郑州都有分公司,目前来说我们定位是以生成式AI虚拟人技术为基础的公司,有两个部分需要着重强调一下,第一块基于我们自研的CLAP算法模型,我们做了相关的底层基座应用驱动Motionverse虚拟人业务中台。第二块我们也自己有一些偏SaaS类的产品,目前为3000多个品牌提供了数字人及数字资产服务。电商虚拟人直播市占率70%+。
关于数字人的发明专利,已经有将近80项发明专利,应该来说处在比较偏头部的位置。此外我们公司还有一些资本领投的介入。
下面讲下合作伙伴的案例,目前在数字人领域,和英伟达的合作是比较主要的。我们还开发了国外的一个平台,多模态驱动接入VRChat平台驱动虚拟人,供所有的用户直接使用。
中科深智生成式AI虚拟人
ChatGPT使用两块东西,第一块语言模型,第二块做了语言文字相关的预处理,中科深智动作和表情生成过程当中,并没有采用传统的比如说以动作库或者口型因素等等的方式去驱动,而是采用了更多训练级的模型,自己来形成一个更好的生成方式,比如最近会有很多篇文创类、音乐类或者舞蹈类,甚至戏曲类的合作方来找我们,他们希望能够统一做相关的一些生成,但是这些东西都会有非常专项性的东西,我们公司在底层的一些基础算法的模型上,包括大模型和数据上,可以针对这样类型偏专业和垂直类的一些行业,做专门的强化训练,以达到更自动化或者说更千人千面的驱动模式。当然,在驱动形成之后,还有相关的一些解码的功能,以及立项的功能,可以符合各种不同人的一些驱动。
这里需要说明一下,任何不同的音乐,我们会根据不同的节奏以及之前学到的一些相关的数据和整体表情和动作一起去生成预测,也就是说每个音乐甚至是同一个音乐在背后都有不同。
具像化描述一下,底层是中台平台,包括多模态的输入,比如说摄像头的输入,中间通过专用的数据集和生成式的模型,最终输出标准的SDK。再比如,大家对动作捕捉会比较熟悉,通过光学或者说是惯性的方式,把数据一对一的录入到相关动画的骨骼,比如通过3个或者5个check,其他的部分都是以生成式的方式,要坐要跳要动,甚至说通过语义的依据直接可以把人做相关的一些驱动或者是直接生成出来,这就是所谓的生成式AI,不同于传统的动作捕捉以及调用相关动作库。这里是标准的SDK输出,纯粹的动作输出数据或者是表情的数据,不管是在本地或者是云端,我们只是输入数据和驱动数据的部分。有很多合作方找我们,我们提供包括动作以及相关的渲染能力给他们,同时匹配不同的引擎一起输出,这样可以帮助他们提供一站式的服务。