AI | 虚拟数字人之下的交互革命

2020-02-26 20:02:19

来源:刘国辉 AIM人工智能学院

[导读:近日,前沿技术情报所最新发布的文章,全方位展现中国虚拟数字人当下的发展图景、应用现状、优势与瓶颈。本文为节选缩减版,为您畅享未来。] 

三星旗下STAR Labs展示了其设计的虚拟数字人NEON,受到高度关注。这些虚拟数字人与真人的外在表现无异,竟然是AI学习的结果。据介绍,NEON具备共情能力,能够真正理解人类的想法。通过机器学习累计的数据和能力,他们会进化得更像现实生活中的演员、发言人、电视主播等。 

不过,NEON学得最好的还是人类的表情动作,至于说智能化水平,就一言难尽了。NEON首席执行官Pranav Mistry第一次现场展示时,甚至出现了数次宕机,以至于演示无法继续。而在国内,已有不少公司就在做虚拟数字人了,甚至在全国的疫情防控方面,也有了虚拟数字人的身影。

为什么我们需要研发看起来跟真人没啥区别的虚拟数字人呢?

虚拟数字人应用五花八门

国内已经开始使用虚拟数字人的领域:

有银行在网点设置大屏,屏里的数字人做导向、咨询的工作,有点像数字化的大堂经理;

银行APP也打算用数字人来承担理财顾问的角色;

线上泛娱乐是一块重要市场,想必大家已经上见过一些虚拟主持人,百度、科大讯飞、搜狗、创业公司如魔珐科技等都推出过类似产品。

虚拟数字人目前在功能上略显稚嫩,但不能以现在的能力来评判未来,数字人不仅带来一种新的界面,更是带来一种新的交互方式。虚拟数字人看上去就是用三维视觉感知、3D建模等技术塑造出比较逼真的形象,用语音识别、语音合成、自然语言处理等技术让数字人初步具备一些交互能力。

在应用上,虚拟数字人有线上线下之分:

在线下,虚拟数字人可以在政府部门、医院、银行、消费场所等场景里提供简单的客服功能;在线上,虚拟数字人还有个典型的场景是泛娱乐,如虚拟主持人、主播、模特等。虚拟数字人第一个市场一定是泛娱乐,以数字人为依托生产内容,比如进行虚拟直播、短视频、综艺秀等,所有的内容是导演策划好的,不需要全智能。此外,数字人在线上还可以提供一种新的交互方式,以前是人与网站、APP界面交互,此后,用户可以直接跟数字人交互。或是在泛娱乐或者教育等场景来提供一个拟人的形象,代替真人来表演或者教学。 

当然,现在数字人的交互也还很机械:以北京互联网法院为例,依然是用户查找各种版面寻找需要的信息,虽然有数字人,也只是按照预设程序来播放。比如想要了解著作权信息,点击之后由数字人在视频中讲解。

哪些领域更适合落地?

虚拟数字人是一项新兴技术,商业模式还在探索之中。比较明确的是虚拟数字人可在手机、智能家居等场景下成为每个人专属虚拟助手以及情感陪伴,也可以在企业成为虚拟数字员工,帮助企业升级智能化无人办公,还可以成为新闻、游戏解说、网红等虚拟主播。

虚拟数字人在泛娱乐领域需求会比较明确。利用虚拟数字人可以解决影视和游戏、短视频等内容制作中效率低、产能低、质量低的痛点,至今这些领域在国内基本仍属于劳动密集型的手工作坊制作。其次,增量市场比如虚拟直播和虚拟偶像,可以连续直播、连续表演,这个事情,泛娱乐领域的大公司都想做。在其他领域,虚拟数字人主要解决降本增效的问题。全智能虚拟数字人不是要去替代人,也不一定要做得比人好,它更多是解决有限人力,以及人不能24×7工作的问题。另外,全智能虚拟数字人可以把以前的语音客服进行升级,从语音交互升级成多模态交互。

判断哪些领域会适合虚拟数字人的应用,可以从三个角度去考量:对交互的需求、对形象的需求、对体验的需求。某些行业特别适合图文并茂跟用户交互信息的,而且需要的信息量没有那么大,不是十轮、二十轮那种对话,都可以用虚拟数字人来提供服务。

重内容轻交互的领域是最先应用的一类,像虚拟老师大部分时间在讲课。泛娱乐领域的虚拟数字人大部分时间在表演,交互很少,应用起来会更早期;另一类是不需要很强的知识库,比如一家公司以前介绍自己更多是通过官网,现在可以有虚拟数字人图文并茂解释。

对于专业性比较强的领域,或者通用的领域,虚拟数字人的应用可能不会那么乐观。越是专业、通用、强交互的场景,在当下的技术条件下,越不适合做虚拟数字人。

虚拟数字人面临的拷问

现在虚拟数字人应用正在起步,三星、百度、腾讯等大厂都有产品问世,应用也在一点点落地,显示这个新兴领域正在受到越来越多的关注,但虚拟数字人想要大行其道,还有经过几番试炼。

落地场景一定需要形象吗?

首先,虚拟数字人背后是AI,真的需要做出一个真人的形象吗?以虚拟老师为例,有一个数字形象来播放课程,跟没有数字形象的视频相比,对教学效果有什么效率提升吗?

这涉及到项目落地的必要性问题。从客户的角度看,你的产品可能对我有一定价值,但我对你的产品没有达到非用不可的程度,这时候落地就比较难,即使能落地,产品也卖不上价。

没有一个交互的提升是必须的,一种新应用要替代原有方式,必须能做到一旦有了这个交互后,用户不愿意回到原来的方式。那么,数字人怎么跟所有的图文信息、数字答疑、视频结合起来,让用户感到这种提供信息的方式是最方便的,这是业界需要解决的问题。

综合来看,虚拟数字人的交互相比原有的APP交互是否更舒服更顺畅,还有待于市场检验。毕竟,人们对现有的交互方式黏性很高,想要替换是比较难的。就像人们已经熟悉了二维码支付,现在让人去体验刷脸支付,即使是微信支付宝这样的重量级玩家去推,也显得很难。想要替换原有的交互方式,虚拟数字人就要显示出更明显的价值来,吸引客户来付费。这当然要技术的进步,更重要的是产品能够更贴近客户的场景。

写实是数字人的趋势吗?

其次,就算在一些场景需要一个虚拟形象,但是这个虚拟形象一定是要跟真人一样写实吗,有无必要?

虚拟数字人往往主打真实形象的概念,数字人的形象确实也比一般的动画作品更真实,但跟真人的形象相比还是有差别,真人的眼睛是非常灵动的,而虚拟数字人看起来速率比较慢,面部表情也没有真人那么丰富。其他的肢体动作跟真人比也比较迟缓。这个事情分两个点:一是角色效果会越来越好,它是一个技术加艺术的过程,不是技术做的特别好了,艺术马上就做好了;二是超写实是不是要跟真人一样,也不一定,取决于应用场景。

需要高度智能化吗?

未来数字人的产品趋势是什么,是继续做一个简单的客服,还是通过持续的学习有更强的智能性?

AI虚拟数字人的智能化,需要具备多轮对话的能力,以及各个行业的知识图谱,形成一个庞大的智能知识库,并具备学习能力,这样才能解决各种专业的行业问题。

AI虚拟数字人在应用落地过程中,需要一个强大的AI后台大脑,以及触摸、语音、传感器等多模态交互融合,以达到适用于各种场景下的拟人化交互,帮助人类解决各种问题。然而,虚拟数字人想做到如此,还有很长的路要走。

虚拟数字人适合所有场景吗?

目前看来,并非所有的网站、APP都适合用数字人来做交互,数字人还是更适用于用户有明确需求的场景。比如用户想了解某APP应用,可以让一个虚拟数字人掌握了APP的全部公开资料后,形成知识库,再根据用户的提问去做回答。但对于一个没有明确阅读需求的用户来讲,面对虚拟数字人,可能没有问题去提。但这个人是可以在漫无目的地在APP上看一些文章的。另外,不是每个用户都喜欢用语音来控制,也不是每个场景都适合用语音,像办公室、会议室等场景,用语音驱动虚拟数字人,可能不太合适。

未来,我们会在越来越多的场景里看到虚拟数字人,虚拟数字人会与AI一起,成为技术落地的一环。起初数字人会比较简单,承载已经预设好的内容,比如在很多场合做客服的工作,或者在娱乐领域代替真人表演;如果AI能力进步,在自然语言处理、知识图谱等方面越来越强,虚拟数字人会有更好的交互体验,以及在专业领域形成比较强的替代能力。虚拟数字人未来做到怎样,其实还是要看AI能做成什么样。

[资料来源] 虎嗅Pro

关闭
精彩放送