虚拟数字人的过去、现在和未来
【慧聪广电网】元宇宙将虚拟现实融合在一起,将给我们的工作生活带来全新的体验和革命性的变化,其中,作为人类本我的映射的虚拟数字人发挥着至关重要的作用。虚拟数字人是什么,Ta将带来怎样的影响呢?我们一起来看看。
l什么是虚拟数字人?
虚拟数字人,是存在于数字世界的“人”, 利用信息技术与人工智能技术实现人体从微观到宏观的结构和机能的数字化、可视化,最终达到将现实生活中的人精确的在数字世界中模拟构建出来。
近年来,通过计算机图形学(CG)、动作捕捉、语音合成等技术高度还原真实人类,再借助AR/MR/VR等终端呈现出来的立体“人”,配合人工智能技术赋予其一定的“思考”、“学习”能力可以几乎复刻真实的人,其外形,表情、动作形态逼真,语调、语气、说话风格自然流畅,还能通过多感官实时关注和识别用户的情绪、表情、语气,根据对话内容及时作出反应。
“虚拟数字人”需要经历4个发展阶段,即“虚拟数字可视人”、“虚拟数字物理人”、“虚拟数字生理人”和“虚拟数字智能人”,这4个阶段不一定截然分开,各阶段的内容也可能交叉重叠。其原理是通过先进的信息技术与生物技术相结合的方式,在计算机上操作可视的模型,包括人体的各器官和细胞等,最终建成生物网络化的流程,即从由几何图型的数字化“可视人”到真切实感的数字化“物理人”,再到随心所欲的数字化“生物人”。
目前,超写实“虚拟数字人”、仿真“虚拟数字人”、卡通“虚拟数字人”等多种形态的“虚拟数字人”花样百出。从技术角度出发,这些多形态“虚拟数字人”主要应用了动态三维重建、CG结合动作捕捉、仿真人体模型、卡通建模结合语音合成等AI技术。其背后,是机器学习新算法(深度学习)的出现、运算力的提升、数据量的上涨、计算机图形学的发展和计算机视觉“基础设施”的日益精进等,这些都为“虚拟数字人”不断就“进化”提供了充分的“养料”。
l 虚拟数字人是近几年的产物吗?
其实,“虚拟数字人”概念最早起源于1989年美国国立医学图书馆发起的“可视人计划”(Visible Human Project, YHP);2000年,韩国开始了可视人研究的5年计划。当时“数字人”主要用于医疗领域,以VHP数据集为基础,全世界的科研工作者在图像处理、三维建模、可视化软件开发等很多领域取得重大成果。
在国内,2001年,以“中国数字化虚拟人体的科技问题”为主题的香山科学会议第174次学术讨论会首次提出了“数字化虚拟人体”的概念,所以“虚拟数字人”其实并不是一个新鲜的概念。
随着5G万物互联时代的到来和深度学习和卷积神经网络(CNN)利用大量的视觉推动基于人工智能(AI)的计算机视觉迅速改进,虚拟数字人在人们的日常生活中有了更实际、广泛、深度的应用,例如影视动漫、数字营销、文化旅游、通讯会议、教育教学等领域,并逐渐打破现实世界和虚拟世界的边界。
l虚拟数字人的优势和价值?
在实际应用中,虚拟数字人的优势主要以下几点:
第一,虚拟数字人或者说人的数字化身,可以模拟真实人体的反应,可以应用在临床试验、安全测试等特殊领域,无需真人即可得到接近真实的结果,且可重复多次使用;
第二,虚拟数字人的外形、性格、人设都能够被完美打造,充分满足沟通对象的心理需求,这在娱乐行业尤为重要;
第三,虚拟数字人具备规模化和可复制化能力,而且不受时间、地点的限制,可以根据需要任何时候出现在指定的地点,且不会疲倦、无需休息,所以有很高的商业价值;
第四,可以针对不同行业的各种应用场景,定制虚拟数字人的外形、技能,甚至出现在一些恶劣环境之中,令其具备广泛的应用范围;
虚拟数字人应用可以创造巨大经济价值:
1、 较低的人力成本。人口老龄化导致劳动力供应满足不了需求,加之通货膨胀导致工资上涨等因素,人力成本只会一路攀升;虚拟数字人只需要早期的固定投入,后续工作过程中的边际成本极低。
2、 适用于任何工作环境。在高温、低温、电磁辐射等恶劣环境下,虚拟数字人仍可正常工作,且不会有任何抱怨;
3、 易于招聘。人才招聘与岗位需求往往存在一定时差,虚拟数字人容易获得,可以快速上岗满足工作需要。
4、 管理成本低。虚拟数字人不会与企业发生摩擦和矛盾,不会挑战企业的管理规则,更容易管理。
5、 培训成本低。再熟练的员工仍需要培训后方能胜任工作可根据实际的需求定制企业专属的数字员工,省去或缩短了这一过程,降低了培训成本。
6、 24小时高效工作。7×24小时全天工作,不知疲倦,出错率低,速度更快,带来更可观的工作产出。
l目前,有哪些虚拟数字人的具体应用?
目前,虚拟数字人已经在很多行业得到应用。关于虚拟数字人的应用,大众首先会联想到虚拟偶像、虚拟演员等影视、游戏产业的应用,但金融、教育、医疗等落地场景也是未来的重要发展方向。
一、 娱乐行业(虚拟演员、虚拟歌姬、虚拟主播、虚拟模特、虚拟网红)
虚拟数字人研究中对人类的外表模仿很早就开始了,这与计算机图形学的发展和商用密切相关。CGI,也即计算机生成图像。它自诞生之际就被运用于视觉艺术创作,如今已在电影、绘画等领域发展成熟。CGI技术的使用让人们的想象被最大程度地赋予了真实性,次元壁的界限得以突破,进而创造出令人惊叹的视觉奇观。
虚拟数字人已在影视作品和游戏作品中多次出现并引起轰动和关注,如《生化危机》、《阿凡达》、《头号玩家》、《战斗天使阿丽塔》等都是典型案例。CG技术的发展让电影和游戏的真实感大大增加,人物角色仿佛就是存在于我们身边的真实的人。
《战斗天使阿丽塔》中的阿丽塔这个角色,使用了超过2500张面部表情的定帧图组成了她的各种表情;阿丽塔的一只眼睛由将近900万个像素制作,而《指环王》整部才动用了15万像素。眼睛的近景镜头也没有用传统的动态贴图制作,而是完整的创建了包括虹膜内的丝模型在内的整个眼球结构。观众在银幕上只能看到金属质感的机械身躯,实际上,阿丽塔是由8000多件数字制作的模拟人偶合成,她的身体拥有大大小小800多个内部零件、狂战士的身体更是运用了2700部件组装,所有零件都随着人物的每一个动作高速运转。
虚拟数字人在娱乐行业应用较为成熟的一个方式是虚拟歌姬。虚拟歌姬是指以卡通、CG形象角色展现,结合声音由语音合成引擎(例如VOCALOID 2)为基础开发贩售的虚拟女性歌手,有名气的比如有初音、洛天依等等
运营公司创造出虚拟歌姬的外形,粉丝在语音合成引擎软件上输入自己的原创歌曲,初音便会将其演唱出来。可以说,虚拟歌姬是运营公司与粉丝共同创作的产物,优秀的原创曲目和海量的同人创作为虚拟歌姬这个“精美的容器”注入灵魂,粉丝们通过参与创作,强化了对虚拟形象的感情——参与本身即情感。
洛天依与张韶涵合唱芒种
虚拟主播是虚拟数字人在娱乐行业的另一个已广泛应用的案例。虚拟主播的核心是 2.5 次元拟人外形、官方拟定的人设与相关企划、以及中之人的演绎三个部分。一般来说,其原理是,运用动作捕捉、表情捕捉和音声处理等技术将中之人的表演应用于 3D 动画模型之上。虚拟主播最初以视频形式与粉丝见面,之后直播形式迅速兴起。
虚拟主播往往具有相对确定的官方人设,以“接地气”“反差萌”等特征为主。比如,第一虚拟主播绊爱的设定是人工智能、视频中却展现了“人工智障”的特点;排名第二的辉夜月外表阳光,视频风格却是被称为 “假酒喝多了”的自由奔放;四大天王中的另外一位电脑少女小白外表是温柔的白发软妹,游戏视频中变声为“电音海豚 ”……
虚拟主播“ 人工智障 ” 绊爱
近年来,虚拟模特和虚拟网红逐渐进入人们的视野。她们拥有高度仿真的外表、完美的身材比例与极为灵活的活动空间。通过拍摄广告、参与活动和发布生活动态等方式,虚拟模特逐渐成为了社交网络上被广泛关注的意见领袖与网红,吸引了大批粉丝并成为网络造星模式的完美产品。
虚拟网红高度仿真人的外形下,其本质是 CGI 设计团队、造型师的美学理念与社媒营销团队的营销作品的结合体。虚拟网红的个人身份、生活方式、外表,甚至思想和行为,都是背后团队精心设计的产物,是为了满足观众胃口而创造出的圈钱利器。
虚拟模特Noonoouri
虚拟网红 Lil Miquela
虚拟网红 Lil Miquela和戚薇
近年来,随着视频平台的发展和实时CG、动作捕捉等技术的演进,虚拟数字人开始走进直播间,进一步打破次元壁限制,与用户产生更深入的互动,实时趣味的体验让虚拟网红、虚拟歌姬等虚拟数字人进一步破圈,走近更多人的生活。
二、 广电行业(AI虚拟主播)
虚拟数字人很重要在广电行业很重要的应用就是AI虚拟主播。AI虚拟主播定义是结合人工智能与三维虚拟形象技术,并可自主承担策划、编辑、主持、制作等一系列工作的主播。虚拟主播以其形象和声音可定制、不易出错、24H不间断播报,得到了对内容的时效性、准确性和传播力要求极高的广电行业的关注。
虚拟主播发展经历了三个阶段:
1.0阶段,探索阶段。2001年,世界上第一个虚拟主持人阿娜诺娃(Ananova)在英国诞生,其后,中美日韩纷纷推出自己的虚拟主持人。但由于技术不成熟,这一阶段的虚拟主持人与真人形象相差较大,语音、表情、肢体的仿真程度也一般,且制作内容效率较低、成本较高,导致这一批虚拟主持人相继消失;
2.0阶段,真人驱动和AI引入。Vtuber兴起带动虚拟主播的发展,用真人驱动虚拟形象在一定程度上解决真实美观的问题,但真人驱动也让虚拟主播的效率不高、效果不能保证,AI技术的而引用大大解决了这一问题:只需输入一段既有的新闻文本,主播就可实时进行播报,且发音与唇形、面部表情等也完全吻合,无论是看上去还是听上去,似乎都与真人无二了;
3.0阶段,全面AI化的虚拟主播。由计算机虚拟合成的、高度逼真的三维动画人物,一言一行都与真人一样,并可以完成一切表演、播报,且不会有任何绯闻,妥妥的一枚“完美代言人”。
目前来看,AI虚拟主播的实现方式大致可分为三种:
一是上述提到的“真人操作”模式,这一模式灵感来源于影视业,实现方式也跟影视业差不多,都需要配套真人演绎,前期需要进行大量的数据采集,中期需要动捕设备来配合播报,后期需要对视频制作进行再加工。从前期准备到后期制作,成本都不可谓不高,这大概也是该模式目前仅限于一些大媒体,难以大范围推广的原因所在。
二是“AR+AI”模式,灵感来源于全息投影,实现方式依赖于增强现实技术。这一模式,需要提前设置好AI虚拟主播的回答、动作、表情等,并通过其与真人主播的互动,来制造真实感。且因为AI虚拟主播是后期做上去的,所以现场真人主持与其互动时,就需要靠“演”。但这种实现方式,对真人主持的要求极高,对后期制作的要求也很高,从应用层面来看,要大范围推广难度显而易见。
三是全AI化模式,灵感来源于早期主持人,实现方式和效果却比早期主持人好很多。这一模式分成定制AI虚拟主播和使用视频制作后台两步,其将上述两种方式中“人”的成分大大剔除,专注于用AI来替代人力,将虚拟主播的语音、情绪、动作,乃至后期视频制作需要的图片、视频等都集成到后台编辑系统中。目前来看,它是更接近全自动化,也更节省制作成本、提升制作效率的方式。
三、 虚拟数字人员工(虚拟助手)
企业采用智能机器人作为员工,完成客服、销售、营销等工作,早已不属实新鲜事,在银行、保险、制造、零售、医疗、物流、电商甚至政府、公共机构等众多行业和场景中得到了应用。
虚拟数字人员工不仅可以提供智能机器人的全部功能,还具有人的外形,可智能识别问题和诉求、判断用户情绪、与用户交互沟通,配合智能大屏、全息现实、AR/VR等技术,将带来更高效、更智能、更人性化的服务体验。
1、 医疗行业
为医疗APP、医院导诊机器人等智能医疗助手提供真人虚拟形象,结合医疗相关NLP,让患者在就医咨询时感觉在与真正的医生交谈,获得与线下问诊近乎一致的体验,大大缓解了个人用户关于身体健康、就医前咨询等情形量级暴增的问题。
虚拟数字人应用在智能医疗助手方面,有以下优势:真人形象的医疗助手,可缓解患者的焦虑,营造可信赖的问诊咨询体验;24小时在线,专业地解答用户的问题;能够更好地保护患者个人隐私;节省就医过程中的医疗资源浪费,让专业的医护人员将更多的精力投入到病人的救治。
另一方面,虚拟数字人可作为人类的数字化身应用在医学教学和临床治疗之中,如用于医学院人体解剖使用,模拟人体生理反应、在正式手术前模拟演练等,从而提高治疗的效率、减少病人的痛苦。
2、 金融行业
当下,金融行业采用数字化技术提升风口水平、提高工作效率、改善服务质量的需求旺盛。虚拟数字人可应用在金融行业的业务导引、业务办理、营销及远程虚拟客服等服务场景,为消费者提供个性化、智能化的服务。
通过虚拟数字人进行服务导引,不仅能帮助工作人员分担客流压力,还能保证服务的标准规范,保证服务质量;在业务办理环节,虚拟数字人可生动形象地指导用户更便捷地完成操作,并结合机器视觉识别加强风控,较少电信诈骗、冒充身份等情况的出现;虚拟数字人还可提供更佳的人机交互体验,在营销过程中减少用户的抵触,更人性化地介绍产品和服务;远程虚拟客服可以智能地帮助用户解答问题、身份认证、加强风控,让客户享受到便捷人性的服务。
3、 文旅行业
在旅游景点、博物馆等场景可采用虚拟数字人导游或打造专属虚拟IP,不仅可解决导游人手不足问题、提供全面、准确、生动的讲解服务,还可配合VR/AR/全息等技术增强旅游消费的沉浸感,虚拟与现实交融之中让游客更好地感受人文、历史和自然风景,获得更好的文化消费体验。
4、 教育行业
AI虚拟老师可提供在线教学,能与学生24小时在线交流,随时随地解答学生的问题,这一模式不仅可以更好地提升教学效率,还能更好地保护视频教学中的个人隐私。运用计算机视觉进行情绪识别、手势识别可为在线教学进一步赋能。例如,情绪识别帮助判断孩子的听课效果。比如儿童出现困惑的表情时,或许反映出老师讲的内容孩子没听懂,那么这一情绪反馈给老师时,老师就可以再讲一次知识点,以便帮助孩子更好地学习和理解。
虚拟数字人在不同行业和不同场景的应用还有很多,不再一一详举。
l未来,虚拟数字人将如何发展?
未来,我们将迎来人机共存、人机互动的时代,虚拟数字人将更加高频地出现在大众身边,虚拟数字人如何能更好地服务于人类将是发展的宗旨。未来,“真实”、 “互动”、“智能”将是虚拟数字人研究和发展的重点。
要判别是否是“人”,外形的判别首当其冲。因此,在未来,虚拟数字人的“可视性”仍面临巨大挑战。基于生物解剖、计算机视觉、计算机图形学等跨学科研究,对真实的人的外形解构,再在数字世界进行还原,构建模型并通过合适的显示手段展示,无限逼近真实人类的外形是永远存在的需求。
虚拟数字人与人的交互,将开启人类认识世界的新方式。虚拟数字人要像人类能对外界刺激给出回应,对肢体、语言、表情的研究仍需深入,才能保证真实自然的体验;与VR、AR、全息技术的结合,探索更真实、更舒服的交互方式,让人机协同带来更多可能。
人工智能与虚拟数字人的结合将成为趋势。人工智能为虚拟数字人注入灵魂、赋予大脑,让虚拟数字人具备类似人类的“智能”,具备思考和学习的能力,将让虚拟数字人适用于更多的场景,完成更复杂的任务,更好地服务于人类。
现有的虚拟数字人的应用场景仍将继续存在,但服务的方式会升级,更真实、更智能、互动性更强;还有更多场景将被开发出来,可以断言,凡是目前由人类主动的活动未来都可以由虚拟数字人来完成,人将被进一步解放。
未来,人类将创造出不止一个的数字虚拟世界,既可能是一比一对真实世界的还原重建,也可能是想象创造的新世界。人类将不仅在现实世界中以肉身存在,更将在这些虚拟世界中以数字化身的形式存在。人人将拥有至少一个数字化身,拥有创造数字化身的能力将成为对社会基础设施的必然要求。目前,只有在好莱坞才具有的影院级的虚拟数字人的制造能力,未来,用户只要拥有一台电脑、一部手机就可以创造虚拟数字人,虚拟数字人将实现消费级的应用。
就像头号玩家中的场景一样,我们可能不仅生活在现实世界,还可以在不同的虚拟世界中体验不同的人生。甚至,我们可能肉身死亡,但记忆可以跟随数字化身继续存活,实现在数字世界的永生;更甚者,数字化身的记忆可以移植到生命体中,我们在物理世界的永生也将得以实现……