当前位置:首页 > 行业资讯 > 虚拟数字人,如何在媒体中应用与优化

虚拟数字人,如何在媒体中应用与优化

2年前 (2023-03-24)行业资讯


在媒体深度融合的背景下,主流视听媒体积极拥抱数字人技术,围绕视听播报、虚拟偶像、智能客服等场景推进应用创新,部分示范应用已经达到了全球领先水平。主流视听媒体虚拟数字人运营须透彻理解智能身体作为新型媒介的底层价值,充分发挥技术赋能,注入情感设计,探索确立商业模式,同时要警惕数字人发展的潜在风险。本文刊发于《中国电视》2023年第1期。


丨徐琦

责编丨闫伟


从2018年“康晓辉”亮相以来,我国传媒业迎来了新一轮虚拟数字人热潮。人民日报、新华社、中央广播电视总台等各级各类主流媒体机构积极拥抱数字人技术,数十位虚拟主持人、虚拟主播、虚拟记者、虚拟小编、虚拟文化推广人等数字“媒体人”走上工作岗位,引发各方关注与热议。

数字人代表新一代人机交互的发展方向,同时也被称为元宇宙的入口,其发展将推动全新人机共生时代的到来,其创新应用可为我国媒体深度融合发展注入新活力。在此背景下,本文聚焦传媒领域虚拟数字人的最新发展,解析其关键技术支撑、应用焦点与运营现状,为主流视听媒体数字人运营实践提供理论参考与优化策略。


概念厘定:何为虚拟数字人




“数字人”(DigitalHuman)这一概念最早源于美国国立医学图书馆1989年发起的“可视人计划”。该计划旨在创建可公开获得、完整详尽的人体解剖学三维图像,利用现代信息技术实现对人体从分子到细胞、组织、器官和整体层次的精确模拟,构建人体的组织形态、物理功能和生物功能的信息系统。从狭义上看,数字人是信息科学与生命科学的融合产物,即利用信息科学方法对人体在不同水平形态和功能进行虚拟仿真,终极目标是建立起多学科和多层次的数字模型,实现对人体从微观到宏观的精确模拟。从广义上看,数字人是指数字技术在人体解剖、物理、生理及智能等各个层次、各个阶段的渗透,是对相关领域的统称。

与生命科学领域聚焦于数字化仿真人体不同,目前信息传播领域出现的数字人是指具有数字化外形的虚拟数字人物(VirtualHuman),是能够在虚拟环境中进行面对面交互的自动化代理。①

有学者将虚拟人定义为具有和人类一样面貌以及可被观察到的行为的视觉身体,同时具有做决策和控制行为的认知能力,以从事与人类相同的活动。②不同于实体机器人,虚拟数字人依赖显示设备而存在,可虚拟仿真人的外形、行为甚至智能等不同维度。外形方面,数字人目前可仿真人的相貌、性别等外观主要特征;行为方面,可仿真人使用语言、口唇动作、面部表情和肢体动作等行为能力;智能方面,可仿真识别外界环境、交流互动等不同形态的智能。


概言之,虚拟数字人是人工智能在拟人化图形动画领域的重要应用场景,也是新一代人机交互发展的关键方向,是通往元宇宙的入口。人类不断尝试利用各种数字化技术打造具有虚拟样态的立体的“人”,复制人类的知识、记忆、思维与情感,可在人类个性化设计下形成一种富有人格化、情感性的人机交互模式。虚拟数字人是科技与文化相融合的产物,有望驱动多个行业、多种场景产品、服务与体验的升级,推动全新人机共生的智媒时代的到来。

技术支撑:人工智能驱动数字人升级迭代


智能化是我国媒体融合纵深发展的必然方向,人工智能是全媒体传播体系的先进技术支撑之一。③作为智能媒体创新应用之一,当前虚拟数字人仍处于快速发展期,尚未有统一的通用系统框架。《2020年虚拟数字人发展白皮书》将虚拟数字人通用系统框架概括为五大模块,分别为人物形象、语音生成、动画生成、音视频合成显示与交互。其中,交互模块是拓展项目。根据是否具备交互功能,虚拟数字人可分为非交互型数字人与交互型数字人。

具体来看,人物形象可根据人物图形资源维度划分为2D和3D两类,从外形风格上可划分为卡通、拟人、写实、超写实等。语音生成模块和动画生成模块服务于人物表达,分别基于文本生成对应的人物语音以及与之相匹配的人物动画。音视频合成显示模块将语音和动画合成为视频。交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户意图,并根据用户当前意图分析决策数字人后续语音和动作,驱动人物开启下一轮交互。

交互型数字人可根据驱动方式不同划分为真人驱动型和智能驱动型。前者通过真人来驱动数字人进行交互,工作原理是通过动作捕捉采集系统将真人表情、动作呈现在虚拟数字人身上,同时真人根据视频监控系统回传的视频与用户实时语音交互。后者通过智能系统自动读取并解析识别外界输入信息,再根据解析结果来决策数字人后续输出文本,然后驱动人物模型生成对应语音与动作,从而实现用户互动。该人物模型也被称为TTSA(Text To Speech & Animation)模型,是预先通过人工智能技术训练得到的,可通过文本来驱动生成语音和对应动画。

近五年来,得益于深度学习算法的突破,虚拟数字人的制作过程得以有效简化,智能驱动型数字人崭露头角,整体发展呈现出智能化、便捷化、精细化、多样化态势。人工智能技术日益成为虚拟数字人创新的关键支撑,极大推动其人物生成、人物表达、合成显示、识别感知、分析决策等关键技术领域取得重要突破。与此同时,虚拟数字人的制作成本大幅下降,其虚拟仿真程度与交互能力不断提升,行业应用场景更趋广泛,影视、传媒、游戏、金融、教育、文旅、零售等行业都出现了虚拟数字人的身影。

传媒实践:聚焦虚拟主持人推进应用创新


回溯历史,全球传媒业对虚拟数字人的首次探索出现在21世纪初。2000年,英国推出世界首个虚拟新闻主播“安娜诺娃”(Ananova),此后日本推出了“寺井有纪”(Yuki),美国推出了“薇薇安”(Vivian),韩国推出了“露西雅”(Lusia)等。2004年,国内首位虚拟电视主持人“小龙”亮相CCTV-6频道,担纲《光影周刊》主持人。囿于技术成熟度、成本投入、市场接纳等问题,21世纪初的虚拟主持人热潮早已悄然褪去。以下将从整体态势、典型场景与技术赋能三方面概述现阶段主流视听媒体对于虚拟主持人的实践现状及其特点。


(一)整体态势:积极拥抱数字人技术,示范应用全球领先


近年来,随着人工智能技术对数字人发展形成了强力支撑,国内主流视听媒体积极拥抱数字人技术。无论是中央媒体或地方媒体,广电媒体或报业集团、融媒体中心等主流媒体机构都投入推进数字人相关应用探索,虚拟主持人、虚拟主播、虚拟记者、虚拟小编、虚拟文化推广人等数字“媒体人”应用集中涌现,我国传媒业数字人大有遍地开花之势。

据不完全统计,我国主流视听媒体推出的数字人目前已达数十位。典型案例包括新华社“AI合成主播超市”,新华社数字宇航员、数字记者“小铮”,中央广播电视总台视听新媒体中心“AI王冠”,央视网“小C”,上海广播电视台“申雅”,北京电视台“时间小妮”,湖南卫视“小漾”,浙江卫视“谷小雨”等。从知名主持人的虚拟分身到二次元偶像,再到难辨真伪的高精度3D超写实数字人,外形风格各异的数字员工日益成为传媒业的新生力量。

其中,以新华社“小铮”为代表的实时高保真数字人所需技术难度非常高,因此也被称为“3D数字技术皇冠上的明珠”,目前在全球范围内仍属于探索性工作,其创新引领与应用渗透已经走在了世界前列。


(二)典型场景:聚焦视听播报,探索虚拟偶像、智能客服等




从功能维度来划分,虚拟数字人的应用场景主要覆盖偶像娱乐、专业服务和情感陪伴三大方向,具体形态包括虚拟偶像、虚拟主播、虚拟客服、虚拟助手、虚拟导游、虚拟讲解员等。对于主流视听媒体机构而言,其虚拟数字人应用场景当前以视听播报专业服务为主,同时也在积极拓展虚拟偶像、客户服务等多元化场景。


专业服务场景下,多数主流视听媒体发力重点是虚拟主持人、AI主播应用,即由数字人来承担主持与播报相关功能。


首先,该类应用有助于满足视听新媒体内容生产提效需求。当前领先的数字人平台数字人数据采集与建模的周期和成本已显著降低,传媒机构得以快速定制和部署数字人方案。利用智能驱动的TTSA人物模型,媒体编辑只需输入播报文本,就可直接将其转换为虚拟主播实时播报视频,使视听播报内容常态化生产的门槛大为降低。例如,新华社“AI合成主播超市”成员在新媒体端可支持用户自定义选择的常态化内容播报;每经AI电视台的“N小黑”“N小白”已可实现金融资讯内容的不间断播报。


其次,该类应用有助于满足视听新媒体内容样态创新需求。尤其在重大活动报道、重点节目中,主流视听媒体利用数字人技术推出虚拟小编、虚拟记者、虚拟文化推广人等示范创新应用,极大促进了内容创新。例如,新华社数字宇航员、数字记者“小铮”成功承担了载人航天工程、行星探测工程、探月工程等国家重大航天项目的“现场报道”任务;央视网人工智能编辑部“小C”连续两年担纲全国两会特别策划直播节目主持人,流畅完成与多位全国人大代表直播连线的高难度采访任务。


再次,该类应用有助于满足视听新媒体开展用户服务和运营创新。典型代表有北京广播电视台以主持人春妮为原型打造的中国首个广播级智能交互真人数字人“时间小妮”。目前,其与客户端稿件系统、知识系统、互动系统、大数据系统进行了API对接,可在客户端实现播报新闻、讲解知识、广告代言、交互问答、客户服务等全智能视频服务功能,以满足不同应用场景下的多元用户需求。


偶像娱乐场景下,部分主流视听媒体正在积极探索虚拟主播与数字偶像相结合的运营模式,其核心逻辑在于打造虚拟偶像的个人IP。虚拟偶像基于“技术工具”将人们想象中的艺术形象具现可观,其采用集体管理名人的逻辑、具有多元的表现形态与娱乐功能并能在互联网等虚拟场景或现实场景中与“粉丝”自由交互。虚拟偶像在虚拟世界中主要承担演艺相关功能,其作为被高度中介化和虚拟化的“消费符号”拥有广泛的影响力与传播力。

2012年出道的“洛天依”是广为人知的虚拟偶像,上海广播电视台融媒体中心的数字人“申雅”是主流视听媒体在该应用方向上的代表之一。与大多数在演播厅里正襟危坐进行严肃播报的虚拟主持人所不同,“申雅”是国内主流媒体推出的首个具有新闻属性的二次元偶像,她作为上海广播电视台旗下虚拟主播,参与过新闻直播报道,同时也是哔哩哔哩平台的签约主播。再如浙江卫视宋韵文化推广人“谷小雨”已亮相多档节目和浙江博物馆,通过科技与文化并重的沉浸式表演来传播宋韵文化,其运作更接近虚拟偶像模式。


情感陪伴场景下,数字人主要承担类似私人助理、私人顾问、虚拟亲友等情感陪伴类功能,但由于此类应用场景对于技术、策划、运营等各方面要求较高,目前主流视听媒体在该方向的探索尚不深入。


(三)技术赋能:技术能力与路线各不同,以合作研发为主


针对不同的业务场景,主流视听媒体数字人应用技术能力要求与实现路线也不尽相同。视听播报场景中的虚拟主持人并不具备交互能力,节目形态多以单向播报为主。在人工智能技术赋能下,这类应用已经实现了多语言、方言、手语播报以及一键换妆、换装、场景切换等功能。直播采访场景对虚拟主持人的交互能力要求很高,为保障内容安全,在直播过程中还需要在AI驱动与人工接管之间无缝切换。虚拟偶像场景对交互性和全身动作要求更高,目前仍以真人驱动为主,将捕捉采集的真人动作迁移至数字人是其动作生成的主要方式。例如,上海广播电视台“申䒕雅”就是通过实时光学式动作捕捉技术和增强现实跟踪系统实现的。


研发方面,由于数字人严重依赖人工智能技术积累,主流视听媒体多采用与领先人工智能企业合作的方式来推出虚拟数字人项目,自研比例相对较低。其中,人工智能企业提供技术支持,主流视听媒体提供业务落地场景,并开展持续运营。


例如,“AI合成主播超市”是新华社与搜狗合作的成果,数字航天员、数字记者“小铮”由腾讯游戏旗下NExT Studios来提供技术支持,“小C”是央视网与百度智能云合作开发的,而“时间小妮”是北京广播电视台联合明芒科技共同开发的。

优化策略:发掘智能身体传播的潜能




观察当前主流视听媒体数字人应用现状,主要痛点是业务场景仍较局限,创新应用受到技术与成本的较大制约,商业模式尚不明晰。针对以上问题,主流视听媒体未来可从场景价值、情感设计、商业模式、内容安全方面入手,不断优化数字人应用创新,释放其作为新型智能身体传播的无限潜能。


(一)理解智能身体传播,发掘场景价值


回归本质,数字人是智媒时代数字媒介传播技术创造的新型身体。作为智能身体传播的数字人应用,在人体感官层面将大众媒介分割的感官加以整合,创造了基于人机融合的智能身体传播实践;在存在层面通过复合空间和多重时间,创造了人类从未有过的生存状态。融媒体内容生产的根本就是人类的感官重组和知觉再造,④此,能将人类的外形、行为、智能与情感数字化复刻的虚拟数字人是融媒体内容生产的极致。


未来数字人不仅是智能身体传播的中介或信息,更有望在强人工智能的赋能下成为传播的主体,其将推动主流视听媒体打破单一的“媒介域”而走向多域整合,⑤高效助力融媒体内容生产创新转型,更有望作为云宇宙的入口,有力推动主流视听媒体改变自身在信息传播格局中的被动地位,⑥与其他主体站在同一起跑线上参与元宇宙多维、跨维信息传播格局构建,其发展潜力与价值无可限量。


具体来看,数字人的价值是不同应用场景中对人的价值的数字化虚拟仿真。随着数字人智能化程度与情感化设计水平的提升,传媒数字人的应用场景和价值将得到极大拓展。事实上,当前主流视听媒体数字人应用场景非常局限,仍以虚拟主持人替代真人主持人进行新闻内容播报为主。这一方面是由于技术要求与商用成本相对较低,后期运营投入较为轻量,另一方面是因为这类场景中的信息价值大于数字人作为信息媒介的价值,数字人只是“工具人”。未来,数字人还有望在表演、歌舞、直播、社交等“表演人”场景中担当主角,发挥出数字人本身作为信息的价值;以及在教育、咨询等“专业人”场景中,发挥数字人作为服务的重要作用。


(二)用好人工智能成果,注入情感设计


美国学者唐纳德·诺曼在《情感化设计》中指出,情感和情绪在日常产品设计和传播中起着关键作用,并提出了情感化设计的三个层次:本能层、行为层和反思层。⑦本能层是用户对产品视觉和第一印象的本能直接反应,本能层先于思考和逻辑判断。行为层是用户与产品在行为上产生的交互关系,具备一定的理性和逻辑感。反思层是产品的独特内涵、品牌差异性在用户心中根植的独有记忆,用户会因为这份记忆经常触发情感共鸣,从而忠实于产品。



虚拟数字人要超越“工具人”的价值定位,必须具备交互能力和共情能力,因此利用智能技术提升情感设计是关键,即通过数字人行为、认知、感官和功能的可供性的共同作用来不断满足“情感三层次”诉求。


具体来看,在本能层,重点是增强数字人的吸引力,提升用户的感官层体验,具体可以通过相貌、气质、着装等设计优化以及不断提高仿真模拟能力来实现。在行为层,核心在于人机交互能力,基于语音识别、语音合成、自然语言理解等打造数字人“能听、能懂、能说”的智能人机交互体验,从而提升数字人作为自然人机交互界面的价值。在反思层,重点是打造共情力,即在用户与数字人交互过程中感知情感与引发共情的能力,一方面通过情感计算来赋予数字人识别、理解、表达和适应人类情感的能力,提高人机交互的亲切性和准确性,另一方面要通过塑造人设、打造知名度、跨界合作等持续运营来不断赋予数字人以个性、才华、价值观以及复杂“人性”,从而获得用户的共情、认可与信任。


(三)探索多元商业模式,增强造血功能


商业模式尚不明晰是当前主流视听媒体数字人应用的痛点之一。加之现阶段虚拟数字人的开发成本、终端成本与体验成本依然相对高昂,尤其是高仿真、超写实、AI驱动类数字人研发成本居高不下,这也让数字人商业变现问题显得异常突出。


类似Lil Miquela、Noonoouri等虚拟时尚博主、虚拟网红以及YouTube平台上众多垂类虚拟主播等都是商业化程度较高的数字人应用,“他们”在各社交媒体平台上拥有超高人气,因此可以通过平台收益分成、广告、赞助、付费订阅、电商带货、虚拟道具赠予及打赏等诸多方式变现。但当下主流视听媒体对于数字人项目的应用更侧重于生产端提效,主要商业化途径是新媒体内容的广告变现,规模非常有限。未来,主流视听媒体可参考虚拟偶像运作模式,不断加强资源合作和跨界运营,强化主流视听媒体数字人的知识产权(IP)开发和价值链延展,积极探索非同质化代币(NFT)、数字藏品等新型商业模式,不断拓展数字人的多元应用场景和商业模式,以增强自身的造血功能。

构建可信身份认证,保障内容安全




国内主流视听媒体在积极拥抱虚拟数字人发展的同时,也必须要高度警惕技术滥用带来的内容安全隐患与潜在社会风险。具体来看,用于深度合成AI主播的技术同样可用于“深度伪造”各国政要、公众人物甚至任何一个真实人物,倘若被恶意用于国家之间的政治抹黑、军事欺骗甚至恐怖主义行动,或者被用于非自愿色情、色情报复、诋毁诽谤、身份伪造、诈骗、经济犯罪、虚假信息传播等情形,都将给社会各界带来难以估量的巨大风险与负面影响。


传媒领域数字人应用更为特殊,一旦出现失误,或者被人恶意操控,势必会引发信息传播业公共性侵蚀、新闻真实性与客观性消解、社会信任破坏等重大社会问题。为此,主流视听媒体须始终保持警惕与人文反思,重视内容鉴别技术、溯源追踪技术研发,前瞻性构建数字人可信数字身份认证体系,有力保障内容安全,引导传媒领域数字人应用始终向上向善发展。


(作者系中国传媒大学“媒体融合与传播”国家重点实验室新媒体研究院副研究员,本文受北京高校高精尖学科建设项目中国传媒大学“互联网信息”学科专项资金资助。)


免责声明:

本文转载自电视艺术 张新厂,版权归原作者所有,如若侵权请联系我们进行删除!

易知微以自主研发的EasyV数字孪生可视化搭建平台为核心,结合WebGL、3D游戏引擎、GIS、BIM、CIM等技术,协同各个行业的生态伙伴,围绕着数字孪生技术、数字驾驶舱和行业应用,共同建设数字增强世界,帮助客户实现数字化管理,加速数字化转型。

易知微已经为3000+ 客户提供数字孪生可视化平台和应用,覆盖智慧楼宇、智慧园区、智慧城市、数字政府、数字乡村、智慧文旅、工业互联网等众多行业领域,包括国家电网、移动云、中交建、中铁建、融创、云上贵州、厦门象屿、天津火箭、上海电视台、金华防汛大脑、良渚古城遗址公园、李宁、浙江大学等典型案例!

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。