智能技术在视听场景中的应用

慧聪广电网 2020-09-07 09:23 来源：国家广电智

【慧聪广电网】相较于文字，声音和视频是感官更加丰富的传播媒介。智能技术的快速发展，正为这一领域提供更为宽广和富有想象力的发展空间。

一、自动化音乐制作

音乐是人们借以表达复杂情绪的载体，具有荡涤心灵、寻求情感共鸣的感染力。当音乐遇上人工智能，数据和算法的数理逻辑部分替代了形象思维，自动化音乐制作应运而生。

自动化音乐制作的原理即是利用人工智能技术，通过神经网络深度学习，训练出大量不同类型的歌曲并建立数据库，通过程序开发，在若干歌曲中截取某一段音频，对旋律及和声进行解构并重新组合产生新旋律。自动化音乐制作是音乐与科技碰撞的结果，代码与音符齐飞产生出另类的美感。利用AI制作音乐，不仅曲风多元，降低了音乐创作的门槛，还能以低廉的成本提供高效率的前期或后期制作，从多个维度开拓音乐创作和表达的可能性。

2018年11月，中央音乐学院与美国印第安纳大学联合举办了一场“AI之夜”音乐会。这场特殊的音乐会由12位专业的独奏家和人工智能“信息学爱乐乐团”联袂上演。“信息爱乐”可以根据演奏者音乐节奏的变化而变化，进行现场协奏，做到一人一机完美演绎中外作品。

LANDR人工智能音乐开发系统是位于加拿大蒙特利尔的MixGenius公司创造的第一款产品，也是世界上第一人工智能云端音乐人专用平台。用户只需上传音频文件，它就可以自动在线进行母带处理。随着加入LANDR的用户群不断扩大，庞大的用户数量使得其对作品母带进行处理的同时也丰富着自己的素材数据库，对细节的调节越来越精确。更重要的是，相比传统人工母带处理，LANDR自动母带处理费用很低，为预算不足的音乐爱好者提供了一种可享受高质量且成本低廉的选择。

二、智能语音技术

智能语音技术是人与机器之间通过自然语言进行交互的方式。在电子信息时代，智能语音以其广泛的应用场景，通过解放双手和眼睛，逐渐嵌入到大众日常生活中，深刻改变着人们的沟通交流方式。

当下，移动互联网、智能家居、汽车、医疗和教育等领域的应用带动智能语音产业持续快速发展。科大讯飞公司拥有智能语音领域多项核心技术，近年来积极与新闻媒体机构合作，尤其是面向新闻采编工作推出一系列产品，为推动新闻的多样化和高效率传播开辟了新路径；亚马逊、腾讯等科技公司积极布局语音“读新闻”，所开发的“Polly”“新闻超秘”等产品，正在潜移默化地改变着用户传统阅读习惯。新华智云开发的“字幕生成机器人”，能够快速准确地生成字幕，大大减轻了媒体人的工作压力。

三、智能主播

随着人工智能技术的发展，视频新闻的报道形式也在不断创新。除了基于智能化图形识别、VR、AR、MR等技术，沉浸式、全息式、交互式信息呈现方式将在未来获得广泛应用之外，AI合成主播也将颠覆广播电视新闻生产方式，成为新闻报道中的重要一环。

人民日报与科大讯飞推出的AI合成主播“果果”，可使用普通话、粤语、英语、法语、韩语等多种语言24小时不停播报新闻。央视“小白”与白岩松声音相似，在两会新闻中心耐心为记者朋友们解答问题，并处理大量新闻信息。新华社AI主播“新小浩”在2019年两会期间实现了“站起来”的新突破，带着手势、姿态，声情并茂地播报，更接近于真人。

这些AI合成主播能够逼真地模拟人类说话时的声音、嘴唇动作和表情，并且将三者自然匹配。它们与真人主播协同工作，提升了新闻的制作效率，降低了制作成本。特别是在突发性新闻事件报道中，AI合成主播可快速生成新闻视频，提高新闻报道的质量和时效。

四、基于深度仿造技术的视频应用

随着以机器学习为代表的人工智能技术的发展，人工智能自动生成内容的水平显著提高，深度伪造（Deepfake）技术即为其中的典型技术，用于模仿、伪造人类行为特征，生成图片、视频、音频等。

深度伪造技术的兴起主要归功于生成对抗网络（GAN）的出现和发展。研究人员使用大量人脸图像训练GAN网络，使其掌握人脸图像中眼睛、鼻子、嘴巴及表情等特征。在新输入图像与视频后，GAN网络会对人脸特征进行捕获，并完成面部图像的替换与操纵。使用计算机对视频中的多个单帧进行批量处理即可生成深度伪造视频。

当前深度伪造技术的应用方式主要有四种类型：第一种是借助软件更换面部，也是目前为止用得最多的，例如已被国内禁用的换脸软件“ZAO”；第二种是操纵人脸动作，重塑表情、口型和速度，让其发表非其真实意图的言论，如美国网民就曾利用深度伪造技术制作脸书（Facebook）公司CEO扎克伯格的视频，已在网络上广泛传播；第三种是借助深度学习技术，创建在现实生活中并不存在的面部图像，如在职场社交平台领英（LinkedIn）中被称为“数字间谍”的凯蒂·琼斯，就是使用人工智能技术合成的虚拟形象，被用于收集政府官员信息；第四种是将面部表情与声音结合，借助深度学习创建声音模型。如2019年8月，犯罪分子创建德国某能源公司总裁的声音模型，成功骗取该公司英国分部22万欧元。

五、自动化视频生成

视频自动生成技术，即利用人工智能技术将文本直接转化为视频，不仅能更清晰地呈现复杂关系，同时也具有更生动的表现力，能极大地促进新闻信息的多样化生产，提高媒体人的工作效率。

新华智云研发的数据新闻机器人提供18种专业的数据可视化模板，涵盖饼图、柱状图、折线图、排名图等样式。通过流畅的动画效果、高颜值的可视化模板，展现数据间的关系。同时该数据新闻机器人简单易上手，零基础编辑只需上传一个数据表格，即可一键生成对应的可视化视频，大大降低了制作数据可视化视频的门槛。

随着5G不断发展，AI将从更多维度赋能视频应用，包括视频理解、视频审核、视频标签体系、短视频制作等，进一步优化用户的感官和认知体验，强化新闻视觉和互动呈现。

（彭锦根据课题组成果摘编，广电总局发展研究中心）