【CCNS & ISBT 2024专稿】王永滨:基于AIGC技术的视听新变化

慧聪广电网 2024-05-16 16:39 来源:慧聪广电网

【慧聪广电网】2024年5月16日,“第32届中国数字广播电视与网络发展年会暨第27届国际广播电视技术讨论会(CCNS & ISBT 2024 )”在风景壮丽的湖北恩施市盛大召开。本次会议以“科技创新引领行业发展”为主题,围绕科技创新与广电高质量发展、媒体深度融合与全媒体传播、有线电视网络整合和5G一体化发展、超高清电视、高新视频、融媒体、元宇宙、人工智能云计算大数据、6G等新技术、新应用作报告,为中国广电行业发展赋能。

【CCNS & ISBT 2024专稿】王永滨:基于AIGC技术的视听新变化

中国传媒大学科协副主席、教授、博导王永滨

中国传媒大学科协副主席、教授、博导王永滨先生在题为《基于AIGC技术的视听新变化》的演讲中表示,随着科技创新和基础设施的完善,人工智能生成内容(AIGC)技术正在成为视听产业的新质生产力,为未来的视听体验带来了无限可能性。他从AIGC领域中的视频生成和音频处理技术出发,结合个性化视听体验的应用场景,探讨AIGC技术助力新视听产业发展的可行性,并总结了在当前应用环境下AIGC技术面临的挑战和不足。

今天,在人工智能科技革命和视听产业变革的浪潮中,AIGC不仅扮演着推动产业发展的关键角色,更以其前瞻性的创新引领着视听模式的变革与融合。

近年来,随着算力、预训练模型和多模态技术的不断汇聚发展,人工智能生成内容(AIGC)已经成为视听领域的一大亮点。在聊天机器人、AI 作画、虚拟主持人和新闻写作等视听应用场景中,AIGC均展现出了其独特的优势和潜力,不断推动着相关领域的创新与突破。

基于AIGC的视频生成技术方面,AIGC的卓越表现离不开作为基座的大模型,而大模型上的尺度定律是其成功的关键。通过训练具有庞大规模参数的模型,使其表现出新的复杂行为或功能,这一现象通常被称作“涌现”。尽管以ChatGPT为代表的众多大语言模型都展现出一定程度的涌现能力,但在视觉领域的大模型中,涌现能力的存在却鲜有确证。王永滨教授指出,Sora、GPT等预训练大模型不仅能用于个人视频生成,还在新视听领域中展现了巨大的潜力。在传统的电影行业,电影创作是艰苦且昂贵的,通常需要团队配合、设备基础和大量资金投入,但前沿的视频生成技术正在让一键实现电影制作从梦想走入现实。

在基于AIGC的音频处理技术方面主要有三类,分别是文本生成语音、语音克隆和AI音乐生成。其中,在AI音乐生成任务方面,目前的AIGC技术可以支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。

同时,AIGC在助力独特视听体验方面也有独到之处,比如生成式视听推荐、虚拟现实交互等。随着AIGC技术的发展,更多全新视听交互模式即将出现,相信它将成为未来虚拟现实体验的重要推动力,为用户带来更加丰富和多样化的沉浸式体验。

今天,现有的AIGC技术正在迈向高生成内容质量、强指令语义理解和多领域泛化,在视频生成、音频处理和个性化推荐和虚拟交互视听体验上,AIGC将赋能新视听产业发展、丰富人民生活、提升社会现代化水平。

但同时,AIGC在视听领域也存在着挑战与局限。比如反物理问题,无中生有等等。在他看来,AIGC这些问题的出现,主要是因为视频用于有监督学习的数据不够和学到了分布外的长尾数据。可能的应对的方法是视频帧之间的语义联系的学习、知识表达方法研究和训练数据挑选方法。他强调,数据、算法、算力、知识四要素齐全是AIGC系统成功的重要因素。

当前,大语言模型主要面监8个方面的问题。

角色化大模型角色化指的是让一个大模型在不同情境或应用中扮演不同的角色或身份。例如,一个通用的自然语言处理(NLP)模型可能需要在对话系统中扮演客服、教师、朋友等不同角色。然而,当前的大模型(如GPT系列、BERT等)通常被设计为通用的,并不具备直接根据上下文自动切换角色的能力。

极性化:让同一个大模型在处理相似任务时表现出不同的倾向性或“极性”。例如,在处理情感分析任务时,有时需要模型表现出积极的情感倾向,有时则需要表现出消极的情感倾向。然而,目前的大模型通常是根据训练数据自动学习到的模式进行预测,而不具备直接控制其情感倾向性的能力。

并行化挑战:虽然并行化是提高计算效率的有效方法,但对于大模型来说,并行化并非易事。大模型包含大量的参数和复杂的计算图,如何有效地进行并行化以提高训练和推理速度仍然是一个挑战。

记忆力有限:尽管大模型具有庞大的参数量,但它们仍然无法记住大量具体的事实知识。这可能导致在需要记忆的任务上表现不佳,尤其是在处理大量信息或长时间记忆的情况下。

模型幻觉:大模型有时会产生一些不真实或不合逻辑的预测,这被称为模型幻觉。这可能是由于模型过度拟合训练数据或缺乏足够的数据多样性导致的。

泛化能力有限:虽然大模型在某些任务上表现出色,但它们的泛化能力可能有限。这意味着当面对新的任务或数据集时,大模型可能会出现性能下降的问题。

数据安全和隐私问题:大模型的训练需要大量的数据,这些数据可能包含敏感信息。如何确保数据的安全性和隐私性是大模型面临的一个重要问题。

解释性不足:大模型的决策过程通常是黑箱操作,难以解释。这使得人们难以理解模型的行为和预测结果,给监管和政策制定带来了挑战。

王永滨教授最后指出,中国的视听产业正站在一个由追赶向超越追赶转变的重要节点,新兴的AIGC技术范式宛如一股强大的动力源泉,为加速视听产业新质生产力的孕育和成长提供了前所未有的战略机遇。探索这一技术范式不仅深度赋能新视听产业的全链条、全过程,更能成为推动社会经济发展的强劲变速器,引领着整个产业迈向更加广阔和深邃的未来。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。