蒋鉴:基于文化大模型的数据自动标注
【慧聪广电网】9月21日,由中国公共关系协会文化大数据产业委员会(以下简称“专委会”)主办的文化大模型开发应用大会在南京举行。中国数字文化集团(以下简称“中数集团”)大数据中心主任蒋鉴发表题为《基于文化大模型的数据自动标注》的案例分享,以下是演讲全文。(根据讲话录音整理)
尊敬的各位领导、专家、老师,大家下午好!
感谢大会主办方邀请参加本次文化大模型应用开发大会,我今天向大家展示关于文化大模型做自动标注的案例分享。
2022年4月,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》。实施国家文化数字化战略写进党的二十大报告,标志着实施国家文化数字化战略已成为全党共识。文化的传承与发展逐渐走向智能化,维护意识形态和文化安全需要有先进的技术保障,大模型时代的到来,文化大模型应运而生。
在盘古大模型基础上诞生的文化大模型是由中国公共关系协会文化大数据产业委员会 (专委会)和华为云计算技术有限公司 (华为云)联创研发的,有效支撑了AI技术在文化领域的落地开花。
文化企事业单位在实际工作中往往面临许多人力和技术问题,而文化大模型的自动智能化标识、图像元素自动提取、文生图和图生文的多模态能力能够有效赋能文化企事业单位的文化数字化建设,创新数字文化应用。
中数集团集成了大量优质的文化艺术资源,经由专业的分类、处理和存储,目前拥有国家舞台艺术影像库、中国传统音乐库、中国大学生优秀数字艺术作品库、《伟大征程》艺术档案库、世界音乐资源库、世界乐谱资源库、世界美术资源库、非物质文化遗产库等8个主数据库、69个子库,276个文化资源数据库,资源总数高达6000TB。
在中数集团实际对文化大数据的采集、开发、利用过程中,依然存在不少有待解决与优化的问题。
由于集成数据采集、封装、存储的标准不同,中数集团在实际工作当中需要投入大量的人力与物力来对文化大数据进行人工识别与手动标注。这种方法的缺点主要有两点。
首先,面对数据体量庞大的文化大数据,仅仅依靠手动操作和人工处理显然是捉襟见肘。例如,想要提取一段非遗技艺视频中的关键信息,中数集团需要人工多次观看、反复比对才能将视频中的标识要素给提取出来,不仅效率低下,还极大增加了人力成本与时间成本的负担。
其次,手动分类与标识的文化大数据还存在标识错误率偏高的问题。在面对体量大、相似度高的文化大数据时,进行处理的工作人员无法保证长时间和高强度的注意力集中,而错误的数据标识又会影响其他关联数据,最终导致数据标识错误率的增加。
当下,中数集团拥有一套面向文化机构和文艺院团的数字资源内容管理与数据治理的技术体系和框架软件,可以覆盖文化大数据收集、编目、存储、保护、信息检索、统计等常见需求,有效提升了自身对珍贵文化素材的利用和保护水平。
目前该系统已开发完成,系统基础功能包括采集与整理、归档与管理、查询与利用、系统管理;同时还具有档案文件批量导入、自动预处理、自动播放展示,自然语言自动处理、自动标记与档案字段填充,基于专门构建的文化资源字典库、文本处理较准确等特色功能。极大地简化了原有的需要大量人工进行的档案管理工作。
预期在未来接入文化大模型后,中数集团就可以更加高效、智能地对文化素材进行自动化、智能化标识,达到降本增效的目的。
首先,未来系统接入文化大模型后,就有望自动化、智能化地对系统中导入的海量文化大数据进行过滤,将重复、冗余、弱相关的旁支数据自动筛除,留下更加核心的重要数据。这样一来,在面对庞大的数据海洋时,中数集团将来就不必苦苦“大海捞针”,而可以做到“披沙拣金”。
其次,文化大模型强大的自然语言理解、智能图像识别、图文生成与图文转化功能还能够在未来使中数集团自研系统在文化大数据上传的过程当中,直接对文化大数据的文字描述和图像内容等要素进行理解和识别,自动抓取关键词并智能产出对应的档案标签,自动进行数据分类。这样一来,同样是一段京剧视频,将来系统就能够基于文字信息和视频内容自动提取出其唱腔、行当、流派等关键要素,并转化为标识信息,工作人员只需要进行简单的核对与审阅就可以完成任务。可见,相比人工识别、手动标注的传统模式,接入文化大模型后的全新模式在工作效率和准确程度上都能够实现质的飞越。
最后,未来接入文化大模型后带来的AI与人工协同工作的全新模式,无疑能够进一步提升中数集团对文化大数据的利用和开发效率,在将来创新出更多样丰富的文化大数据产品,为数字文化事业提供更强劲的发展动力,带来更惊人的突破创新。
文化大模型还将为中数集团的文化数字化工作带来更多富有创意的线上与线下场景,智能化、自动化将成为未来中数集团赋能的关键词。例如,文化大模型能够在元宇宙等虚拟空间中为非物质文化遗产数字展品开辟全新的创意展览空间,提供颠覆性的视听和交互体验;文化大模型还能够在线下为中数集团布局的文化云驿站等公共服务设施提供定制化、智能化的全新体验模式,引导大众文化生活走向数字科技云端。
谢谢大家!