高书生:文化大模型大规模开发应用的基础条件已具备

慧聪广电网 2024-01-23 08:45 来源:伏羲云

【慧聪广电网】2023年的最后一天,国家数据局联合16个部门印发了《“数据要素×”三年行动计划(2024—2026年)》,文件提出:挖掘文化数据价值,贯通各类文化机构数据中心,关联形成中华文化数据库,鼓励依托市场化机制开发文化大模型。文件刚刚对外公布,参与文化大模型研发的中国公共关系协会文化大数据产业委员会(以下简称“专委会”)成员单位群情激动,纷纷表示要将文化大模型打造成为“数据要素×”三年行动计划的“样本项目”。

文化大模型研发进程

美国OpenAI公司研发的ChatGPT在全球范围所产生的冲击波,不可避免波及到意识形态领域,对青少年价值观认同产生直接影响。专委会征询了相关专家意见,认为应当充分运用文化数字化建设积累的数据,同科技公司联手研发文化大模型。

2023年5月,专委会同华为云计算技术有限公司(以下简称“华为云”)就联合研发文化大模型和应用场景问题进行了深入沟通,华为云认同专委会提出的人工智能大模型是文化和科技深度融合产物的观点,双方应当发挥各自优势、实现强强联合,充分运用文化数字化建设成果,发挥华为云在人工智能大模型领域的技术优势和研发能力,联合研发文化大模型和应用场景,探索人工智能时代维护意识形态和文化安全的有效途径。

文化大模型是基于华为盘古大模型而开发的。华为的盘古大模型是一个基础大模型,主要作用就是做好海量基础知识的学习,可以形象地理解为“读万卷书”。在此基础上依托行业伙伴的专业数据打造行业模型和场景模型,可以称作“行万里路”。文化大模型是在基础大模型的基础上形成的行业模型,文化机构再基于文化大模型开发专业模型,也就是场景模型。

2023年8月,专委会邀请20余家成员单位、国家文化大数据标识基地负责人,在北京召开文化大模型评测工作座谈会,就文化大模型如何赋能文化数字化建设进行深入研讨:

——针对文化企事业单位在文化数字化建设中面临的数据体量大、处理成本高、数据处理效率低等问题,通过文化大模型的自动智能化标识、图像元素自动提取、文生图和图生文的多模态能力可以有效解决。文化大模型帮助文化机构在多个应用场景高效完成各种工作,包括数字人对话、基于NLP的知识问答和搜索、多模态知识图谱生成、AIGC文生图自动标注、画作鉴真、长视频拆条自动处理等。

——针对文化机构自有数据量多、但因大模型投入大而裹足不前,专委会和华为云可以提供安全且自主可控的基础设施平台,保障数据端到端的安全处理,文化机构不需要投入巨额资金建立自己的算力存储基础设施和工具链,就可以使用自有数据拥有专业模型。

2023年9月,文化大模型开发应用大会在中国(南京)文化和科技融合成果展览交易会期间举行,大会展示了基于文化大模型开发应用的示范案例和相关工具等。中国数字文化集团、国家图书馆出版社、雅昌文化集团、北京世纪超星等机构根据评测情况,展示了文化大模型能做什么?

——中国数字文化集团拥有国家舞台艺术影像库等8个主数据库、69个子库、276个文化资源数据库,数据规模达6000TB。由于数据采集、封装、存储的标准不同,在实际工作当中需要投入大量的人力与物力来对数据进行人工识别与手动标注,不仅效率低,增加了人力成本与时间成本,而且错误的数据标识又会影响其他关联数据,最终导致数据标识错误率的增加。接入文化大模型,就可以对海量文化资源数据进行过滤,将重复、冗余、弱相关的旁支数据自动筛除。文化大模型强大的自然语言理解、智能图像识别、图文生成与图文转化功能,还能够直接对文化资源数据的文字描述和图像内容等要素进行理解和识别,自动抓取关键词并智能产出对应的档案标签,自动进行数据分类。

——国家图书馆出版社是一家古籍专业出版社,以整理各种稀见历史文献为主要特色。前期在数字出版方面进行了一些尝试,也遇到了一系列的问题,比如中国古籍据大约有20~30万个品种,因为古籍中的插图没有标准,很多情况下难以判断有没有插图,以及插图在哪一页,只有采用人工的方法,一张张的浏览将插图挑选出来,收集大约14万多张古代插图,就花费了几年时间。利用人工智能技术即使普通人员也可以在短时间内完成。但打造一个出版行业自己的通用大模型,是出版社自身难以实现的目标,而文化大模型的出现,为整个出版行业的发展提供了一个新的契机,借助文化大模型,融合出版可以实现一次新突破。

——雅昌文化集团以艺术数据为核心,打造了艺术行业中最大的中国艺术品数据库,急迫需要在业务应用与海量数据库的数据处理上,以智能化提高效率和质量。运用盘古大模型的CV视觉模型、多模态模型,可以智能化解决图片智能校色、老照片智能修复、图片智能搜索、跨内容的智能标注/关联、以图识文、艺术品价格评估、艺术品鉴定、智能设计、智能排版、构建知识图谱等。

——北京世纪超星信息技术发展有限公司在发展过程中面临两大问题,一是文本数据和图片数据数字化后的利用率不高,二是搜索定位不准确。在文化大模型评测阶段进行了四方面探索:打造知识图谱自动生成功能,提升时间和效率;打造模糊查询、图片检索;查重与分析,实现对文字与图片、图片与视频与音频的查重;智能归类,根据读者平时个人喜好,根据阅读习惯等进行分类和排序,方便读者查询。

经文化机构的评测,文化大模型基本达到了设计目标,能够满足实施国家文化数字化战略中AI能力建设的各类应用场景,包括但不限于:自然语言处理能力(NLP),图片自动分类聚类能力,自动化标签能力,长视频切片能力,知识图谱(语义识别、概念抽取),AIGC能力,赋能数字人等。

文化大模型大规模开发应用的基础条件已具备

《“数据要素×”三年行动计划(2024—2026年)》对文化大模型开发应用指出了清晰的路径:

一是挖掘文化数据价值

二是贯通各类文化机构数据中心

三是关联形成中华文化数据库

自2020年成立以来,专委会积极组织成员单位协同推进国家文化大数据体系建设,为实施上述路径奠定了坚实的基础:

01  布局国家文化大数据标识基地

大模型时代,数据是人工智能的三大核心要素之一。优质的数据集直接决定了大模型的竞争力,要把文化大模型打造为便捷、好用的文化数字化生产工具,离不开高质量数据。数据不标注,等于没内涵;数据不标识,等于没身份。为提升文化数据的供给规模和质量,专委会自2023年起布局国家文化大数据标识基地,旨在对文化资源数据进行分类、编目、标引和赋码。目前,国家文化大数据标识基地已有11个,分布于文化、艺术、电影、出版、广电网络、文化投资等细分行业。

02  推动建设国家文化大数据体系省域中心

中办、国办印发的《关于推进实施国家文化数字化战略的意见》指出:依托现有有线电视网络设施、广电5G网络和互联互通平台,部署提供标识编码注册登记和解析服务的技术系统,完善结算支付功能,形成国家文化专网以及国家文化大数据体系的省域中心和区域中心,服务文化资源数据的存储、传输、交易和文化数字内容分发。国家文化大数据体系省域中心的主要职能,就是按照物理分布、逻辑关联原则,贯通文化机构数据中心。目前,全国11个省级广电网络公司已建成国家文化大数据省域中心,能够为文化机构接入国家文化专网提供网络服务,其中四川广电网络公司承建的省域中心,已为全省314个文化、图书、博物、旅游等机构提供国家文化专网接入服务。

03  推动建设标识解析体系

不同于互联网的域名解析,文化数字化采用的是标识解析。2015年,国际标准化组织(ISO)发布了由我国提案创建的信息与文献领域国际标准,中文叫国际标准关联标识符,英文简称ISLI(International Standard Link Identifier)。依托这项国际标准进行技术架构,即在广电网络公司机房部署提供标识编码注册登记和解析服务的技术系统、在文化机构数据中心部署底层关联服务引擎和应用软件,就可以形成了标识解析体系,数据即使在分布式存储的状态下,依然可以互联互通,实现“物理分布、逻辑关联”,把零散的文化资源数据关联起来,把思想理论、文化旅游、文物、新闻出版、电影、广播电视、网络文化文艺等不同领域的文化资源数据关联起来,把文字、音频、视频等不同形态的文化资源数据关联起来,最终形成中华文化数据库。

04  推动建设国家文化大数据交易体系

在国家文化大数据体系架构上,交易扮演着十分重要的角色——既是资源与生产的中介,又是生产与消费的中介。针对目前数据交易所存在的交易不活跃等问题,文化数据交易倡导“一码通”,即交易主体及其交易标的被赋予唯一的关联标识符(ISLI码),凭码交易、拼码结算。文化数据交易由买卖双方在“数据超市”完成交易,文化产权交易所提供第三方交割,交割完成后“点对点”交付数据,以确保数据安全。目前,由深圳文化产权交易所承建的全国文化大数据交易中心和由江苏文化产权交易所承建的华东区域交易平台均已上线运行。

05  组织开展文化元宇宙试验

文化大模型具有领域宽、应用广的特点。中办、国办印发的《关于推进实施国家文化数字化战略的意见》明确,集成全息呈现、数字孪生、多语言交互、高逼真、跨时空等新型体验技术,大力发展线上线下一体化、在线在场相结合的数字化文化新体验。数字化文化新体验,是文化大模型最重要的应用场景。专委会正在组织开展文化元宇宙试验,旨在培育文化数据要素应用场景,基本思路是把电视机作为文化元宇宙的入口,路径是将机顶盒升级为文化元宇宙发射器,机构和个人进入文化元宇宙需进行身份认证,即被赋予唯一的关联标识符(ISLI码),作为生产者或消费者的凭证。目前,文化元宇宙发射器已研发出来,正在贵州、辽宁、宁夏等地进行测试。

06  合作研发文化大模型一体机

对计算资源的需求、超百亿甚至千亿级的参数规模、体系架构设计的高难度,提升了中小机构其开发应用大模型的门槛。为加速大模型的行业落地,针对百亿级模型应用,华为公司打造了大模型一体机系列,免去大量适配调优、系统搭建的成本,为大模型伙伴提供“拎包入住”式的部署体验,2小时内即可完成部署。为加速推进国家文化大数据体系建设,专委会组织成员单位同华为公司合作研发出国家文化大数据一体化机柜,机柜内部实现了专业机房环境,装配了服务器、交换机等硬件设备,配置文化数据标识服务系统,对机柜微环境参数实施实时监控,由各级广电网络公司负责运维。随着文化大模型的开发应用,专委会同华为公司达成共识,将国家文化大数据一体化机柜升级为文化大模型一体机,底层算力全部采用华为昇腾AI芯片,配备推理等功能,实现“一机在手,开发场景模型不愁”。

文化大模型作为智能化工具,应用范围很广泛,涵盖了宣传思想文化全战线。文化大模型的文化,是“大文化”或跨部门范畴,从部门讲包括宣传、网信、文旅、新闻出版、电影、广播电视、网络文化文艺,从领域上讲包括思想理论、文化旅游、文物、新闻出版、电影、广播电视和网络文化文艺。大模型时代,文化机构一定要跟上科技发展步伐,否则就会落伍甚至被边缘化。文化机构无论规模多大,拥有的数据量多么庞大,如果游离于体系之外,仅仅靠自身的实力开发文化大模型,都会很吃力。在文化大模型开发应用上,“抱团取暖”,“众人拾柴火焰高”,依然是共赢的法宝。

免责声明:凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。