上海文化广播影视集团有限公司(SMG)在媒资管理系统的构建过程中,通过引入人工智能及互联网技术,形成了一个具备自动编目、媒资百科、知识图谱、自动主题推荐等功能的“新型广播电视媒资生产管理平台”。该平台帮助SMG 实现媒资内容衍生产品的自动化和智能化生产,使其从传统档案管理型媒资向生产服务型媒资转变。
【关键词】
人工智能,媒资管理,自动编目,知识图谱,隐性水印
0 引言
媒体资产管理的概念从提出至今已经数十年,传统广播电视媒资管理理念及系统构建如今已非常成熟。但是,在传统的构建理念下,广播电视媒资系统长期存在着一些难以解决的痛点,严重制约了系统的使用效能:第一,传统广播电视媒资的海量内容长期沉淀于系统中,缺乏内容产品的深度开发,从而造成媒资素材使用效率整体低下;第二,传统媒资管理通常自成封闭体系,缺少与外部实时资讯的联动,对于新媒体时代的节目内容快速生产模式缺乏有效响应;第三,基于人工编目的元数据生产模式生产效率低、成本高、主观性强,无法满足全媒体资讯的大规模、快速生产需要。
SMG 基于AI 的媒资内容管理平台是传统广电行业在AI技术应用上的一次成功实践,通过在媒资管理各主要业务流程中引入人工智能及互联网技术,构建起一个具备自动编目、媒资百科、知识图谱[1]、自动主题推荐等功能的“新型广播电视媒资生产管理平台”。该平台帮助SMG 实现了媒资内容衍生产品的自动化和智能化生产,有效解决了传统媒资管理中的长期缺陷,使SMG 得以从传统档案管理型媒资向生产服务型媒资转变。
1 系统的设计与实现
1.1 总体架构设计
基于AI 的媒资内容管理平台通过综合应用互联网、人工智能等最新IT 技术对现有媒资管理业务进行重新定义,对系统的性能和未来的横向扩展性具有较高的要求,传统的系统部署方案不利于大规模业务数据计算或者业务的快速扩展。因此,在系统设计中,通过SMG 自主构建的IT 基础资源平台作为系统的底层技术架构平台,发挥该平台在计算弹性、资源扩展性等方面的系统优势,对IaaS、PaaS、SaaS 层的资源服务进行统一设计,从而构建出一个完整的、符合现在及将来业务拓展需求的高标准的基于AI 技术的广播电视媒资生产管理平台,如图1 所示。
1.2 业务流程设计
系统以媒资智能检索为核心,提供了互联互通回调、自动编目、媒资百科生产、自动水印、维权检测、专栏专题等主要业务功能,分别面向SMG 全台记者编辑和媒资管理部门用户,为他们提供不同业务场景下的各项具体功能,如图2 所示。
1. 媒资智能检索
媒资智能检索是平台的核心功能之一,主要提供记者编辑对SMG 各系统中的节目内容、素材、媒资词条、节目介质等进行统一的检索和展现。用户通过系统提供的全文检索框实现对节目资料的统一检索,检索结果可根据需要进行分类展示,并且结合知识图谱功能,对检索结果中的相关词条以及词条的知识图谱进行展示,从而向用户提供基于媒资内容的智能推荐。针对检索的内容如果有视频信息用户可以提出回调申请,回调流程在媒资各业务系统中最终实现。
2. 互联互通回调
为了满足媒体管理中的素材一站式回调需求,在确保系统安全性的前提下,项目组设计了符合广播电视媒资管理特点的互联互通传输系统,在基于AI 技术的广播电视媒资生产管理平台的指挥调度下,利用安全传输网关,将各媒资系统的节目文件传输到相应的目的地(各制作系统及办公网公共存储)。
3. 自动编目管理
系统在设计中,通过使用语音识别、OCR 识别等人工智能技术,对媒资内容进行快速、自动编目。对于一些画面、声音质量较好的节目素材,尤其是批量的时长较长的节目素材,可实现超远人工的高效、全面的信息编目。同时,由于系统设计时将自动编目数据和人工编目数据并存于媒资数据库中,在资料检索时可同时进行检索和展现,一方面丰富了系统的检索内容,另一方面有效提升了全文检索的准确度和素材的召回率。
4. 媒资百科生产
项目通过构建基于媒资素材的媒资百科体系,将媒资素材层级的编目标注进一步提升至主题层级的知识加工,并且在媒资百科生产流程中引入了互联网热点关联分析、一键生成知识图谱等创新功能,从而使媒资百科生产模式向半自动化的批量化生产发展,大幅提升了主题知识加工的效率和准确度。
5. 自动水印管理
平台融合了最新的视频水印技术,主要应用于对视音频等数字内容产品的版权提供保护。针对高码内容资源,加入隐性水印,记录版权所属、分发渠道等信息,视频经压缩,调色,缩放,剪辑、转码等操作后仍旧能够准确无误提取出其中的水印信息,达到版权追溯效果;针对低码内容资源的下载,加入显性术印,方便地实现新媒体发布的同时对盗版行为起到警示作用。两种水印保护措施相互配合,为全媒体覆盖的版权保护和盗版跟踪提供了有效的手段
6. 维权监测
自动检测模块将基于现有的版权维护流程,将人工记录和归档方式,转换成高效的电子化操作。通过SMG 维权管理子系统设计将通过互联网,与律所、监测方多方合作完成对版权资产的维权保护,并将信息与媒资版权相关业务进行整合展现。同时,利用隐性水印的解码,实现对已加嵌隐性水印的珍贵素材进行版权检测,确认素材的版权所属、素材的流出途径等。
2 关键技术与创新
2.1 媒资百科及知识图谱
SMG 基于AI 的媒资内容管理平台在广播电视媒资管理领域,首创了媒资百科、知识图谱等媒体内容产品,并实现大规模半自动化生产。具体实现上,通过智能语义分析和关联技术完成音视频资源的快速聚合,形成媒资百科,并在媒资百科生产过程中自动采集互联网知识数据,对不同来源数据的结构化处理,提取实体信息,并通过算法计算实体间的关联关系,最终生成媒资知识图谱。AI 技术的运用,更是将媒资百科生产从纯人工生产方式向半自动化生产转变,提升了生产效率,快速扩充SMG 媒资百科词条数据,为终端节目制作提供基于媒体内容资源的知识服务。
2.2 自适应嵌入强度的视频隐性水印技术
基于改进的DT-CWT 算法[2],自主研发隐性水印技术,利用图像处理,密码学和计算机技术对视频进行分帧处理,通过变化域的嵌入保证了水印的安全性,同时利用人眼不敏感的第三层高频子带嵌入保证了水印的隐蔽性,进而较少地损失了视频的质量。同时,嵌入的水印有较好的鲁棒性,可以抗多种视频编码格式的转码,以及视频码率的压缩,画面的调色和裁剪等,为全媒体覆盖的版权保护和盗版跟踪提供了有效的手段。
2.3 基于人工智能的媒资素材智能编目
平台利用AI 识别技术所架构的智能媒资编目系统年产量可达3 万小时,大幅降低了媒资编目的人力成本。同时,系统将自动编目结果与媒资素材检索、媒资主题推荐等业务流程相结合,进一步为记者编辑提供基于人工智能的智能媒资服务。
在智能媒资编目的具体实现过程中,我们将每台设备、每个应用模块都进行了标准化处理,即:只要确保应用模块基本属性一致,可由不同的程序开发语言或第三方应用替换,随时更换所需的应用模块。这种应用模块的标准化构建技术理念,对于今后自动编目功能的扩展、技术更新提供了充分的空间。
2.4 高性能分布式全文检索系统
由于系统涉及SMG全台广播电视媒资内容的生产和调用,对实时检索能力和容错能力有非常高的要求,项目组以Solr和Zookeeper 为核心,构建了一组完整的分布式全文检索系统,以确保检索性能。
针对媒资内容多层级、多系统来源的特点,项目组分别从排序策略、分词器、词库更新等多个维度对检索系统进行整体调优: (1) 在排序策略上,通过使用Solr的edismax实现的方法,构建自定义评分器,优化boost 评分。(2)采用针对Lucene 全文检索优化的查询分析器IKQueryParser,采用歧义分析算法优化查询关键字的搜索排列组合,从而极大提高检索的命中率。(3)集中管理词库文件,在各个Solr 节点,定时从数据库或缓存里读取并更新(在IKAnalyzer 源码的Dictionary 类中进行更新),从而保证整个检索集群只需维持一份词库文件,而且可以支持结合本地词库+ 数据库的方式一起工作,为分词词库的扩展提供了可行性。
3 实际效益
基于AI 技术的广播电视媒资生产管理平台汇聚了SMG百万小时的媒体内容资产信息,面向SMG 全台用户,覆盖传统和新媒体节目制作,提供了一站式媒资生产管理服务:一方面,系统提供的基于AI 技术的智能编目已用于大批量素材的日常编目工作,年节约编目成本约600 万元,同时还被应用至唱词翻译、场记速记等节目生产领域,产生了额外经济效益;另一方面,系统所提供的自动水印方案,为SMG 新媒体节目分发和素材交易提供了有效的版权保护手段。平台上线运行以来先后支撑了博鳌亚洲论坛峰会、改革开放40 年等重大宣传报道任务,发挥了突出的作用。
4 结束语
人工智能技术的应用和普及对于传统广播电视内容生产效率的进一步提升具有显著促进作用,其关键在于解决技术创新与业务流程的适配,从而带动业务模式的变革与创新。SMG 在媒资管理系统的构建过程中,通过引入人工智能及互联网技术,形成了一个具备自动编目、媒资百科、知识图谱、自动主题推荐等功能的“新型广播电视媒资生产管理平台”。该平台帮助SMG 实现媒资内容衍生产品的自动化和智能化生产,使其从传统档案管理型媒资向生产服务型媒资转变。
平台将人工智能技术与广播电视媒资生产管理实际业务相结合,实现了降本增效,提升了服务水平,成为人工智能技术在广电行业成功应用的范例。同时,通过自主研发的隐性水印技术,首次在行业内实现节目素材版权的追踪保护,对于完善我国自主创新的数字版权管理生态体系也具有积极的推进作用。