(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 111143651 A(43)申请公布日 2020.05.12
(21)申请号 2019113402.5(22)申请日 2019.12.23
(71)申请人 安徽海豚新媒体产业发展有限公司
地址 230000 安徽省合肥市包河区花园大
道以南泰山路以东滨湖卓越城文华园2号楼201室(72)发明人 翟应斌 管华骥 张坤永 李著
朱运东 (74)专利代理机构 杭州君度专利代理事务所
(特殊普通合伙) 33240
代理人 王桂名(51)Int.Cl.
G06F 16/951(2019.01)G06F 16/11(2019.01)G06F 16/215(2019.01)
权利要求书2页 说明书4页
G06F 16/25(2019.01)G06F 16/27(2019.01)G06F 16/40(2019.01)
(54)发明名称
一种新媒体一体化运营管理用数据采集分析系统(57)摘要
本发明涉及新媒体数据分析技术领域,尤其涉及一种新媒体一体化运营管理用数据采集分析系统;包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;数据分析模块用于数
提供数据检查据的抽取、转换、清洗和加载处理,
规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载。本发明数据调取方便,数据处理逻辑路线短,数据处理速度快,在数据处理过程中可以在过程中实现多种任务操作。CN 111143651 ACN 111143651 A
权 利 要 求 书
1/2页
1.一种新媒体一体化运营管理用数据采集分析系统,其特征在于:包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;
所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
数据存储模块用于存储采集数据及处理结果数据;数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;
数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用。
2.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇聚单元、分布式存储与计算单元和实时统计单元;
所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;所述应用服务模块包括用户服务单元、电视台内部服务单元、企业服务单元。3.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。
4.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:
计算字段转换:使用公式体系进行数据计算;多播转换:将一个输入定向到多个输出;查找转换:对字段进行字典表查找或统计操作;分组统计转换:对输入数据进行分组汇总和统计;合并行转换:将多行输入合并为一行输出;拆分行转换:将一行输入拆分为多行输出;表关联转换:将两张输入表进行关联输出;
2
CN 111143651 A
权 利 要 求 书
2/2页
排序转换:对输入数据进行排序;冗余分拣转换:对重复的数据进行分拣处理;过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。
5.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;
数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;
数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;
数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
6.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块还包括输出适配器,用于实现数据加载功能。
7.根据权利要求1所述的一种新媒体一体化运营管理用数据采集分析系统,其特征在于:所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行控制。
3
CN 111143651 A
说 明 书
一种新媒体一体化运营管理用数据采集分析系统
1/4页
技术领域:
[0001]本发明涉及新媒体数据分析技术领域,尤其涉及一种新媒体一体化运营管理用数据采集分析系统。
背景技术:
[0002]新媒体产业是指以数字技术、计算机网络技术和移动通信技术新兴技术为依托,以网络媒体、手机媒体、互动性电视媒体、移动电视、楼宇电视新兴媒体和新型媒体为主要载体,按照工业化标准进行生产、再生产的产业类型,是文化创意产业的重要组成部分。集成播控平台是在新媒体产业大发展的环境下,由广播电视机构负责的内容播出的控制和管理平台。
[0003]新媒体一体化运营管理过程中,需要对不同的数据进行采集,现有数据采集分析中心的结构单一,数据调取处理不方便,数据处理分析速度慢,不能满足新媒体一体化运营要求。
发明内容:
[0004]本发明目的是提供一种新媒体一体化运营管理用数据采集分析系统,至少解决现有的数据采集分析中心的结构单一,数据调取处理不方便,数据处理分析速度慢,不能满足新媒体一体化运营要求的问题。[0005]为了实现上述目的,本发明采用以下技术方案予以实现:[0006]一种新媒体一体化运营管理用数据采集分析系统,包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;[0007]所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;
[0008]数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
[0009]数据存储模块用于存储采集数据及处理结果数据;[0010]数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;[0011]数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
[0012]数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;[0013]应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用。[0014]进一步的,所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
4
CN 111143651 A[0015]
说 明 书
2/4页
所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇
聚单元、分布式存储与计算单元和实时统计单元;
[0016]所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;
[0017]所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
[0018]所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
[0019]所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;[0020]所述应用服务模块包括用户服务单元、电视台内部服务单元、企业服务单元。[0021]进一步的,所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。[0022]进一步的,所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:[0023]计算字段转换:使用公式体系进行数据计算;[0024]多播转换:将一个输入定向到多个输出;[0025]查找转换:对字段进行字典表查找或统计操作;[0026]分组统计转换:对输入数据进行分组汇总和统计;[0027]合并行转换:将多行输入合并为一行输出;[0028]拆分行转换:将一行输入拆分为多行输出;[0029]表关联转换:将两张输入表进行关联输出;[0030]排序转换:对输入数据进行排序;[0031]冗余分拣转换:对重复的数据进行分拣处理;[0032]过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。[0033]进一步的,所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
[0034]文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;[0035]数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;[0036]数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;[0037]数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
[0038]进一步的,所述数据分析模块还包括输出适配器,用于实现数据加载功能。[0039]进一步的,所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行
5
CN 111143651 A
说 明 书
3/4页
控制。
本发明提供的一种新媒体一体化运营管理用数据采集分析系统,具有以下有益效
果:数据调取方便,数据处理逻辑路线短,数据处理速度快,在数据处理过程中可以在过程中实现多种任务操作;数据处理分析过程中中,对数据进行全方位检查,防止出错,提高处理速度和准确度。
具体实施方式:[0041]应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。[0042]下面将对本发明的实施例中的技术方案进行清楚-完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0043]下面具体介绍本申请的各种非性实施例:
[0044]一种新媒体一体化运营管理用数据采集分析系统,包括:资源管理模块、数据采集模块、数据存储模块、数据处理模块、数据分析模块、数据管理模块、应用服务模块;[0045]所述资源管理模块用于操作系统的安装部署和硬件虚拟化、大数据群的自动化部署;
[0046]数据采集模块用于对IPTV、网站、微信矩阵以及移动客户端各平台用户的访问、浏览、点击情况进行采集;
[0047]数据存储模块用于存储采集数据及处理结果数据;[0048]数据处理模块用于对采集数据的清洗与管理、用户数据的生产、过滤条件的管理,以及对用户数据的计算、分析与处理;[0049]数据分析模块用于数据的抽取、转换、清洗和加载处理,提供数据检查规则定义、数据质量报告、计划任务管理、异常管理功能,及时对数据处理方案定义,实现海量数据的加载;
[0050]数据管理模块用于将获取到的数据进行基于各种算法的建模与挖掘;[0051]应用服务模块用于将数据分析结果应用到决策过程中以解决实际问题,数据分析的结果最终要提供给外部客户和公司内部使用。[0052]具体的,所述资源管理模块包括操作系统的自动部署单元和大数据群的自动部署单元;
[0053]所述数据采集模块包括终端采集单元、认证配置单元、前置采集单元、中心数据汇聚单元、分布式存储与计算单元和实时统计单元;
[0054]所述数据存储模块包括分布式存储系统单元、分布式数据库单元、关系型数据库单元;
[0055]所述数据处理模块包括并行数据采集和导出单元、流程管理单元、云数据管理单元、实时数据采集单元;
[0056]所述数据分析模块包括分析引擎单元、分布式计算引擎单元、流计算引擎、实时数据处理单元;
[0057]所述数据管理模块包括第三方数据管理单元、媒体数据中心数据管理单元;
6
[0040]
CN 111143651 A[0058]
说 明 书
4/4页
所述应用服务模块包括用户服务单元、电视台内部服务单元、企业服务单元。
[0059]具体的,所述数据处理模块还包括数据抽取单元,所述数据抽取单元用于根据用户系统的数据内容自动进行优化处理,依据数据格式、数据量、系统负载效率信息自动选用相关的优化策略进行优化,保证海量数据提取的效率和质量。[0060]具体的,所述数据分析模块还包括数据处理适配器,用于提高数据抽取的效率,对用户配置的数据进行转换,转换包括:[0061]计算字段转换:使用公式体系进行数据计算;[0062]多播转换:将一个输入定向到多个输出;[0063]查找转换:对字段进行字典表查找或统计操作;[00]分组统计转换:对输入数据进行分组汇总和统计;[0065]合并行转换:将多行输入合并为一行输出;[0066]拆分行转换:将一行输入拆分为多行输出;[0067]表关联转换:将两张输入表进行关联输出;[0068]排序转换:对输入数据进行排序;[0069]冗余分拣转换:对重复的数据进行分拣处理;[0070]过滤转换:按一定的业务规则对数据进行过滤处理,使用公式描述规则。[0071]具体的,所述数据分析模块还包括数据检查适配器,用于对抽取数据进行检查,具体检查包括:
[0072]文件名规则检查:通过系统的模式匹配引擎,对文件命名进行约束,通过定义文件命名模式规则剔除命名错误的文件;[0073]数据格式检查:对传入的文本数据或数据库数据,可以通过系统内置的错误检查函数进行检查,分拣格式错误的数据输入;[0074]数据完整性检查:通过定义一些字典表、维度表、数据参照表对抽取数据进行完整性分析,剔除数据中的不合法数据,或对错误数据进行重定向输出;[0075]数据类型映射检查:对于错误的数据类型映射,一部分错误系统在实施阶段即可进行检查,并且该检查处理是在用户配置方案的同时实时进行;另一部分错误情况可能是由于后期数据源或目标调整造成,在执行时可以进行识别并进行重定向处理,记录相关的日志信息。
[0076]具体的,所述数据分析模块还包括输出适配器,用于实现数据加载功能。[0077]具体的,所述数据分析模块中还内嵌工作流引擎,用于对提取的先后顺序进行控制。
[0078]以上显示和描述了本发明的基本原理、主要特征和本发明的特点。本行业的技术人员应该了解,本发明不受上述实施例的,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求保护的范围由所附的权利要求书及其效物。
7