龙源期刊网 http://www.qikan.com.cn
网络舆情监测引导系统研究
作者:段淑敏
来源:《经济研究导刊》2012年第28期
摘 要:网络舆情监测与引导是个复杂的技术和管理过程,必须充分利用Web数据挖掘技术的优势,建立完善网络舆情监测引导系统,进一步提升信息化、自动化和智能化,自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。 关键词:网络舆情;监测引导;Web数据挖掘
中图分类号:C93 文献标志码:A 文章编号:1673—291X(2012)28—0227—03 一、时代背景
互联网时代是人类历史上一个空前伟大的技术时代。现代信息技术、通讯传播技术、网络技术等众多现代化的传播技术已渗透到社会生活的各个领域。互联网广泛性、即时性、开放性、共享性和互动性的特点及丰富多彩、方便实用的应用形式决定其日益成为反映社情的重要阵地,网上热点层出不穷,网络舆情对国家事务、公共事务决策的影响力也日益加大。历史原因曾使中国长期处于封闭状态,国内关于舆情的研究起步较晚,目前迫切需要提升与之相应的理论和技术支持。舆情分析与监测是信息深加工,以往“剪报”式低价值粗加工的信息服务,虽可按主题范围搜集,但提供的结果仅局限于单一的信息内容,传统的单一线性收集方式已不能够满足人类大脑发散思维的需要。 二、网络舆情监测引导的技术支撑
在浩瀚的网络中,如果仅仅依靠人工完成网络海量信息的收集和处理是不现实的。而Web数据挖掘能快速、准确的获得有价值的网络信息,利用历史数据预测未来的行为以及从海量数据中发现知识。它克服了普通数据库管理系统无法发现数据中隐藏的关系和规则及根据现有数据预测未来的弱点。Web数据挖掘的出现为自动和智能的把互联网上的海量数据转化为有用信息和知识提供了条件。可有效地从Web获取并分析相关舆情,达到监测、辅助决策和引导的目的,为网络舆情预警提供了极大的帮助。 (一)Web数据挖掘
Web数据挖掘由传统数据库领域的数据挖掘技术演变而来。数据挖掘是指从大型数据库的数据中提取出人们感兴趣的、可信的、隐含的、明显未知的、新颖的、有效的、具有潜在用处的信息的过程[1]。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出新的理论与方法,演变成网络数据挖掘技术。Web数据挖掘是指对目标样本进行分析提取特征,以此为依据从Web文档和Web活动中抽取人们感兴趣、潜在的有用模式和隐藏的信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。
龙源期刊网 http://www.qikan.com.cn
根据挖掘对象的不同,可将Web数据挖掘技术分为三大类[2]:Web内容挖掘、Web结构挖掘和Web使用挖掘。Web内容挖掘是指从Web上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴含于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。结构挖掘的重点在于链接信息。Web使用挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,利用这种方法,可以获知Web使用者的行为偏好,从而预测其行为。 (二)Web挖掘过程
Web数据挖掘依然遵循数据挖掘的研究思路,挖掘过程分为四个阶段:数据收集、数据预处理、模式发现和模式分析(如图1所示)[3]。
1.数据收集。网络信息的收集是网络舆情监测的源头,其广度和深度决定了监测效果。对于明确主题的舆情信息采集,可以采用搜索引擎方法。由于各个现存搜索引擎索引数据库的构造方法不同,其索引数据不尽完整,所以应将多个单搜索引擎搜索结果进行整合、调用、控制和优化。搜索中可以以宽度优先、深度优先或启发方式循环地在互联网中发现相关信息,可将网络空间按域名、IP地址或国别域名划分为子空间详细搜索;或以信息类型为划分,如HTML格式、XML格式、FTP文件、Word文档、newsgroup文章和各种音、视频文件等。舆情信息检索结果可按不同维度展现,包括按内容分类、舆情分类、相关人物、相关机构、相关地区、正负面分类等。每个维度下把搜索结果自动分类统计展示,以便短时间内检索到精确信息。
2.数据预处理。因原始Web访问数据的文件格式是半结构化的,包含不完整、冗余、错误的数据,需进行提取、分解、合并,转化为适合挖掘的格式,保存到关系型数据库表或数据仓库中,等待进一步处理。数据预处理可改进数据质量,提高后续舆情挖掘过程的精度和性能。对采集到的舆情进行初步加工处理,如格式转换、数据清理、数据统计,对于新闻评论,需过滤无关信息,保存新闻标题、出处、发布时间、内容、点击次数、评论人、评论内容和评论数量等。对于论坛,需记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时甚至可直接对网站服务器的数据库进行操作。
3.模式发现。利用数据挖掘的算法可发现用户聚类、页面聚类、频繁访问页组、频繁访问路径等隐藏的用户访问模式。若在挖掘用户浏览模式过程中发现选择的数据或属性有偏差,或挖掘技术达不到预期结果,需根据反馈结果不断重复以上过程,通过数据挖掘,创建和更新用户模式库。模式发现可应用许多相关领域的方法,但需针对Web数据挖掘的特点做出相应的改进。
龙源期刊网 http://www.qikan.com.cn
统计分析。通过分析会话文件,可对页视图、浏览时间和浏览路径长度进行各种不同的描述性统计分析(频繁访问页、频率、均值、中间值和访问量的时间分布等),提高网络舆情挖掘的效率和质量。
路径分析。发现站点中最常被访问的路径及其他相关路径信息。信息采集过程中的静态数据可采用该技术,采用图的方法来分析Web页面间的路径关系。G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其他的页面,这样形成网站的结构图,从中可确定最频繁访问路径,此路径指向的信息极有可能就是互联网上的“热点”和“焦点”。
关联规则。挖掘的是客户的不同浏览事务所涉及的大量数据中项集间的联系规律。利用该算法可从纷杂的网络信息中找出促使网络舆情产生、变化的内在因素,帮助揭示舆情的变动规律,挖掘出影响因素间的相互关系。
序列模式。挖掘出交易集间有时间序列关系的模式,由此确定用户将来访问趋势和模式。在舆情信息汇集和分析的基础上,可将社会运行接近负向质变的临界值的程度进行早期预报,提前发现不良事件的苗头,尽早梳理,快速应对,达到预防和控制作用。
分类。先从数据中选出已分类的训练集,运用分类技术,建立分类模型,对未分类数据分类。分类模型由分类器或分类函数确定相应类别,分类模型类别可由特征化了的属性集合描述。分类发现可描述特殊群体的公共属性。在网络舆情研究中,可根据自身需求对大量的网络信息初步筛选,进行分类、分组,如设置“民生问题”、“突发事件”、“公共安全”、“经济危机”等。然后有针对地进行数据选择,进行数据集合,缩小挖掘范围,避免盲目搜索。从而得到更精确、更有价值的信息。
聚类。聚类和分类的主要目的都是对Web对象归类,不同之处是聚类未事先定义好主题类别,需将Web对象特征化后归类分析,使同类的对象具较高相似度,而不同的类中对象差别较大[4]。
预测分析。利用历史数据中找出的变化规律,建立专用模型,通过此模型对未来数据的种类及特征等其他方面进行预测,得出未来可能出现的结果。提前预测,提前防范意外,为后续工作做好准备,预测关心的是精度和不确定性,通常利用预测方差来进行度量。
偏差分析。指发现数据库中的异常数据,其检验的基本方法是寻找观察结果与参照之间的差别。偏差分析可以对网上虚假信息和不良信息进行及时批驳,在纠正偏差中使造假和诽谤不攻自破;可以准确及时地挖掘提取与热点事件相关的真实信息,以形成网上正面导向。 4.模式分析。模式分析主要是为了从模式发现算法找到的模式集合中筛选出有趣的模式。精确的分析方法通常由Web挖掘的具体应用来控制。模式分析的形式可以是类似SQL的知识
龙源期刊网 http://www.qikan.com.cn
查询机制,也可以把Web使用数据装入数据仓库,以便执行OLAP操作。另外,可视化技术在视图分析中被广泛应用,数据模型中的变量特征、操作子模式都可用图形化的工具标识,这对揭示数据中内在本质及分布规律起到很强的作用。 三、网络舆情监测引导系统
为加强对网络信息的控制能力,特别是动态信息的监测,有必要利用Web数据挖掘技术建立一套网络舆情监测系统,实现对舆情采集、监测和预警的信息需求,为使用者全面掌握群众思想动态,做出正确引导,提供分析依据。网络舆情监测引导系统以信息资源管理制度和安全保障体系为支撑,基于软硬件、数据管理平台,依托搜索引擎和Web数据挖掘技术。该系统包含四个功能模块:Web舆情采集模块、Web舆情预处理模块、Web舆情挖掘分析模块、Web舆情辅助决策模块(如下页图2所示)。
1.Web舆情采集模块。系统应能根据用户信息需求,设定主题、关键词目标,通过人工参与和自动信息采集结合来完成信息收集任务。根据不同舆情专题需要输入不同的待采集的目标网址,自动采集新闻信息,统一加工过滤、自动分类,保存新闻标题、出处、发布时间、正文、新闻相关图片等信息,支持多媒体数据采集,可自动解析RSS的XML文件,抽取网页的链接、标题、时间等信息,支持网页快照功能等。高效、全方位的网络舆情采集,最大限度地保证信息的时效性、可用性和全面性,从而为决策分析提供事实依据和数据参考。
2.Web舆情预处理模块。围绕集中管理、分布存储、跨平台发布、实用性,覆盖舆情监测引导系统的整个生命周期,保证系统的可扩展性、灵活性和稳定性。
3.Web舆情挖掘分析模块。利用关联规则、聚类、分类、预测、时序模式和偏差分析等多种技术对收集来的舆情进行分析和处理,提高舆情研判的准确性及内容分析的确定性,为舆情引导做准备。其功能包括:热点话题、敏感话题识别。即可根据信息出处权威度、评论数量、发言时间密集程度等,识别给定时间段内的热门话题,通过关键字布控和语义分析,识别敏感话题。倾向性分析,即对于每个话题、每个发信人发表的文章的观点与倾向性进行分析与统计,了解舆情可能的发展趋势。主题跟踪,即跟踪某个热门主题回复、跟帖、修改、阅读等情况,为管理者及时了解该主题的舆情发展状态。自动摘要,即对各类主题、各类倾向能形成自动摘要,供决策参考。趋势分析,即分析某个主题在不同的时间段内,人们所关注的程度,并对未来作出科学预测。突发事件分析,即对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
4.Web舆情辅助决策模块。对可能的突发事件、内容安全性、敏感话题及时发现并报警。通过舆情预警、舆情监测、舆情报告和发布个性化信息等手段,为管理者和工作人员提供经过舆情分析处理后的有针对性的结果生成报告,并提供指定条件对热点话题、倾向性进行浏览、检索,达到辅助决策,引导舆情向积极健康的方向发展的目的。 四、结论
龙源期刊网 http://www.qikan.com.cn
网络舆情监测与引导是个复杂的技术和管理过程,必须充分利用Web数据挖掘技术的优势,建立完善网络舆情监测引导系统,进一步提升信息化、自动化和智能化,自觉地把互联网的优势转化为推进社会治理的现实动力和强大合力。 参考文献:
[1] Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:3.
[2] Raymond Kosala,Hendrik Blockeel.Web mining research: A survey SIDKDD Explorations,2000:7.
[3] W Hseush,C Pu.A Practical Technique for Asynchronous Transaction Processing[C].In Proc.Of the 15th Inter.Conf,on Distributed Computing Systems,1995:110—117.
[4] A.K.Jain,M.N.Murty and P.J.Flynn.Data clustering: A Review.ACM Computing Surveys,31(3),March 1999:2—323.