一、基本信息 |
标题 | 社会网络大数据分析系统 | 单位 | 清华大学 |
电话 | 包头市科技局科技合作处5618486 | 行业类别 | 信息技术 |
二、内容信息 | |||
社会网络已经成为覆盖用户最广、传播影响最大、商业价值最高的 Web2.0 业务,在世 界范围内,最著名的社会网络代表是 Facebook、Twitter,用户量分别达到 12 亿、5 亿;国 内使用人数最多的社会网络工具是新浪微博和腾讯微博,其中新浪微博用户达到 5 亿,腾讯 微博用户超过 8 亿。社会网络中的巨大用户群每天产生海量的用户数据、关系数据和信息数 据,若能够对海量数据进行准确、及时的分析,则会在精确营销、舆情探测以及网络安全等 方面创造巨大价值。然而由于社会网络的大数据特性以及分析方面要求准确、及时,目前缺 乏融合多项社会网络分析技术的、成熟的社会网络大数据分析系统。 社会网络分析技术是一项关键技术,也是一项热门的研究,涵盖了社会学、人类学、社 会语言学、地理、社会心理学、通信研究、资讯科学、社会网络分析与探勘、组织研究、经 济学以及生物学等多个领域,是一项多学科交叉技术。社会网络大数据分析系统要求具有坚 实的数据支撑,即数据获取全面、更新及时、获取数量大,也强调多维度、多粒度的分析手 段相结合,并对分析速度、可视化以及人机交互等方面都提出很高的要求。 基于上述现状和挑战,在国家科技支撑项目的资助下,实现基于新浪微博、Twitter 等 主要社会网络交流工具的大数据分析系统,系统完成从数据获取、数据预处理、数据存储、 消息中心、数据分析、结果可视化展示的闭环处理流程,支持多种社会网络(Twitter、新浪 微博等)的数据实时、不间断获取,获取数据量在国内外同研究领域处于领先地位;实现整 体、个体、群体以及事件的多层次、多粒度分析模式;同时具备良好的人机交互操作界面以 及优秀的分析展示效果。 系统的特点如下: l 多手段数据获取模式融合:采用网络流量分析、API/非 API 爬虫、元搜索以及增量 式爬虫等多手段数据获取模式相结合的方式进行数据实时、不间断获取,保证数据获取全面、 更新及时、获取量大; l 多维度、多粒度数据分析手段结合:系统对社会网络整体、个体、群体、事件四个 维度的对象进行分析,并结合基础分析、深度挖掘的多粒度分析手段共同完成社会网络的数 据分析; l 多种关键技术支撑:系统融合机器学习、分布式并行处理、数据挖掘、自然语言处 理等多种关键技术,共同保证系统各项功能的稳定、快速实现; l 优秀的分析展示效果和友好的人机交互操作:借助 Gephi 工具进行群体、事件等分 析效果的可视化展示,可视化效果清晰;操作便捷,实现用户与系统、系统与数据库的无缝 连接。 上述优点表明该系统能够实现从数据获取、数据预处理、数据存储、消息中心、数据分 析、结果可视化展示的处理流程,达到完善的功能实现目标和优秀的系统运行效果。查新表 明,国内外目前尚未发现有如此功能全面与性能优越的社会网络大数据分析系统。 性能参数: l 能有效获取社会网络平台的用户数据、关系数据和信息数据,获取覆盖率不低于 85%; l 分布式爬虫支持不少于 10 个节点,分布式数据库支持不少于 5 个节点; l 数据库读/写操作不少于并发 1000 次,数据预处理效率不小于 1000 条/秒; l 数据存储规模不小于 7TB; l 热点信息(个体、群体、事件)发现准确率不低于 75%,关键路径发现准确率不 低于 75%; l 热点话题发现准确性不低于 80%,倾向性言论的发布主体发现准确率不低于 75%; l 信息传播寿命预测准确率不低于 80%。 |
|||
三、附件下载 | |||