求网络舆情爬虫系统?
时间: 2016-11-09来源:开源中国
前景提要
HDC调试需求开发(15万预算),能者速来!>>>
网络舆情爬虫开发 之英雄帖
开发需求 用于网络舆情信息采集与分析的软件(接口级)
功能描述
1. 信息采集类型 :新闻、政务网站、论坛、博客、微信、微博、视频、境外中文媒体,约 3 万站点
2. 网页解析字段项 :标题、时间、作者、正文、正文摘要、 URL 、评论数、转载数等
3. 数据分析类型 :舆情常规的语义分析、热点分析
4. 全文检索功能

技术要求
1) 部署 \OS :云服务器 \centos
2) 网络爬虫: Nutch1.6 \ Nutch1.7
3) 离线计算 \ 实时计算: hadoop2.x \ storm
4) 数据采集 \ 消息队列: flume \ Kafka
5) DB : hbase \ mongodb
6) 检索: solr
7) 其他:开源、无限制

其他要求 联系方式

1) 24 小时运行
2) 开发文档完整
3) 除首次外,完成单次信息采集解析 < 4 小时
北京弘易软件 张工 手机: 13466796522 QQ:1075455138

科技资讯:

科技学院:

科技百科:

科技书籍:

网站大全:

软件大全:

热门排行