毕业论文
计算机论文
经济论文
生物论文
数学论文
物理论文
机械论文
新闻传播论文
音乐舞蹈论文
法学论文
文学论文
材料科学
英语论文
日语论文
化学论文
自动化
管理论文
艺术论文
会计论文
土木工程
电子通信
食品科学
教学论文
医学论文
体育论文
论文下载
研究现状
任务书
开题报告
外文文献翻译
文献综述
范文
基于网络爬虫C#网络新闻采集系统设计+文献综述(3)
(3)数据库:access数据库。Access 是微软公司推出的基于Windows的桌面关系数据库
管理系统
(RDBMS,即Relational Database Management System),是Office系列应用软件之一。它提供了表、查询、窗体、报表、页、宏、模块7种用来建立数据库系统的对象;提供了多种向导、生成器、模板,把数据存储、数据查询、界面设计、报表生成等操作规范化;为建立功能完善的数据库管理系统提供了方便,也使得普通用户不必编写代码,就可以完成大部分数据管理的任务。
2 网页新闻采集系统
2.1 系统概论
新闻采集系统是将非结构化的新闻文章从多个新闻来源网页中抽取出来保存到结构化的数据库中的软件。根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。新闻采集系统核心技术是模式定义和模式匹配。模式属于人工智能的术语,意思为前人积累的经验的抽象和升华。简单地说,就是从不断重复出现的事件中发现和抽象出的规律,是解决问题的经验的总结。只要是一再重复出现的事物,就可能存在某种模式。
所以要让新闻采集系统能够运行,目标网站必须具备重复出现的特征。目前大多网站都是动态生成的,这样就会让同一模板的页面包含相同的内容,新闻采集系统正是利用这些相同的内容来定位采集数据的。
新闻采集系统中的模式大多不是程序自动发现的,目前几乎所有的新闻采集系统产品都需要通过人工来定义。但模式本身是个很复杂,很抽象的内容,所以所有的开发者精力都花在怎样让模式定义更简单,更准确,这也是新闻采集系统竞争力的衡量标准。
2.2 国内外新闻采集系统的
发展现状
新闻采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取目标网络媒体栏目中的新闻或文章,转化为为结构化的记录(标题,作者,内容,采集时间,来源,分类,相关图片等),保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。它有以下一些特点:
对目标网站进行信息自动抓取,支持HTML页面内各种数据的采集,如文本信息,URL,数字,日期,图片等。
用户对每类信息自定义来源与分类
可以下载图片与各类文件,如PDF,Flash等
支持用户名与密码自动登录
支持命令行格式,可以Windows任务计划器配合,定期抽取目标网站
支持记录唯一索引,避免相同信息重复入库
支持智能替换功能,可以将内容中嵌入的所有的无关部分如广告去除
支持多页面文章内容自动抽取与合并
支持下一页自动浏览功能
数据直接进入数据库而不是文件中,因此与利用这些数据的网站程序或者桌面程序之间没有任何耦合
支持数据库表结构完全自定义,充分利用现有系统
支持多个栏目的信息采集可用同一配置一对多处理
保证信息的完整性与准确性,绝不会出现乱码
支持各种主流数据库,如MSSQL、Access、MySQL、Oracle、DB2、Sybase等
网络新闻信息采集系统的主要功能为:根据用户自定义的任务配置,批量而精确地抽取因特网目标网页中的半结构化与非结构化数据,转化为结构化的记录,保存在本地数据库中,用于内部使用或外网发布,快速实现外部信息的获取。
共7页:
上一页
1
2
3
4
5
6
7
下一页
上一篇:
典型地物光谱库系统设计与实现
下一篇:
Packet Tracer在网络协议教学中的应用研究
基于android的环境信息管理系统设计
基于激光超声检测金属材...
IEEE802.15.4网络自适应策略研究
基于MOODLE平台的在线交互式学习设计
基于离散事件系统Petri网模型的可达图研究
基于高斯过程动态模型的时序数据恢复方法
基于深度学习的目标识别算法研究
基于Joomla平台的计算机学院网站设计与开发
压疮高危人群的标准化中...
酵母菌发酵生产天然香料...
浅论职工思想政治工作茬...
上海居民的社会参与研究
提高教育质量,构建大學生...
STC89C52单片机NRF24L01的无线病房呼叫系统设计
AES算法GPU协处理下分组加...
浅谈高校行政管理人员的...
从政策角度谈黑龙江對俄...