目录 III

图清单 III

1 综述 1

1。1 背景及意义 1

1。2 研究内容 2

1。3 相关技术介绍 4

2 基于网络爬虫技术的个性化企业信息获取方法研究 6

2。1 爬虫的简介 6

2。2 理解URL 6

2。3 通过URL抓取网页 7

2。4 网页抓取策略 8

3 HTML页面解析 10

3。1 理解HTML 10

3。2 解析方法 10

3。3 乱码问题的产生及获取 11

3。4 页面内容获取 11

4 企业公共信息抓取系统设计 14

4。1数据库设计 14

4。2 信息抓取流程 16

4。3 代码架构与分析 16

5 企业公共信息抓取系统效果与数据分析 29

5。1 信息抓取情况 29

5。2 系统效果展示与数据分析 29

总结与展望 33

参考文献 34

致  谢 36

图清单

图序号 图名称 页码

图1-1 Navicat界面 5

图2-1 爬虫示例图 6

图2-2 文件源码例子 8

图2-3 Hbzj(环保总局)文件 8

图2-4 遍历示例 9

图3-1 Html页面 11

图3-2 局部页面对应的源代码 11

图3-3 源码中的需求信息示例 12

图4-1 数据库建表信息 13

图4-2 行政处罚信息E-R图 14

图5-1 抓取的数据展示 28

图5-2 用户登录页面

29

图5-3 用户登录流程图 28

图5-4 权限管理页面

30

图5-5 新闻管理页面 30

图5-6 管理员用例图 31

图5-7 用户用例图 31

图5-8 数据分析结果

上一篇:jsp+mysql学生党建管理系统的设计与实现
下一篇:jsp+mysql企业人事管理信息系统的设计与实现

《信息技术课程标准》微课的设计与制作

《信息技术课程标准》系列微课的设计与制作

C#员工信息管理系统设计

基于Web应用的致胜公司企业内部培训系统设计

JSP企业产品管理与展示平台设计与开发

基于android的环境信息管理系统设计

ASP.NET飞翔租贷汽车公司信...

激光模拟训练器材国内外研究现状

新疆农林高校學生昆虫生...

肢体语言在小学英语教学中的应用浅谈

个案管理茬老年糖尿病患...

发酵米粉优势菌株的发酵特性研究

大淘宝网的虚假交易研究

日语论文中日酒文化对比研究

2021年什么行业赚钱,适合...

浅谈农村大气环境保护的制度构建【1868字】

淮安市高校足球运动损伤问卷调查表