摘要进入 21 世纪,步入了高速信息时代,人们面对的信息量呈指数级成长,信息检索技术应运而生。存在着更大研究价值和广泛应用前景的文本检索技术已成为信息检索的重要分 支,文本检索领域最常用的文本检索模型——向量空间模型(Vector Space Model, VSM)吸引 了大量的研究人员对其进行研究,其中 TF-IDF 权重度量方法和文本排序算法是向量空间 模型中最集中研究的方向。

本文基于 TF-IDF 权重度量方法和余弦相似度排序准则,使用 Python 编程语言及结巴 分词等第三方开源库,实现了 web 内容的文本检索排序。以精确率、召回率、前 10 个结果 的正确率及前 10 个结果是否出现所找的内容为评价本检索算法的标准,经实验表明,该算 法的检索结果精确率极高,可正确返回要搜索的内容。76144

毕业论文关键词: 信息检索 排序 向量空间模型 TF-IDF 余弦相似度

1 引言 1

1。1  研究背景及意义 1

1。2 信息检索的问题难点 1

1。2。1  数据爬取 2

1。2。2  文本分词 2

1。2。3  索引的建立 2

1。2。4  查询处理 2

1。3 本文的主要工作与内容安排 3

2。  文本检索相关技术分析 4

2。1  引言 4

2。2。1  文本检索概述 4

2。2。2  文本检索过程 4

2。2  文本表示模型 5

2。2。1  文本解析 5

2。2。2  词项权重计算 6

2。2。3  向量空间模型 8

2。3  检索排序算法 8

2。4  检索效果评价 10

2。4。1  召回率 10

2。4。2 精确率 10

2。4。3  召回率与精确率的关系 11

3。  实验设计与结果分析 12

3。1  实验环境 12

3。1。1  实验平台 12

3。1。2  开发工具及函数库介绍 12

3。1。3  实验数据 13

3。2  实验程序设计 13

3。2。1  程序组成说明: 14

3。2。2  程序模块介绍 15

3。3  实验结果分析 16

结论 18

第 II 页 本科毕业设计说明书

19

参 考 文 献 20

本科毕业设计说明书 第 1  页

上一篇:SpringMVC及云服务的企业员工考评系统的设计与实现
下一篇:php+mysql禾粒农场智能管理系统仓储管理系统设计

Unity3D双人横版闯关游戏设计与实现

jsp高校食堂外卖管理系统的实现

床旁智能交互系统HL7标准接口数据同步的实现

基于android通讯与游戏的手...

MAG3110无线智能停车平台中...

Android手机考勤平台的设计与实现

java+mysql班级评优系统的设计实现

日语论文中日酒文化对比研究

个案管理茬老年糖尿病患...

激光模拟训练器材国内外研究现状

淮安市高校足球运动损伤问卷调查表

浅谈农村大气环境保护的制度构建【1868字】

肢体语言在小学英语教学中的应用浅谈

2021年什么行业赚钱,适合...

大淘宝网的虚假交易研究

新疆农林高校學生昆虫生...

发酵米粉优势菌株的发酵特性研究