精品旅行服务成单预测研究(2)

数据清洗及特征提取 3

2.3 类别变量处理 3

2.4 数值变量处理 5

3 降维 6

3.1 主成分分析（PCA） 6

3.2 t-分布邻域嵌入算法（t-SNE） 7

4 分类器的选择 9

4.1 Logistic 回归 9

4.2 数据不平衡的处理 10

4.3 结果分析 11

5 贝叶斯组合预测 12

5.1 理论推导 12

5.2 模型比较 13

6 总结 16

参考文献 17

附录 18

(一) Kmeans 分箱算法 18

(二) 贝叶斯组合预测 19

致谢 23

1 引言

1.1 研究的目的和意义

中央在 2018 年发布了《关于促进全域旅游发展的指导意见》[1]，文件中确立了旅游业在国民经济中属于“战略性产业”.旅游业市场体系日益完善，市场规模不断扩大，大众的旅游消费也大幅度增加.旅游业的快速发展也为国家经济的发展起了推动作用，扩大了就业，拉动投资，改善人民生活质量.

随着消费者的消费能力逐渐增强以及旅游信息不透明程度逐年下降，消费者的旅游意愿，消费行为逐渐变得难以预测，传统的旅游模式已经不能完全满足游客的需求.因而为用户提供更加受欢迎、更加合适的包车游路线，并且结合用户个人喜好、景点受欢迎度、天气交通等维度，制定多套旅游信息化解决方案和产品并精准地向用户推荐，毫无疑问，这些都会在各方面为企业带来巨大的收益.旅游个性化应运而生，而在个性化方面，针对特定消费者群体定制的精品旅游是非常重要的，如何识别用户是否会购买精品旅游服务更是至关重要的

[2].

1.2 研究的内容和方法

首先，我们通过对给定的精品旅游数据进行详细地统计描述和对比分析，确定了各个自变量与因变量关系，并结合 R 语言对变量进行了必要的清洗.

其次，为了建立预测模型，我们分别通过 K-means 算法[4]对分类型自变量进行了特征提取，通过 ChiMerge 对数值型变量进行处理，并对提取完的特征进行了标准化处理.针对文本数据，我们通过 jieba 分词进行分词处理，并提取了相应的 keywords，并转化为了词向量矩阵，针对词向量，我们根据用户词典，以及哈工大的词林库为它计算了情感倾向得分.

最后，我们构建了基于贝叶斯方法的组合预测模型，并利用 Bootstrap 方法对模型的稳定性进行了测试，我们发现我们模型的正确率为 97.86%，标准差为 0.00038，模型具有非常高的准确率，而且十分稳定. 精品旅行服务成单预测研究(2):http://www.chuibin.com/shuxue/lunwen_206324.html