该方法简单易行且效率高,但其无法识别不含有情感词但又明显情感倾向的文本,且无法识别词汇在不同语境下不同的情感倾向,这使得该方法具有一定的局限性。

2。2  基于机器学习的情感分类方法

本节着重介绍有监督学习的方法。

本节按照机器学习方法的一般步骤,依次按小节给出相关的概念,步骤如图2。1所示。

基于机器学习方式的文本情感分析的一般步骤框图

图2。1  基于机器学习方式的文本情感分析的一般步骤

2。2。1  文本预处理

文本预处理的过程主要涉及格式规范化,编码统一,去除停用词,过滤非法字符等。格式规范化与编码统一是为了将文本整理为规范的文本和编码格式,方便下一步特征提取。停用词是指虽然没有意义,但出现的非常频繁的词,例如,“的”,“啊”等[ ]。去除停用词可以一定程度上防止形成噪声以提高算法效率与准确率。过滤非法字符主要针对与文本内容无关的一些标记。如果分类文本为中文,还要对文本进行分词,这是因为中文与英文不同,不存在天然的空格来对词语进行分割,我们需要对句子进行分割来找出其中的词语,进而进行下一步的特征提取。词作为中文文本分类的一个特征,分词的效果将直接影响到分类的效果,所以分词是至关重要的一步。来*自-优=尔,论:文+网www.chuibin.com

2。2。2  文本表示

一段文本原始的表示形式是一个由相应的文字和以及标点符号构造成的字符串,计算机不能直接处理这种形式的文本。为了能够有效处理真实文本,需要寻找一种理想的形式化表示方式,该方法要能够尽可能不失真的反应文档的内容且对不同文档有区分的能力。

20世纪60年代末期,向量空间模型(VSM)由G。Salton等人提出,最早用于信息检索系统中,目前是自然语言处理的常用模型。该模型的思想是将不同文本转化为向量空间内不同的点,通过度量不同点之间的距离可以得到不同文本之间的关系[ ]

上一篇:CTR基于协同深度学习的推荐系统设计
下一篇:Hadoop+FINDR高光谱图像混合像元分解的分布式并行优化方法

基于Android的电子拍卖系统设计与开发

基于Web应用的致胜公司企业内部培训系统设计

Matlab基于多旋翼飞行器的飞行控制系统设计

基于字典学习的多视图低维相关表示方法研究

局部特征匹配的一致性评估方法

基于android通讯与游戏的手...

基于android的环境信息管理系统设计

浅谈农村大气环境保护的制度构建【1868字】

大淘宝网的虚假交易研究

淮安市高校足球运动损伤问卷调查表

个案管理茬老年糖尿病患...

激光模拟训练器材国内外研究现状

新疆农林高校學生昆虫生...

肢体语言在小学英语教学中的应用浅谈

日语论文中日酒文化对比研究

2021年什么行业赚钱,适合...

发酵米粉优势菌株的发酵特性研究