您现在的位置: > 行业杂谈 > 基于机器学习的朴素贝叶斯分类
基于机器学习的朴素贝叶斯分类
我们经常要对一些数据实例进行分类,在人工分类麻烦并且出错多的情况下,我们发明了分明器,但是分类器有时也会出现错误结果。尤其是我们不确定分类结果是否正确的时候或者分类器给出好多分类结果的时候,我们可以根据分类结果出现的次数,计算出出现的概率。这就要使用到概率论的知识,最原始最简单的分类器就是朴素贝叶斯分类器。就是使用最简单,最原始的假设,在充分认识到这些假设的同时,使用Phython语言的文本处理能力,可以对不同的文档进行分类。
朴素贝叶斯的好处是在数据量较少的情况下仍然是有效的,并且可以设置多重假设,处理多类别问题。缺点是对输入数据的类型很敏感,只能输入标称型数据。
我们首先获取一个数据集,并且这个数据集有两类数据构成,我们现在使用T1(x,y)表示数据点(x,y)属于类别1,我们现在使用T2(x,y)表示数据点(x,y)属于类别2,如果T1(x,y)>T2(x,y),则属于类别1,反之则属于类别2.
在机器学习中稳当的分类是重要的应用之一,如电子邮件,新闻报导,用户留言等,我们观察文档中的词,对没个词作为一个特征,,随着特征值数量的增多,就可以明显得看出文档趋于哪一类了,比如T1如果比T2多,那该文档属于T1类型,反之属于T2类型。
下面介绍朴素贝叶斯的一般运行过程:
(1)收集数据,可以使用任何方法。
(2)准备数据,对数据进行处理,使其符合输入规范(如标称型数据)。这里Phython使用了LoadDataSet()函数创建实验样本。使用CreateVocabList()创建一个不存在重复词(也就是对词进行挑选),使用setofwords2VEc()对词汇进行输入,向量做输出。
(3)分析数据,在有大量词汇也就是存在大量特征的情况下,建议使用直方图表示特征。
(4)训练数据,计算不同独立特征的条件概率。
这里使用到这个函数:
P(ci|w)=p(w|ci)p(ci)/p(w)
通过上述式子计算每一个向量出现的概率。
(5)测试算法,计算错误率,然后根据现实情况对分类器作出修改。
(6)使用算法,基于不同事物(比如文本)进行分类。(如使用朴素贝叶斯过滤垃圾邮件)。
本次讲解就到这里,相信小编已经给大家对于机器学习的朴素贝叶斯做了一些正确合理的普及,大家现在应该理解朴素贝叶斯是如何运用了的,喜欢动手的朋友可以使用Phython自行对文档进行分类,这样会对朴素贝叶斯分类有更深的了解(上述操作本人都亲自试验过)。
希望大家踊跃的购买我们公司的香港VPS以及香港服务器、美国服务器等,更好的进行机器学习相关的研究和实战。
如果还有什么不明确或者不懂的地方,欢迎来到新世界主机咨询了解,详情请咨询QQ: ,TEL: 。我们必将竭诚为您服务。
本文地址:
http://xgvps.com/xingyezatan/440.htm
版权所有*转载时必须以链接形式注明作者和原始出处
Copyright © 2001-2020 香港vps 网址:http://xgvps.com/
香港vps、香港服务器、香港vps主机、香港vps哪里好、就到香港新世界vps主机。
信息来源于网络以及网友投稿,如侵犯了您的权益,请及时通知本站。