您现在的位置: > 行业杂谈 > weka中的数据格式讲解
weka中的数据格式讲解
在之前的介绍里面,我们详细介绍了weka数据分析软件的安装以及一些基本的使用细节,但是相信对于许多香港vps的使用者来说,熟练的使用weka进行项目的开发依然是一个不太容易的事情,现在我们就来进行weka的进一步精讲,带领大家进一步学习weka,首先我们就来介绍一下weka中的数据格式。
weka的数据格式和其他的数据系统相比具有不同的格式,它有都属于自己的数据系统,现在我们来看看WEKA所用的数据应是什么样的格式,跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是一个二维的表格,在表格之中,表格里的一个横行称作一个实例,可以称为数据库中的一条记录。竖行称作一个属性,既是数据库中的一个字段。这样一个表格,呈现了属性之间的一种关系。通常来讲:WEKA存储数据的格式是ARFF文件,
现在小编就带领大家对weka的数据格式进行具体的介绍:
1:关系声明
关系名称在ARFF文件的第一个有效行来定义,格式为
@relation
2:属性声明
在weka之中:属性的声明通过使用一列以@attribute表示的行构成的。数据集中的每一个属性都有它对应的"@attribute"语句,一般在.arff文件之中,属性的声明要放整个文件的开头,而且还需要同过@attribute进行显示的表示,这一行定义了它的属性名称和数据类型。这些声明语句的顺序很重要。因为它表明了该项属性在数据部分的位置。
WEKA支持的数据类型有四种,它们分别是:1:数值型、2:分类型、3:字符串型、4:日期和时间型。其中数值型属性可以是全体实数,分类属性列出一系列可能的类别名称并放在花括号中:{,,,...},数据集中该属性的值只能是其中一种类别,字符串属性中可以包含文本,日期和时间属性统一用"date"类型表示。对于数据的具体表示:每个实例占一行,实例的各属性值用逗号","隔开。如果某个属性的值是缺失值,用问号"?"表示,且这个问号不能省略。字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。日期属性的值必须与属性声明中给定的相一致。
3:对于稀疏数据的处理
有的时候数据集中含有大量的0值,这个时候用稀疏格式的数据存贮更加省空间。
稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据:
@data
0,X,0,Y,"classA"
0,0,W,0,"classB"
用稀疏格式表达的话就是
@data
{1X,3Y,4"classA"}
{2W,4"classB"}
在稀疏格式中没有注明的属性值不是缺失值,而是0值。
4:数据准备
使用WEKA作数据挖掘,面临的第一个问题往往是数据的格式问题,通常对于许多的初学者而言,会使用excel表格构造数据。但是WEKA还提供了对CSV文件的支持,一般来讲CSV格式是被很多其他软件所支持的。
如果您还有什么不明确或者是不懂的地方,欢迎来新世界主机咨询了解,详情请咨询QQ: TEL: 。我们必将竭诚为您服务。
本文地址:
http://xgvps.com/xingyezatan/421.htm
版权所有*转载时必须以链接形式注明作者和原始出处
Copyright © 2001-2020 香港vps 网址:http://xgvps.com/
香港vps、香港服务器、香港vps主机、香港vps哪里好、就到香港新世界vps主机。
信息来源于网络以及网友投稿,如侵犯了您的权益,请及时通知本站。