• [field:title/]
  • [field:title/]

您现在的位置: > 行业杂谈 > weka中的数据格式讲解

weka中的数据格式讲解

作者:木木 文章来源:原创  点击量: 发布日期:2017-04-13

  weka中的数据格式讲解

  在之前的介绍里面,我们详细介绍了weka数据分析软件的安装以及一些基本的使用细节,但是相信对于许多香港vps的使用者来说,熟练的使用weka进行项目的开发依然是一个不太容易的事情,现在我们就来进行weka的进一步精讲,带领大家进一步学习weka,首先我们就来介绍一下weka中的数据格式。

  weka的数据格式和其他的数据系统相比具有不同的格式,它有都属于自己的数据系统,现在我们来看看WEKA所用的数据应是什么样的格式,跟很多电子表格或数据分析软件一样,WEKA所处理的数据集是一个二维的表格,在表格之中,表格里的一个横行称作一个实例,可以称为数据库中的一条记录。竖行称作一个属性,既是数据库中的一个字段。这样一个表格,呈现了属性之间的一种关系。通常来讲:WEKA存储数据的格式是ARFF文件,

  现在小编就带领大家对weka的数据格式进行具体的介绍:

  1:关系声明

  关系名称在ARFF文件的第一个有效行来定义,格式为

  @relation

  2:属性声明

  在weka之中:属性的声明通过使用一列以@attribute表示的行构成的。数据集中的每一个属性都有它对应的"@attribute"语句,一般在.arff文件之中,属性的声明要放整个文件的开头,而且还需要同过@attribute进行显示的表示,这一行定义了它的属性名称和数据类型。这些声明语句的顺序很重要。因为它表明了该项属性在数据部分的位置。

  WEKA支持的数据类型有四种,它们分别是:1:数值型、2:分类型、3:字符串型、4:日期和时间型。其中数值型属性可以是全体实数,分类属性列出一系列可能的类别名称并放在花括号中:{,,,...},数据集中该属性的值只能是其中一种类别,字符串属性中可以包含文本,日期和时间属性统一用"date"类型表示。对于数据的具体表示:每个实例占一行,实例的各属性值用逗号","隔开。如果某个属性的值是缺失值,用问号"?"表示,且这个问号不能省略。字符串属性和分类属性的值是区分大小写的。若值中含有空格,必须被引号括起来。日期属性的值必须与属性声明中给定的相一致。

  3:对于稀疏数据的处理

  有的时候数据集中含有大量的0值,这个时候用稀疏格式的数据存贮更加省空间。

  稀疏格式是针对数据信息中某个实例的表示而言,不需要修改ARFF文件的其它部分。看如下的数据:

  @data

  0,X,0,Y,"classA"

  0,0,W,0,"classB"

  用稀疏格式表达的话就是

  @data

  {1X,3Y,4"classA"}

  {2W,4"classB"}

  在稀疏格式中没有注明的属性值不是缺失值,而是0值。

  4:数据准备

  使用WEKA作数据挖掘,面临的第一个问题往往是数据的格式问题,通常对于许多的初学者而言,会使用excel表格构造数据。但是WEKA还提供了对CSV文件的支持,一般来讲CSV格式是被很多其他软件所支持的。

  如果您还有什么不明确或者是不懂的地方,欢迎来新世界主机咨询了解,详情请咨询QQ: TEL: 。我们必将竭诚为您服务。

本文地址: http://xgvps.com/xingyezatan/421.htm
版权所有*转载时必须以链接形式注明作者和原始出处

网站首页|关于我们|诚聘英才|合作伙伴|法律申明|诚招代理|联系我们|网站xml地图

Copyright © 2001-2020 香港vps 网址:http://xgvps.com/

香港vps、香港服务器、香港vps主机、香港vps哪里好、就到香港新世界vps主机。

信息来源于网络以及网友投稿,如侵犯了您的权益,请及时通知本站。 

收缩
p