天才一秒记住【畅想小说网】地址:http://www.cxtra.net
In[7]:font=mat.foProperties(fname='d
owsFontssimsun.ttc')
从文件夹读取数据集,打印最后5条数据和数据形状,以熟悉接下来需要进行分析的数据的存储格式。
In[8]:data=pd.read_csv("irissv",header=None)
In[9]:print(data.tail(n=5))
012345
146146.06.735.22.3virginica
147147.06.32.55.19virginica
148148.06.535.22virginica
149149.06.23.45.42.3virginica
150150.05.935.11.8virginica
In[10]:print(data.shape)
(151,6)
为了让读者更熟悉Python处理数据的方式,在这个案例中,将从整个鸢尾花数据集中抽取需要使用的类别和特征属性数据。
In[11]:flower_class=data.iloc[1:101,5].values
In[12]:flo.where(flower_class=="setosa",-1,1)
In[13]:floe=data.iloc[1:101,[1,3]].values
在上述数据抽取的过程中,有几点需要注意。
在Python中数据编号是从0开始的。
例如,想读取第1条数据,那么在代码中应该告诉Python你想读取的数据编号是0,如果想读取第9条数据,那么告诉Python的数据编号应该是8。
案例需要分析的是鸢尾花数据的前两类,一共100条数据。
在下载的数据集中,第一行是数据项的名称,所以应该读取第2到第101条。
因此在In[11]中,告诉Python的数据编号是“1:101”
(不含101)。
类别数据在表格中位于第6列,所以代码中的列编号为“5”
。
类似地,花萼长度和花瓣长度位于表格的第2列和第4列,所以在In[13]中告诉Python的编号是1和3。
In[12]中,把类别“setosa”
和“versicolour”
转换成了-1和1,它的意思是,如果是setosa,则类别为-1,否则为1。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!