书签分享收藏举报版权申诉 / 13

立即下载加入VIP,免费下载

当前位置：首页 > PPT模板 > 自然景观 > python之sklearn文档格式.docx

python之sklearn文档格式.docx

文档编号：17652881
上传时间：2022-12-07
格式：DOCX
页数：13
大小：21.42KB

《python之sklearn文档格式.docx》由会员分享，可在线阅读，更多相关《python之sklearn文档格式.docx（13页珍藏版）》请在冰豆网上搜索。

python之sklearn文档格式.docx

我们有一百五十个鸢尾花的一些尺寸的观测值：

萼片长度、宽度，花瓣长度和宽度。

还有它们的亚属：

山鸢尾（Irissetosa）、变色鸢尾（Irisversicolor）和维吉尼亚鸢尾（Irisvirginica）

向Python对象载入数据：

In[1]:

fromsklearnimportdatasets

In[2]:

iris=datasets.load_iris（）

数据存储在.data项中，是一个（n_samples,n_features）数组。

In[3]:

iris.data.shape

Out[3]:

（150,4）

每个观察对象的种类存贮在数据集的.target属性中。

这是一个长度为n_samples的整数一维数组:

In[5]:

iris.target.shape

Out[5]:

（150,）

In[6]:

importnumpyasnp

In[7]:

np.unique（iris.target）

Out[7]:

array（[0,1,2]）

数码数据集（digitsdatasets）

数码数据集1包括1797个图像，每一个都是个代表手写数字的8x8像素图像

In[8]:

digits=datasets.load_digits（）

In[9]:

digits.images.shape

Out[9]:

（1797,8,8）

In[10]:

importpylabaspl

In[11]:

pl.imshow（digits.images[0],cmap=pl.cm.gray_r）

Out[11]:

&

lt;

matplotlib.image.AxesImageat0x3285b90&

gt;

In[13]:

pl.show（）

为了在scikit中使用这个数据集，我们把每个8x8图像转换成长度为64的矢量。

（译者注：

或者直接用digits.data）

In[12]:

data=digits.images.reshape（（digits.images.shape[0],-1））

学习和预测

现在我们已经获得一些数据，我们想要从中学习和预测一个新的数据。

在scikit-learn中，我们通过创建一个估计器（estimator）从已经存在的数据学习，并且调用它的fit（X,Y）方法。

In[14]:

fromsklearnimportsvm

In[15]:

clf=svm.LinearSVC（）

In[16]:

clf.fit（iris.data,iris.target）#learnfromthedata

Out[16]:

LinearSVC（C=1.0,class_weight=None,dual=True,fit_intercept=True,

intercept_scaling=1,loss='

l2'

multi_class='

ovr'

penalty='

tol=0.0001,verbose=0）

一旦我们已经从数据学习，我们可以使用我们的模型来预测未观测数据最可能的结果。

In[17]:

clf.predict（[[5.0,3.6,1.3,0.25]]）

Out[17]:

array（[0],dtype=int32）

注意：

我们可以通过它以下划线结束的属性存取模型的参数：

In[18]:

clf.coef_

Out[18]:

array（[[0.18424352,0.45122644,-0.8079467,-0.45071302],

[0.05190619,-0.89423619,0.40519245,-0.93781587],

[-0.85087844,-0.98667529,1.38088883,1.86538111]]）

最简单的可能的分类器是最近邻：

给定一个新的观测值，将n维空间中最靠近它的训练样本标签给它。

其中n是每个样本中特性（features）数。

k最近邻2分类器内部使用基于球树（ball

tree）3来代表它训练的样本。

KNN分类示例：

In[19]:

#Createandfitanearest-neighborclassifier

In[20]:

fromsklearnimportneighbors

In[21]:

knn=neighbors.KNeighborsClassifier（）

In[22]:

knn.fit（iris.data,iris.target）

Out[22]:

KNeighborsClassifier（algorithm='

auto'

leaf_size=30,n_neighbors=5,p=2,

warn_on_equidistant=True,weights='

uniform'

）

In[23]:

knn.predict（[[0.1,0.2,0.3,0.4]]）

Out[23]:

array（[0]）

当验证学习算法时，不要用一个用来拟合估计器的数据来验证估计器的预测非常重要。

确实，通过kNN估计器，我们将总是获得关于训练集完美的预测。

In[24]:

perm=np.random.permutation（iris.target.size）

In[25]:

iris.data=iris.data[perm]

In[26]:

iris.target=iris.target[perm]

In[27]:

knn.fit（iris.data[:

100],iris.target[:

100]）

Out[27]:

In[28]:

knn.score（iris.data[100:

],iris.target[100:

]）

/usr/lib/python2.7/site-packages/sklearn/neighbors/classification.py:

129:

NeighborsWarning:

kneighbors:

neighbork+1andneighborkhavethesamedistance:

resultswillbedependentondataorder.

neigh_dist,neigh_ind=self.kneighbors（X）

Out[28]:

0.95999999999999996

Bonus的问题：

为什么我们使用随机的排列？

线性支持向量机

SVMs4尝试构建一个两个类别的最大间隔超平面。

它选择输入的子集，调用支持向量即离分离的超平面最近的样本点。

In[60]:

In[61]:

svc=svm.SVC（kernel='

linear'

In[62]:

svc.fit（iris.data,iris.target）

Out[62]:

SVC（C=1.0,cache_size=200,class_weight=None,coef0=0.0,degree=3,gamma=0.0,

kernel='

probability=False,shrinking=True,tol=0.001,

verbose=False）

scikit-learn中有好几种支持向量机实现。

最普遍使用的是svm.SVC，svm.NuSVC和svm.LinearSVC;

“SVC”代表支持向量分类器（SupportVectorClassifier）（也存在回归SVMs，在scikit-learn中叫作“SVR”）。

练习

训练一个数字数据集的svm.SVC。

省略最后10%并且检验观测值的预测表现。

使用核

类别不总是可以用超平面分离，所以人们指望有些可能是多项式或指数实例的非线性决策函数：

线性核

svc=svm.SVC（kernel=’linear’）

多项式核

svc=svm.SVC（kernel=’poly’,…degree=3）#degree:

polynomialdegree

RBF核（径向基函数）5

svc=svm.SVC（kernel=’rbf’）#gamma:

inverseofsizeof#radialkernel

以上提到的哪些核对数字数据集有更好的预测性能？

（译者：

前两个）

给定鸢尾花数据集，如果我们知道这有三种鸢尾花，但是无法得到它们的标签，我们可以尝试非监督学习：

我们可以通过某些标准聚类观测值到几个组别里。

最简答的聚类算法是k均值算法。

这将一个数据分成k个集群，以最小化观测值（n维空间中）到聚类中心的均值来分配每个观测点到集群;

然后均值重新被计算。

这个操作递归运行直到聚类收敛，在max_iter回合内到最大值。

6

（一个替代的k均值算法实现在scipy中的cluster包中。

这个scikit-learn实现与之不同，通过提供对象API和几个额外的特性，包括智能初始化。

In[82]:

fromsklearnimportcluster,datasets

In[83]:

In[84]:

k_means=cluster.KMeans（k=3）

In[85]:

k_means.fit（iris.data）

Out[85]:

KMeans（copy_x=True,init='

k-means++'

k=3,max_iter=300,n_init=10,n_jobs=1,

precompute_distances=True,

random_state=&

mtrand.RandomStateobjectat0x7f4d860642d0&

tol=0.0001,

verbose=0）

In[86]:

printk_means.labels_[:

:

10]

[111112222200000]

In[87]:

printiris.target[:

[000001111122222]

译者注：

Lena是经典的图像处理实例图像,8位灰度色深,尺寸512x512

聚类可以被看作是一种从信息中选择一小部分观测值。

例如，这个可以被用来海报化一个图像（将连续变化的色调转换成更少几个色调）：

In[95]:

fromscipyimportmisc

In[96]:

lena=misc.lena（）.astype（np.float32）

In[97]:

X=lena.reshape（（-1,1））#Weneedan（n_sample,n_feature）array

In[98]:

k_means=cluster.KMeans（5）

In[99]:

k_means.fit（X）

Out[99]:

k=5,max_iter=300,n_init=10,n_jobs=1,

In[100]:

values=k_means.cluster_centers_.squeeze（）

In[101]:

labels=k_means.labels_

In[102]:

lena_compressed=np.choose（labels,values）

In[103]:

lena_compressed.shape=lena.shape

想看效果？

In[31]:

importmatplotlib.pyplotasplt

In[32]:

plt.gray（）

In[33]:

plt.imshow（lena_compressed）

Out[33]:

matplotlib.image.AxesImageat0x4b2c510&

In[34]:

plt.show（）

原图类似。

!

[Image]

用主成分分析降维

以上根据观测值标记的点云在一个方向非常平坦，所以一个特性几乎可以用其它两个确切地计算。

PCA发现哪个方向的数据不是平的并且它可以通过在一个子空间投影来降维。

PCA将在模块decomposition或pca中，这取决于你scikit-learn的版本。

In[75]:

fromsklearnimportdecomposition

In[76]:

pca=decomposition.PCA（n_components=2）

In[77]:

pca.fit（iris.data）

Out[77]:

PCA（copy=True,n_components=2,whiten=False）

In[78]:

X=pca.transform（iris.data）

现在我们可以可视化（降维过的）鸢尾花数据集：

In[79]:

In[80]:

pl.scatter（X[:

0],X[:

1],c=iris.target）

Out[80]:

matplotlib.collections.PathCollectionat0x4104310&

PCA不仅在可视化高维数据集时非常有用。

它可以用来作为帮助加速对高维数据不那么有效率的监督方法7的预处理步骤。

将一切放在一起：

人脸识别

一个实例使用主成分分析来降维和支持向量机来分类进行人脸识别。

让程序自动下载（确保联网，文件较大，要等待很久）或者手动下载数据并放到./scikit_learn_data/lfw_home/下。

"

Stripped-downversionofthefacerecognitionexamplebyOlivierGrisel

http:

//scikit-learn.org/dev/auto_examples/applications/face_recognition.html

##originalshapeofimages:

50,37

importnumpyasnp

importpylabaspl

fromsklearnimportcross_val,datasets,decomposition,svm

#..

#..loaddata..

lfw_people=datasets.fetch_lfw_people（min_faces_per_person=70,resize=0.4）

perm=np.random.permutation（lfw_people.target.size）

lfw_people.data=lfw_people.data[perm]

lfw_people.target=lfw_people.target[perm]

faces=np.reshape（lfw_people.data,（lfw_people.target.shape[0],-1））

train,test=iter（cross_val.StratifiedKFold（lfw_people.target,k=4））.next（）

X_train,X_test=faces[train],faces[test]

y_train,y_test=lfw_people.target[train],lfw_people.target[test]

#..dimensionreduction..

pca=decomposition.RandomizedPCA（n_components=150,whiten=True）

pca.fit（X_train）

X_train_pca=pca.transform（X_train）

X_test_pca=pca.transform（X_test）

#..classification..

clf=svm.SVC（C=5.,gamma=0.001）

clf.fit（X_train_pca,y_train）

#..predictonnewimages..

foriinrange（10）:

printlfw_people.target_names[clf.predict（X_test_pca[i]）[0]]

_=pl.imshow（X_test[i].reshape（50,37）,cmap=pl.cm.gray）

_=raw_input（）

全部代码：

face.py

线性模型：

糖尿病数据集

糖尿病数据集包含442个病人的测量而得的10项生理指标（年龄，性别，体重，血压），和一年后疾病进展的指示：

In[104]:

diabetes=datasets.load_diabetes（）

In[105]:

diabetes_X_train=diabetes.data[:

-20]

In[106]:

diabetes_X_test=diabetes.data[-20:

]

In[107]:

diabetes_y_train=diabetes.target[:

In[108]:

diabetes_y_test=diabetes.target[-20:

这个手头的任务是用来从生理指标预测疾病。

为了改善问题的条件（无信息变量，减少维度的不利影响，作为一个特性（feature）选择的预处理，等等），我们只关注有信息的特性将没有信息的特性设置为0.这个罚则函数法8,叫作套索（Lasso）9，可以将一些系数设置为0.这些方法叫作稀疏方法（sparse

method），稀疏化可以被视作奥卡姆剃刀：

相对于复杂模型更倾向于简单的。

In[109]:

fromsklearnimportlinear_model

In[110]:

regr=linear_model.Lasso（alpha=.3）

In[111]:

regr.fit（diabetes_X_train,diabetes_y_train）

Out[111]:

Lasso（alpha=0.3,copy_X=True,fit_intercept=True,max_iter=1000,

normalize=False,positive=False,precompute='

warm_start=False）

In[112]:

regr.coef_#verysparsecoefficients

Out[112]:

array（[0.,-0.,497.34075682,199.17441034,

-0.,-0.,-118.89291545,0.,

430.9379595,0.]）

In[113]:

regr.score（diabetes_X_test,diabetes_y_test）

Out[113]:

0.55108354530029791

这个分数和线性回归（最小二乘法）非常相似：

In[114]:

lin=linear_model.LinearRegression（）

In[115]:

lin.fit（diabetes_X_train,diabetes_y_train）

Out[115]:

LinearRegression（copy_X=True,fit_intercept=True,normalize=False）

In[116]:

lin.score（diabetes_X_test,diabetes_y_test）

Out[116]:

0.58507530226905713

同一数学问题可以用不同算法解决。

例如,sklearn中的Lasso对象使用坐标下降（coordinatedescent）方法10解决套索回归，这在大数据集时非常有效率。

然而，sklearn也提供了LassoLARS对象，使用LARS这种在解决权重向量估计非常稀疏，观测值很少的问题很有效率的方法。

格点搜索

scikit-learn提供了一个对象，该对象给定数据，在拟合一个参数网格的估计器时计算分数，并且选择参数最大化交叉验证分数。

这个对象在构建时采用一个估计器并且暴露一个估计器API：

In[117]:

fromsklearnimportsvm,grid_search

In[118]:

gammas=np.logspace（-6,-1,10）

In[119]:

s

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: python sklearn

冰豆网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：python之sklearn文档格式.docx
链接地址：https://www.bdocx.com/doc/17652881.html

python之sklearn文档格式.docx

热门标签