Sklearn数据集转换为CSV和数据集描述,sklearn,csv,以及


波士顿房价load_boston导出csv例子(回归)

import pandas as pd
from sklearn.datasets import load_boston


if __name__ == '__main__':
    boston = load_boston()
    df = pd.DataFrame(boston.data, columns=boston.feature_names)
    df['MEDV'] = boston['target']
    df.to_csv('./boston.csv', index=None)

CRIM:城镇人均犯罪率。

ZN:住宅用地超过 25000 sq.ft. 的比例。

INDUS:城镇非零售商用土地的比例。

CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。

NOX:一氧化氮浓度。

RM:住宅平均房间数。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士顿五个中心区域的加权距离。

RAD:辐射性公路的接近指数。

TAX:每 10000 美元的全值财产税率。

PTRATIO:城镇师生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房价,以千美元计。

威斯康辛州乳腺癌(二分类)

import pandas as pd
from sklearn.datasets import load_breast_cancer


if __name__ == '__main__':
    breast_cancer = load_breast_cancer()
    df = pd.DataFrame(breast_cancer.data, columns=breast_cancer.feature_names)
    df['target'] = breast_cancer['target']
    df.to_csv('./breast_cancer.csv', index=None)

radius 半径(从中心到边缘上点的距离的平均值)
texture 纹理(灰度值的标准偏差)
perimeter 周长
area 面积
smoothness 平滑度(半径长度的局部变化)
compactness 紧凑度(周长 ^ 2 /面积 - 1.0)
concavity 凹面(轮廓的凹部的严重性)
concave points 凹点(轮廓的凹部的数量)
symmetry 对称性
fractal dimension 分形维数(海岸线近似 - 1)

radius (mean): 半径(平均值)
texture (mean): 纹理(平均值)
perimeter (mean): 周长(平均值)
area (mean): 面积(平均值)
smoothness (mean): 平滑度(平均值)
compactness (mean): 紧凑度(平均值)
concavity (mean): 凹面(平均值)
concave points (mean): 凹点(平均值)
symmetry (mean): 对称性(均值)
fractal dimension (mean): 分形维数(均值)
radius (standard error): 半径(标准误差)
texture (standard error): 纹理(标准误差)
perimeter (standard error): 周长(标准误差)
area (standard error): 面积(标准误差)
smoothness (standard error): 平滑度(标准误差)
compactness (standard error): 紧凑度(标准误差)
concavity (standard error): 凹面(标准误差)
concave points (standard error): 凹点(标准误差)
symmetry (standard error): 对称性(标准误差)
fractal dimension (standard error): 分形维数(标准误差)
radius (worst): 半径(最差)
texture (worst): 纹理(最差)
perimeter (worst): 周长(最差)
area (worst): 面积(最差)
smoothness (worst): 平滑度(最差)
compactness (worst): 紧凑度(最差)
concavity (worst): 凹面(最差)
concave points (worst): 凹点(最差)
symmetry (worst): 对称性(最差)
fractal dimension (worst): 分形维数(最差)

target : 0(恶性)和1(良性)

鸢尾花(多分类、聚类)

import pandas as pd
from sklearn.datasets import load_iris


if __name__ == '__main__':
    iris = load_iris()
    df = pd.DataFrame(iris.data, columns=iris.feature_names)
    df['target'] = iris['target']
    df.to_csv('./iris.csv', index=None)

sepal length 萼片长度(厘米)
sepal width 萼片宽度(厘米)
petal length 花瓣长度(厘米)
petal width 花瓣宽度(厘米)

target 0-山鸢尾,1-变色鸢尾,2-维吉尼亚鸢尾