上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
5.1 数据集的获取与描述
本节我们使用由威斯康星州临床科学中心开源的乳腺癌肿瘤数据集(链接5-2)来测试横向联邦模型,数据集已经内置在sklearn库中,可以直接加载查看。
执行代码后显示前5行的数据如图5-1所示。可以看到,数据一共由569个样本构成,每一个样本数据一共有31列,其中第1~30列表示30维的特征数据,第31列表示标签数据(用1表示良性肿瘤,0表示恶性肿瘤)。进一步分析,我们会发现数据中只包含了10个属性,但是每一个属性值分别以均值(mean)、标准差(standard error)、最差值(worst)出现了三次,所以总共有30个特征。在这569个样本中,恶性肿瘤样本有212个,良性肿瘤样本有357个。
图5-1 乳腺癌肿瘤数据集示例