这是一份kaggle上的银行的数据集,研究该数据集可以预测客户是否认购定期存款,这里包含20个特征:
1.分析框架
2.数据读取,数据清洗
输出:
这里只有nr.employed这列有丢失数据,查看下:
data['nr.employed'].value_counts()
这里只有5191.0这个值,没有其他的,且只有7763条数据,这里直接将这列当做异常值,直接将这列直接删除了。
# data.drop('nr.employed', axis=1, inplace=True)
3.探索性数据分析
3.1查看各年龄段的人数的分布
这里可以看出该银行的主要用户主要集中在23-60岁这个年龄层,其中29-39这个年龄段的人数相对其他年龄段多。
3.2 其他特征的一些分布
3.3 各特征的相关性
4.特征规范化
4.1 将自变量的特征值转换成标签类型
4.2 将结果y值转换成0、1
4.3 数据规范化
5.模型训练
5.1 AdaBoost分类器
5.2 SVC分类器
5.3 K邻近值分类器
5.4 决策树分类器
6 模型评价
6.1 AdaBoost分类器
6.2 SVC分类器
6.3 K邻近值分类器
6.4 决策树分类器