【机器学习实验】利用逻辑回归预测贷款违约行为Python实现_逻辑回归模型进行新用户的逾期预测-程序员宅基地

技术标签： python 机器学习人工智能逻辑回归

实验简介

一、实验目的与要求

二、实验软、硬件环境

4）定义测试逻辑回归模型的函数与模型预测函数

实验简介

贷款违约预测是现代金融机构信用风险管理的基础。金融机构审批贷款时回收机客户的个人信息，包括年龄、收入、学历、职业、家庭情况和借贷历史等，在对各项信息综合考虑的基础上决定是否审批贷款。为了避免贷款违约，金融机构在对借贷人发放贷款的时候进行评估打分，预测贷款违约的概率，并做出是否发放贷款的判断。

本案例利用逻辑回归模型预测贷款人是否会发生违约行为。通过贷款数据（包括
个人信息、财务状况和贷款状态等）来训练模型，通过模型分析贷款人的偿还能力，
预测贷款申请人是否会发生违约。
本案例采用的数据集的部分样本如表所示，该数据集共包含700条样本记录，存放在 bank-load.xls 文件中。每条记录有 8 个特征属性，1 个类别属性（是否违约）。数据集已经做过预处理，去掉了个人姓名、身份证号等唯一属性，并将所有数据都已经转换为数值型数据。

完整实验数据（需要自行提取）

链接：https://pan.baidu.com/s/1joiQlsvL5q-ux3MjH44e2A
提取码：8809

一、实验目的与要求

1.掌握基于逻辑回归算法应用于实际问题的编程方法

2.掌握简单的机器学习项目开发思路和代码流程

二、实验软、硬件环境

1.硬件：PC机（参与实验的学生每人一台）

2.软件环境：Python3.7 + Pycharm

三、实验内容及主要代码

1.实验内容

贷款违约预测是现代金融机构信用风险管理的基础。为了避免贷款违约，金融机构在对借款人发放贷款的时候必须对借款人的信用程度进行评估打分，预测贷款违约的概率，并做出是否发放贷款的判断。本案例利用逻辑回归模型预测贷款人是否会发生违约行为。通过贷款数据（包括个人信息、财务状况和贷款状态等）来训练模型，通过模型分析贷款人的偿还能力，预测贷款申请人是否会发生违约。程序流程为：

(1) 导入相关模块(pandas, numpy, matplotlib, seaborn, sklearn)

(2) 定义读取数据函数(*.csv 格式)

(3) 定义特征选择函数(利用 sklearn 库中的 SelectBest 模块自动选择得分最高的特征)

(4) 定义测试逻辑回归模型的函数与模型预测函数

(5) 定义 main( )函数，内容包括读取样本，删选特征，测试模型

2.实验过程及主要代码

1）导入相关模块

import pandas  # 引入pandas库用于数据加载和操作
import seaborn  # 用于可视化
from matplotlib import pyplot as plt  # 导入绘图相关的模块
from sklearn.feature_selection import SelectKBest  # 导入从特征向量中选择部分特征的方法
from sklearn.feature_selection import chi2  # 导入卡方检验方法
from sklearn.linear_model import LogisticRegression  # 用于导入逻辑回归模型
from sklearn.model_selection import train_test_split  # 用于划分训练集和测试集

2）定义读取数据函数

get_data(path)函数从指定路径的CSV文件中加载数据并根据数据的特定范围抽取数据

def get_data(path):
    bank_data = pandas.read_csv(path)  # 用于读取CSV文件中的数据 保存为Pandas DataFrame对象
    x = bank_data.iloc[0:700, :8]  # 选取了从第1行到第700行、第1列到第8列的数据作为特征集 x包含700个样本和8个特征
    y = bank_data.iloc[0:700, 8]  # 选取了从第1行到第700行、第9列的数据作为标签集 y包含了700个样本
    return x, y  # 返回特征集x和标签集y

3）定义特征选择函数

screening(x, y)函数对数据集进行特征筛选保留最重要的特征以用于模型训练

使用卡方检验方法选择一定数量的特征并打印出选择的特征之所以使用卡方检验是因为它适用于分类问题的特征选择

def screening(x, y):
    selector = SelectKBest(chi2, k=4)  # 使用卡方检验作为评价指标 选择重要性最高的4个特征
    selector.fit_transform(x, y)  # 调用了选择器的fit_transform方法 该方法会根据卡方检验对特征进行评估并选取最重要的特征
    cols = x.columns[selector.get_support(indices=True)]  # 获取了被选择的特征列的列名 这些列将被用于后续训练模型
    print(cols)  # 打印被选择的特征列名
    return cols  # 返回被选取的特征列名

4）定义测试逻辑回归模型的函数与模型预测函数

text(x, y)函数先使用逻辑回归模型进行训练和预测然后对结果进行绘图包括散点图和小提琴图

def test(x, y):
    lr = LogisticRegression(solver='liblinear')  # 创建逻辑回归模型实例 使用liblinear求解器
    # 创建逻辑回归模型
    lr.fit(x, y)  # 使用输入的特征数据x和标签数据y对逻辑回归模型进行训练
    print('模型的准确率为{0}%'.format('%.2f' % (lr.score(x, y) * 100)))  # 计算并打印出模型的准确率
    x_train, x_test, y_train, y_test = train_test_split(x, y)  # 将数据集划分为训练集和测试集
    y_predict = lr.predict(x_test)  # 对测试集的特征数据进行预测 得到预测值
    # 1.绘制测试结果的散点图
    plt.figure(figsize=(14, 12))  # 图形大小为14×12
    plt.subplots_adjust(hspace=.3)  # 调整子图间的距离
    plt.subplot(311)
    plt.scatter(range(len(x_test)), y_test + 0.5, c='g', s=2, label='test')
    plt.scatter(range(len(x_test)), y_predict, c='r', s=2, label='pred')
    plt.title('测试结果')
    plt.yticks([0, 1], ['不违约', '违约'])
    plt.legend()
    plt.ylim([-0.5, 2.5])
    # 2. 绘制测试结果的小提琴图
    # 通过pandas.concat将预测结果和测试结果连接起来
    data = pandas.concat([pandas.DataFrame(y_predict, columns=['pred']),
                          pandas.DataFrame(y_test.tolist(), columns=['test'])], axis=1)
    data = data.stack().reset_index()  # 合并并分类数据
    data = data.drop(columns=[data.columns[0]])  # 删除无用的数据
    data = data.rename(columns={data.columns[0]: 'labels', data.columns[1]: 'value'})  # 对每一列重命名
    data['xzhou'] = 1
    # 小提琴图
    plt.subplot(312)
    plt.title('测试结果')
    # 将结果使用seaborn绘制成小提琴图
    seaborn.violinplot(data=data, x='xzhou', y='value', split=True, hue='labels')
    plt.yticks([0, 1], ['不违约', '违约'])
    plt.show()
    return lr

5）定义main()函数

在main()函数中会依次调用get_data()、screening()和test()函数来完成整个数据预处理和模型训练的过程

def main():
    path = 'bank-loan.csv'
    x, y = get_data(path)
    cols = screening(x, y)
    test(x[cols].values, y)

3.调试过程截图

四、运行结果

本次实验通过逻辑回归模型对银行贷款风险数据进行了分析和预测。结果显示，模型在测试集上的准确率达到了70%。但是在分析实验结果时，我们需要考虑到准确率并不是唯一衡量模型性能的标准。

通过散点图和小提琴图的分析显示，预测结果的分布情况，这有助于我们对模型预测效果有更清晰的了解。通过小提琴图，我们能够观察到预测结果在不同类别上的分布情况，帮助我们发现模型预测的偏差和准确性。

在实际应用中，70%的准确率可能会被认为是一项良好的结果。但是，我们需要注意辨别率（recall）、精确率（precision）和 F1 值等指标以获得更全面的评估。这些评估指标将帮助我们更好地理解模型的性能，尤其是在对于银行贷款风险这样的重要场景中。

综上所述，在进一步的研究中，我们应该注意到模型性能的多个方面，并且在真实场景中进行更全面的验证和测试，以便对模型的真实性能有更为准确的把握。

五、实验总代码

import pandas
import seaborn
from matplotlib import pyplot as plt
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split


def get_data(path):
    bank_data = pandas.read_csv(path)
    x = bank_data.iloc[0:700, :8]
    y = bank_data.iloc[0:700, 8]
    return x, y


def screening(x, y):
    selector = SelectKBest(chi2, k=4)
    selector.fit_transform(x, y)
    cols = x.columns[selector.get_support(indices=True)]
    print(cols)
    return cols


def test(x, y):
    lr = LogisticRegression(solver='liblinear')
    lr.fit(x, y)
    print('模型的准确率为{0}%'.format('%.2f' % (lr.score(x, y) * 100)))
    x_train, x_test, y_train, y_test = train_test_split(x, y)
    y_predict = lr.predict(x_test)
    plt.figure(figsize=(14, 12))
    plt.subplots_adjust(hspace=.3)
    plt.subplot(311)
    plt.scatter(range(len(x_test)), y_test + 0.5, c='g', s=2, label='test')
    plt.scatter(range(len(x_test)), y_predict, c='r', s=2, label='pred')
    plt.title('测试结果')
    plt.yticks([0, 1], ['不违约', '违约'])
    plt.legend()
    plt.ylim([-0.5, 2.5])
    data = pandas.concat([pandas.DataFrame(y_predict, columns=['pred']),
                          pandas.DataFrame(y_test.tolist(), columns=['test'])], axis=1)
    data = data.stack().reset_index()
    data = data.drop(columns=[data.columns[0]])
    data = data.rename(columns={data.columns[0]: 'labels', data.columns[1]: 'value'})
    data['xzhou'] = 1
    plt.subplot(312)
    plt.title('测试结果')
    seaborn.violinplot(data=data, x='xzhou', y='value', split=True, hue='labels')
    plt.yticks([0, 1], ['不违约', '违约'])
    plt.show()
    return lr


def main():
    path = 'bank-loan.csv'
    x, y = get_data(path)
    cols = screening(x, y)
    test(x[cols].values, y)


if __name__ == '__main__':
    main()

本文链接：https://blog.csdn.net/2403_82956645/article/details/137369477

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年：技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势，分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括：FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次，点赞2次，收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的：估计模块间的delay，确保写的代码的timing 综合能给到多少HZ，以满足需求！_基4布斯算法代码

OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次，点赞3次，收藏5次。OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版

关于美国计算机奥赛USACO，你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办，到目前为止已经举办了27届，目的是为了帮助美国信息学国家队选拔IOI的队员，目前逐渐发展为全球热门的线上赛事，成为美国大学申请条件下，含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学，越来越多的学生进入了康奈尔，麻省理工，普林斯顿，哈佛和耶鲁等大学，这些同学的共同点是他们都参加了美国计算机科学竞赛（USACO)，并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学，高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次，点赞3次，收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画（无顶点位移），整个mesh由4个顶点构成。实现了水面效果（左图），不动代码稍微修改下参数和贴图可以实现岩浆效果（右图）。有要思路是1，uv按时间去做正弦波移动2，在1的基础上加个凹凸图混合uv3，在1、2的基础上加个水流方向4，加上对雾效的支持，如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型（1）_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展，它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为：其中g(μY)是条件均值的函数（称为连接函数）。另外，你可放松Y为正态分布的假设，改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后，便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下，线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是，有时候我们要进行非正态因变量的分析，例如：（1）类别型.._广义线性回归模型

HTML+CSS大作业环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、保护地球、校园环保、垃圾分类、绿色家园、等网站的设计与制作。总结了一些学生网页制作的经验：一般的网页需要融入以下知识点：div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点，网页的风格主题也很全面：如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题，学生、新手可参考下方页面的布局和设计和HTML源码（有用点赞△）一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次，点赞7次，收藏11次。之前找到一个修改 exe 中 DLL地址的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和代码中相对目录还有一些复制到目录的普通文件等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载，原博客地址：http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出，BRIEF是对已检测到的特征点进行描述，它是一种二进制编码的描述子，摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现，SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次，点赞21次，收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档，可以给应届毕业生提供格式撰写参考，也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文