分享一个不错的数据分析实战案例【全程附图】EXCEL_数据分析实例-程序员宅基地

技术标签: excel  kaggle  数据分析  

大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。

完整数据及操作记录数据的下载链接放在文末。


项目简介

利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。

PS: 这是最初上传到UCI机器学习库的经典营销银行数据集,该数据集提供了有关金融机构营销活动的信息,但在本篇博客当中我们仅会用到EXCEL进行数据分析,使用机器学习进行分析我们留到之后再介绍。

1 数据理解

字段名 理解
age 年龄(数值)
job 职业(分类:admin, bluecollar, entrepreneur, housemaid, management, retired, self-employed, services,student, technician, unemployed, unknown)
marital 婚姻状况(分类:divorced, married, single, unknown)
education 学历(分类:primary, secondary, tertiary and unknown)
default 失信状况(分类:yes, no)
balance 资产余额(数值)
housing 房屋贷款(分类:yes, no, unknown)
loan 个人贷款(分类:yes, no, unknown)
contact 联系方式(分类:cellular, telephone)
day 最后一次电话营销的日期(数值:月份中的哪一天)
month 最后一次电话营销的月份(分类:jan, feb, mar, apr,…,nov, dev)
duration 通话时长(数值:以秒为单位,0的话最终输出结果必然是0)
campaign 联系次数(数值:此活动中联系该客户的次数)
pdays 距上次联系完客户后的天数(数值:999代表未联系过该客户)
previous 这次活动前与这位客户联系的次数(数值)
poutcome 上次营销的结果(分类:yes, no, unknown)
deposit 定期存款(分类:yes, no)客户是否已购买定期存款

2 数据清洗

此次数据除了部分未知数据(unknown),其它暂不需要清洗。

3 确定思路

首先这个balance,我不太确定具体指什么,目前推测应该是客户存放在银行的资金(负数应该代表欠了银行钱吧哈哈),总不可能是代表这个人的个人全部资产吧(银行得不到这方面的信息),所以暂时留着。

然后这个day和month,如果说有年份的话还能将其分为周一周二等,但是没有,数据集出处也没有明确标注是哪一年,所以如果用来分析的话可能也只能按月来分析,但按以往的经验和数据量的大小来看,应该用处不大。

至于duration的话,因为当duration为0时结果必然是失败的,说明这个数据的记录应该是银行人员在营销完记录下的,而现实中你无法在营销前就得到该数据,所以这个数据没有用。

那么接下来我们如何下手呢?
首先我们可以将数据分为两种类型:
1、客户的个人信息
2、营销人员与客户的联系信息
那么接下来我们可以按照这两种数据提出几个问题:
1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)?
2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)?

4 分析过程

4.1 年龄

此时我们探究年龄与结果是否有明显的影响。
首先我们可以查看以下数据集中的年龄统计分布情况:

在这里插入图片描述
可以发现共有11162名最小值为18,最大值为95,最小值为18。我们可以按照我们的认知,将客户分为几个不同年龄阶段。

在这里插入图片描述

分组的话主要是用到了VLOOKUP函数进行分组。
在这里插入图片描述
此时得到分组后,我们可以生成数据透视表来查看情况。

在这里插入图片描述
从图当中我们可以明显的看到在老年人群体中最终购买了定期存款的比例最大,为80.2%,而其他群体最终的结果并没有明显的差距。

4.2 失信状况default

在这里插入图片描述
有失信记录的在结果上没有什么差别,无失信记录的最终购买的比例低于没有购买的,但是数据量较小,不能作为参考。

4.3 个人资产balance

同年龄一样,balance是数值型,因而最好先将其分组。

在这里插入图片描述
这里我主要采用箱型图来查看balance数据的分布,以便后续进行分组。
可以看到的是数据主要是集中在0-2000之间,有少部分低于该区间,然后有部分大于该区间。

按下图进行分组:

在这里插入图片描述
结果如下:

在这里插入图片描述
这里主要可以发现的是负资产的客户最终购买的可能性较低,而资产较高的客户购买的可能性稍微大些。

4.4 housing&loan

接下来的房屋贷款和个人贷款,这个我打算放在一起进行分析。
具体如下:

在这里插入图片描述
可以看到无房贷和无个人贷款的客户最终购买的可能性最大,为59.65%。其余的只要有任何一个贷款购买的可能性就比较低。

4.5 上次营销结果poutcome

同理,生成透视图查看一下:

在这里插入图片描述
(包括这次在内,当生成透视图时发现有部分数据(如unknown、other)是我们不想要的,记得筛选掉)

从图中我们可以明显发现,上次营销成功的客户这次购买的可能性也极大。

5 总结

结论:从上述结果我们可以发现,老年人且上次营销成功的群体最有可能购买产品,而有贷款且低资产的用户购买的可能性会很小。

PS: 这次没有其他过多的因素考量,如产品实际的业务情况、数据具体来源等,而我主要也是利用自己以往的经验来选取数据进行分析,没有做过多的分析比较。

代码下载链接,有需要的请自行提取,不想hua前的朋友,可评论同我说,我会回复你,但可能会比较慢。祝好!
https://download.csdn.net/download/qq_44186838/86799994


推荐关注的专栏

机器学习:分享机器学习实战项目和常用模型讲解
数据分析:分享数据分析实战项目和常用技能整理


关注我,了解更多相关知识!


CSDN@报告,今天也有好好学习

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_44186838/article/details/120579194

智能推荐

关于电销团队负责人如何挑选外呼系统?_电销团队用的什么电销系统-程序员宅基地

文章浏览阅读1k次。外呼系统包括了外呼功能模块和管理功能模块,旨在帮助企业提升外呼效率、外呼任务管理规范性以及最终的销售转化效率。大多数企业在搭建电销团队的时候都知道应该注意提高效率,以让销售人均产出更高。其实影响人均的产出的因素有很多,如果你是电销团队的负责人,要为呼叫中心选型 ,想知道外呼系统哪家公司做得好,都有哪些优势?那么这篇文章正好可以帮到你。一、外呼功能模块其一是自动外呼,自动外呼就是凭借系统对智能语音机器人的设置,批量对外呼叫客户号码,一边自动筛选客户号码、将拨打情况分类记录,清晰明确,便于跟进,一边将接通的_电销团队用的什么电销系统

易优cms添加发布内容教程_易优cms 投稿-程序员宅基地

文章浏览阅读1.8k次。易优cms添加发布内容快速添加内容只针对文章模型、产品模型、图片模型、下载模型等列表模型有效,其他模型内容编辑修改需要到栏目更改—“内容管理”里编辑;点击发布文档—快捷发布—选择需要添加的栏目,点击下一步即可进入对应内容编辑界面,事先需要先到“管理栏目”中添加或编辑好栏目;添加产品,文档,图集等内容,均包含常规信息、SEO设置、其他设置等基本设置,产品及图集有额外的产品属性及展示图片上传等操作选项..._易优cms 投稿

基于路由和VTI虚拟接口的IPSec实现_vti xfrm-程序员宅基地

文章浏览阅读3.5k次。以下根据strongswan代码中的testing/tests/route-based/rw-shared-vti/中的测试环境,来看一下基于路由和VTI接口的安全连接。拓扑结构如下:拓扑图中使用到的设备包括:虚拟主机carol和dave,以及虚拟网关moon。虚拟主机配置carol的配置文件:/etc/swanctl/swanctl.conf,内容如下。连接home中的字段vips设置为..._vti xfrm

2019年电赛D题《简易电路特性测试仪》全过程-程序员宅基地

文章浏览阅读2.5w次,点赞74次,收藏457次。2019年全国大学生电子设计大赛D题《简易电路特性测试仪》硬件部分及故障分析_简易电路特性测试仪

大话PCIe:BAR空间和TLP_pcie核进行多个bar空间读写-程序员宅基地

文章浏览阅读2.7k次,点赞5次,收藏32次。大话PCIe:BAR空间和TLP。上一篇文章中写到每个PCIe的function都有自己的configuration space,其实就是配置寄存器了(这个当然是要有的了,不然软件要怎么玩?只不过PCIe的配置寄存器要通过tlp才能去访问)。其实PCIe设备是有自己独立的一套内部空间,不仅仅是配置空间,包括每个设备提供哪些I/O地址,memory地址。而BAR(Base Address Regis_pcie核进行多个bar空间读写

如何用简单的步骤为大量视频添加srt字幕_视频生成srt字幕-程序员宅基地

文章浏览阅读29次。随着移动互联网的高速发展,视频内容已经成为人们获取信息和娱乐的首选方式之一。但是,如何制作一部让人眼前一亮的视频呢?其中一个重要的因素就是添加字幕。字幕不仅可以帮助观众更好地理解视频内容,还可以增加视频的视觉效果和震撼力。那么,如何批量给大量视频批量添加srt字幕呢?以下是具体的操作方法!_视频生成srt字幕

随便推点

maven deploy时报错_caused by: org.apache.maven.plugin.mojoexecutionex-程序员宅基地

文章浏览阅读3.9w次,点赞6次,收藏18次。今天在发布maven工程的时候,很奇怪,因为在本地package,install等等都没问题,但是打包的时候就是报错,日志如下:[ERROR] Failed to execute goal org.apache.maven.plugins:maven-deploy-plugin:2.7:deploy (default-deploy) on project courier-rapi: Deplo_caused by: org.apache.maven.plugin.mojoexecutionexception: obfuscation faile

vb计算机运算符号优先级,vb运算符的运算顺序是什么-程序员宅基地

文章浏览阅读2.6k次。vb运算符的运算顺序是,首先计算算术运算符,然后计算比较运算符,最后计算逻辑运算符,所有比较运算符的优先级相同,也就是按照从左到右的顺序进行比较运算。VB运算符优先级,是描述在计算机运算计算表达式时执行运算的先后顺序。 先执行具有较高优先级的运算,然后执行较低优先级的运算。 例如,我们常说的先执行相乘和除,再执行加减运算。在一个表达式中可能包含多个有不同运算符连接起来的、具有不同数据类型的数据对象..._vb 操作符优先级

2023年6月杭州/广州/深圳NPDP产品经理认证,这里实惠-程序员宅基地

文章浏览阅读65次。产品开发与管理协会(PDMA)成立于1979年,是全球范围内产品开发与管理专业人士最杰出的倡导者,协助个人、企业或组织提升其产品开发与管理的能力与成效。产品经理国际资格认证NPDP是新产品开发方面的认证,集理论、方法与实践为一体的全方位的知识体系,为公司组织层级进行规划、决策、执行提供良好的方法体系支撑。提升工作能力:NPDP方法是执行创新的最佳实战,让您迅速获得全球产品开发领域积累的正确原则、方法、流程、模板和工具,使您成为这一领域的专家和领导者。■ 产品生命周期管理与产品退市管理。

geant4 射线源定义_Geant4基础知识讲解.doc-程序员宅基地

文章浏览阅读396次。Geant4基础G4模拟粒子过程:建立一次模拟,在 G4 中称为一次Run;Run 建立后,需要对几何结构、物理过程进行初始化;初始化完成后就开始模拟过程了,首先发射一个粒子。在G4 中,发射一个(或一系列)粒子到所有次级粒子死亡的过程成为一次 Event。而每次发射的初始粒子则有粒子发射器进行控制。而在每一个event过程中,粒子与材料反应后会可能生成多个次级粒子,每个粒子都会有一条径 迹,称之..._geant4 gps将粒子定义为按照某种分布发射

【LeetCode/力扣】面试题 17.10. 主要元素(摩尔投票法)-程序员宅基地

文章浏览阅读94次。1 题目描述题目链接:https://leetcode-cn.com/problems/find-majority-element-lcci/数组中占比超过一半的元素称之为主要元素。给你一个 整数 数组,找出其中的主要元素。若没有,返回 -1 。请设计时间复杂度为 O(N) 、空间复杂度为 O(1) 的解决方案。示例 1:输入:[1,2,5,9,5,9,5,5,5]输出:5示例 2:输入:[3,2]输出:-1示例 3:输入:[2,2,1,1,1,2,2]输出:22 代码/C++

标准库`random`函数大全:探索Python中的随机数生成_random标准库函数-程序员宅基地

文章浏览阅读3.4k次,点赞36次,收藏23次。随机数在计算机科学和数据科学领域中扮演着重要角色,Python的标准库中提供了`random`模块,用于生成各种随机数。本篇博客将深入探讨`random`模块的各种函数,以及它们的应用场景和代码示例。_random标准库函数

推荐文章

热门文章

相关标签