Python------贝叶斯算法实现预测(数据挖掘与分析)_python使用贝叶斯算法实现脑卒中预测-程序员宅基地

技术标签: 贝叶斯算法  数据挖掘  大数据  Python  

问题来源

使用贝叶斯算法实现以下问题:
假设有一家小公司招收机器学习工程师,为了在更广泛的范围内筛选人才,他们写一些爬虫,去各个招聘平台、职场社交平台爬取简历,然后又写了一个简单的分类器筛选他们感兴趣的候选人。这个筛选分类器是朴素贝叶斯分类器,训练数据是现在公司里的机器学习工程师和之前来面试过这一职位,有被录取的人员的简历记录。全部数据集如下,请预测一位985硕士技能会C++的应聘者是否能录取?

在这里插入图片描述

问题分析

算法应用流程
①、分解出先验数据中的各特征
(即分词,比如“985”“学历”“技能”)
②、计算各类别(录取、不录取)中,各特征的条件概率
  比如   p(“Yes985”|录取),p(“No985”|录取)、
        p(“本科”|录取),p(“硕士”|录取),p(“博士”|录取),
        p(“C++|录取),p(“Java”|录取)
③、分解出待分类样本的各特征
    比如分解a: “Yes985” “硕士” “C++”
④、计算类别概率
    P(录取) = p(录取|“Yes985”) *p(录取|“No985”)*
             p(录取|“本科”)*p(录取|“硕士”)*p(录取|“博士”)*
             p(录取|“C++)*p(录取|“Java”)
    P(不录取)=p(不录取|“Yes985”) *p(不录取|“No985”)*
             p(不录取|“本科”)*p(不录取|“硕士”)*p(不录取|“博士”)*
             p(不录取|“C++)*p(不录取|“Java”)
⑤、显然P(录取)的结果值与P(不录取)进行比较,哪个大,则a被判别为 哪一个

代码如下

# 转置
def transpose(matrix):
    new_matrix = []
    for i in range(len(matrix[0])):
        matrix1 = []
        for j in range(len(matrix)):
            matrix1.append(matrix[j][i])
        new_matrix.append(matrix1)
    return new_matrix

# 遍历
def bianli_(alist):
    for i in range(len(alist)):  # 控制行
        for j in range(len(alist[i])):  # 控制列
            print(alist[i][j], end='\t')
        print()

# 遍历行
def bianlihang(alist):
    for i in range(len(alist)):  # 控制行
        print(alist[i])

# 计算概率
def rate_(a, b, c):
    a.append(b.count(c) / len(b))

#计算条件概率p(word_1|word_2),加入blist[],
def conditional_rate(alist_T,blist,word_1,word_2):
    for i in range(len(alist_T)-1):
        count_1 = 0
        count_2 = 0
        for j in range(len(alist_T[i])):
            if alist_T[i][j]==word_1 and alist_T[3][j]==word_2:
                count_1+=1
            #print('第 {} {} count_1:{}'.format(i, j, count_1))
            if alist_T[3][j]==word_2:
                count_2+=1
            #print('第 {} {} count_2:{}'.format(i, j, count_2))
        x=count_1/count_2
        #print(x)
        blist[i].append(x)

# 统计整理数据,分类
alist = [['Yes', '本科', 'C++', 'No'],
         ['Yes', '本科', 'Java', 'Yes'],
         ['No', '硕士', 'Java', 'Yes'],
         ['No', '硕士', 'C++', 'No'],
         ['Yes', '本科', 'Java', 'Yes'],
         ['No', '硕士', 'C++', 'No'],
         ['Yes', '硕士', 'Java', 'Yes'],
         ['Yes', '博士', 'C++', 'Yes'],
         ['No', '博士', 'Java', 'Yes'],
         ['No', '本科', 'Java', 'No']]
'''①特征分类----------------------------------------------------------'''
'''①、分解出先验数据中的各特征
(比如“985”“学历”“技能”)'''
alist_T = transpose(alist)
bianlihang(alist_T)
'''②计算各特征的条件概率----------------------------------------------------------'''
'''②、计算各类别(录取、不录取)中,各特征的条件概率
  比如   p(“Yes985”|录取),p(“No985”|录取)、
        p(“本科”|录取),p(“硕士”|录取),p(“博士”|录取),
        p(“C++”|录取),p(“Java”|录取)
'''
base_list=[['Yes','No'],['本科','硕士','博士'],['C++','Java'],['Yes','No']]
#计算各特征的概率
rate = [[], [], [], []]
for i in range(len(rate)):
    for j in range(3):
        if (i==0 or i==2 or i==3) and j==2:
            continue
        else:
            rate_(rate[i], alist_T[i], base_list[i][j])
print('计算各特征的概率:',rate)

'''③、分解出待分类样本的各特征
    a: “Yes985” “硕士” “C++”
'''
'''计算概率----------------------------------------------------------'''
'''计算各类别(录取、不录取)中,各特征的条件概率
  比如   p(“Yes985”|录取),p(“No985”|录取)、
        p(“本科”|录取),p(“硕士”|录取),p(“博士”|录取),
        p(“C++”|录取),p(“Java”|录取)'''
hanzi_list=[["p(“Yes985”|录取)","p(“No985”|录取)"],
       ["p(“本科”|录取)","p(“硕士”|录取)","p(“博士”|录取)"],
       ["p(“C++”|录取)","p(“Java”|录取)"]]

#计算类别录取
rate_2 = [[], [], []]
conditional_rate(alist_T,rate_2,'Yes','Yes')
conditional_rate(alist_T,rate_2,'No','Yes')
conditional_rate(alist_T,rate_2,'本科','Yes')
conditional_rate(alist_T,rate_2,'硕士','Yes')
conditional_rate(alist_T,rate_2,'博士','Yes')
conditional_rate(alist_T,rate_2,'C++','Yes')
conditional_rate(alist_T,rate_2,'Java','Yes')
x=0.0
for i in range(len(rate_2)):  # 控制行
    while x in rate_2[i]:
        rate_2[i].remove(x)
print('计算类别录取:',rate_2)

#计算类别不录取
rate_2_ = [[], [], []]
conditional_rate(alist_T,rate_2_,'Yes','No')
conditional_rate(alist_T,rate_2_,'No','No')
conditional_rate(alist_T,rate_2_,'本科','No')
conditional_rate(alist_T,rate_2_,'硕士','No')
conditional_rate(alist_T,rate_2_,'博士','No')
conditional_rate(alist_T,rate_2_,'C++','No')
conditional_rate(alist_T,rate_2_,'Java','No')
for i in range(len(rate_2_)):  # 控制行
    while x in rate_2_[i]:
        rate_2_[i].remove(x)
print('计算类别不录取:',rate_2_)

'''④计算类别概率----------------------------------------------------------'''
'''
④、计算类别概率
    P(录取) = p(录取|“Yes985”) *p(录取|“No985”)*
             p(录取|“本科”)*p(录取|“硕士”)*p(录取|“博士”)*
             p(录取|“C++”)*p(录取|“Java”)
    P(不录取)=p(不录取|“Yes985”) *p(不录取|“No985”)*
             p(不录取|“本科”)*p(不录取|“硕士”)*p(不录取|“博士”)*
             p(不录取|“C++”)*p(不录取|“Java”)

             a: “Yes985” “硕士” “C++”     '''
p1 = (1 / rate_2[0][0]) * (1 / rate_2[1][1]) * (1 / rate_2[2][0])
p2 = (1 / rate_2_[0][0]) * (1 / rate_2_[1][1]) * (1 / rate_2_[2][0])

'''⑤、显然P(录取)的结果值与P(不录取)进行比较,哪个大,则a被判别为 哪一个'''
if p1 > p2:
    print("录取    (p1=={}) > (p2=={}):".format(p1, p2))
elif p1 < p2:
    print("不录取  (p1=={}) < (p2=={}):".format(p1, p2))
else:
    print("        (p1=={}) == (p2=={}):".format(p1, p2))

运行结果

在这里插入图片描述
下面是将图片放大一点的
在这里插入图片描述

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_43270153/article/details/103220410

智能推荐

数仓实战 作业_select campseg_id, s_start_date,count(1) from i_h_-程序员宅基地

文章浏览阅读464次。作业题:在会员分析中计算最近七天连续三天活跃会员数。 项目的数据采集过程中,有哪些地方能够优化,如何实现?连续值求解问题对表 dws_member_start_day 中的数据使用 row_number()函数进行排序,并且根据设备号 device_id分组,登录日期dt排序,用日期减去排名得到groupId 并限定如期最近7天,根据设备号和groupId分组,求出统计值cnt 大于等于 3的记录。WITH tmp as( SELECT ..._select campseg_id, s_start_date,count(1) from i_h_iop_2_93001_day_dm group b

nagios用NsClient自定义windows监控-程序员宅基地

文章浏览阅读76次。Nagios用NsClient自定义windows监控NsClient++来监控windows主机有三种方式:check_nt,check_nrpe,nsca.相对而言,check_nrpe已经可以满足大部分的监控任务要求了。这三种方式在nsclient的PDF中说的很详细,但全是E文,根据我自己的部署过程,边做边写下自己理解:check_nt的使用方法:这是NsClient++默认的使用方法,但..._nagios自定义监控windows

docker- 构建 oracle2c-r2(12.2.0.1) 的镜像-程序员宅基地

文章浏览阅读423次。需求由于公司的数据库需要使用新的oracle版本(12c-r2 -->12.2.0.1),从之前的oracle11g迁移到12c。所以,便有了我们今天的内容。首先,我们就先来介绍一下如何构建oracle12c的镜像(docker image)。如果大家有使用的需求而又不是正式的项目,可以直接到docker hub 上面 pull 一个别人家的。在这里附上链接:https://hu..._/opt/database/install/unzip -qqqo ../stage/components/oracle.jdk/1.8.0.91.0/

寻(光阴的故事)-程序员宅基地

文章浏览阅读101次。寻寻一束芬芳的鲜花插于窗前在我疲劳的时候 看它一眼寻一把眷恋的故土带在身边在我思乡的时候 捧于胸前寻一段纯真的恋情藏在心间在我寂寞的时候 把她思念 ...

ZStack实践汇 | ZStack平台的使用心得-程序员宅基地

文章浏览阅读2.1k次。作者:ZStack 社区 王彬Iaas云服务的普及,让我们在使用服务器的时候享受了飞一般的感觉,新兴企业在构建自己的系统时,往往都会选择购买云厂商的云服务器(虚拟机)进行使用,使用这样的虚拟机企业不需要购置任何硬件,不需要考虑机房、网络、服务器维护相关的工作便可以获取到一个低成本、安全免维护、伸缩性强、可灵活迁移的云服务器。在这个云服务器上我们可以快速的构建企业的业务系统。随着企业的不断发展,...

Spec2006使用说明-程序员宅基地

文章浏览阅读1.7k次。Spec2006使用说明五 10 十月 2014Bypenglee工具介绍SPEC CPU 2006 benchmark是SPEC新一代的行业标准化的CPU测试基准套件。重点测试系统的处理器,内存子系统和编译器。这个基准测试套件包括的SPECint基准和SPECfp基准。 其中SPECint2006基准包含12个不同的基准测试和SPECfp2006年基准包含19个不..._spec2006如何手动停止

随便推点

Linux检查空口令_linux空口令账户-程序员宅基地

文章浏览阅读6.5k次,点赞5次,收藏11次。Linux加固:检查空口令账号创建空口令账号useradd test 添加test用户passwd -d test 为test设置空密码​ 查看空口令账号​ /etc/shadow 存放密码位置​ 冒号分割​ $1 用户名​ $2 密码​ $3 UID​使用awk命令 检查$2位是否为空,为空则print输出$1位用户名awk -F “:” ‘($2==""){print $1}’ /etc/shadow​..._linux空口令账户

面试题 10.09. 排序矩阵查找_排序矩阵查找,给定m*n矩阵 每一行每一列-程序员宅基地

文章浏览阅读193次。给定M×N矩阵,每一行、每一列都按升序排列,请编写代码找出某元素。_排序矩阵查找,给定m*n矩阵 每一行每一列

在Linux运行LaTeX_latex linux-程序员宅基地

文章浏览阅读649次,点赞9次,收藏10次。文件比较大,这步花的时间多一点,不过也不会太多,感觉5分钟十分钟的样子吧。这一步是安装一个类似在windows系统下的TaTeX GUI软件。下载对应版本安装包安装。_latex linux

s3c6410 jpeg编码 linux,立宇泰ARMSYS6410开发板推出三个linux系统版本-程序员宅基地

文章浏览阅读91次。ARMSYS6410采用了Linux-2.6.28作为标准版的linux内核,其中集成了丰富的驱动资源,充分展现S3C6410的各项特性,包括硬件编解码、2D/3D加速、显示协处理、TVOUT输出、视频采集和编码、4路串口、2路SD/MMC接口、1路10/100M以太网接口、1路USB host接口等等,使ARMSYS6410成为目前linux配置最为强劲和最完整的开发板之一。ARMSYS6410..._s3c6410可以刷那个版本linux

java参数-xmn1g_假如某个JAVA进程的JVM参数配置如下:-Xms1G&nb-程序员宅基地

文章浏览阅读618次。Xms 起始内存Xmx 最大内存Xmn 新生代内存Xss 栈大小。 就是创建线程后,分配给每一个线程的内存大小-XX:NewRatio=n:设置年轻代和年老代的比值。如:为3,表示年轻代与年老代比值为1:3,年轻代占整个年轻代年老代和的1/4-XX:SurvivorRatio=n:年轻代中Eden区与两个Survivor区的比值。注意Survivor区有两个。如:3,表示Eden:Survivor..._-xmn1g

LKD:中断_neil中断-程序员宅基地

文章浏览阅读238次。中断请求(IRQ)线:不同设备对应的中断不同,而每个中断都通过一个唯一的数字标志。重点在于特定的中断总是与特定的设备相关联,并且内核要知道这些信息。 异常:常常也称为同步中断。如处理器执行到由于编程失误导致的错误指令(如被0除),或者执行期间出现特殊情况(如缺页),处理器就会产生一个异常。 中断处理程序(ISR):上半部——接收到一个中断,它就立即开始执行,但只做有严格时限的工作,例如对接收的..._neil中断

推荐文章

热门文章

相关标签