机器学习(无监督学习)关联规则Apriori算法原理与python实现_关联规则算法原理-程序员宅基地

技术标签: python  机器学习  python机器学习  Apriori  关联规则  

一、关联规则原理:

1、概述:

关联规则算法是在一堆数据集中寻找数据之间的某种关联,通过该算法我们可以对数据集做关联分析——在大规模的数据中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集、关联规则。

  • 频繁项集:经常出现在一块的物品的集合。
  • 关联规则:暗示两种物品之间可能存在很强的关系。

关联分析典型的例子,沃尔玛超市啤酒于尿不湿的关联分析。例如:购物篮数据

订单编号 购买商品集合
001 羽毛球拍,羽毛球
002 羽毛球,球网,纸巾,矿泉水
003 羽毛球拍,球网,纸巾,红牛
004 羽毛球,羽毛球拍,球网,纸巾
005 羽毛球,羽毛球拍,球网,红牛

名词定义:

  • 事物:每一个订单被称为一个事物,上表包含5个事物;
  • 项:订单中的每一个物品被称为一个项;
  • 项集:包含0个或多个项的集合被称为项集,如:{羽毛球拍,羽毛球};
  • k-项集:包含k个项的项集被称为K项集,如{羽毛球拍,羽毛球}称为2-项集;
  • 前件与后件:对于规则{羽毛球拍}-->{羽毛球},{羽毛球拍}叫做前件,{羽毛球}叫做后件。

2、频繁项集的评估标准:

频繁项集:经常出现在一块的物品的集合,当数据量非常大的时候,我们不可能通过人工去算,所以催生了关联规则的算法,如:Apriori、prefixSpan、CBA等。有了计算方法,那么常常出现在一块多少次的物品集合才算频繁项集,则还需要一个评估频繁项集的标准。评估标准有支持度,置信度、和提升度等,需要自定义一个阈值来衡量判别。

  • 支持度(support):几
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_41685388/article/details/104888378

智能推荐

groupby单字段分组_lambdaquery groupby-程序员宅基地

文章浏览阅读84次。人生不缺不堪回首的过去,也不缺自欺欺人的幻想,脚踏实地的做自己,做自己喜欢的自己。生活不会辜负你,辜负你的只有人心。_lambdaquery groupby

使用Filezilla在ubuntu与windows之间互传文件_win11用filezila连ubuntu传文件很慢。-程序员宅基地

文章浏览阅读393次。开启ubuntu下的FTP服务使用命令sudo apt-get install vsftpd安装FTP服务,当软件安装成功后使用命令sudo vi /etc/vsftpd.conf打开配置文件(文件编辑器可自行选择,推荐使用vscode),打开之后找到local_enable=YES以及write_enable=YES取消这两行的注释“#”。保存之后sudo /etc/init.d/vsfpd restart重启FTP服务。Filezilla的配置在Filezilla软件打开文件选择新建站点,自己_win11用filezila连ubuntu传文件很慢。

缺陷或负样本难以收集怎么办?使用生成式模型自动生成训练样本,image-to-image Stable diffusion_缺陷检测样本太少,如何生成样本-程序员宅基地

文章浏览阅读1.4k次。面对这种情况,工程师一般会利用PS工具,或在良品上人为制造缺陷,或在产线蹲守等方式来获取足量缺陷图。不同数据的形式(图像或者文本,是否有缺失),数据的规模(样本数和维度大小),数据中存在的结构信息(稀疏、低秩),选择的模型都应该不一样。数据增广,就是尽可能产生更多的样本,比如,一张图像,通过裁剪、变换、翻转、加噪声,获得更多样本;使用k折交叉验证训练模型,可以提供模型的精度,防止划分数据的随机性。缺陷检测实验中,基于学习的缺陷检测算法,受困于缺陷样本少。迁移其他数据进行模型学习,并根据任务微调模型。_缺陷检测样本太少,如何生成样本

SSH-sshd_config配置文件详解-xShell连接Linux服务器提示密码错误。_错误:sshd_config配置文件不存在,无法继续!-程序员宅基地

文章浏览阅读6.8k次。xShell连接Linux服务器提示密码错误。 1、检查虚拟机SSH服务是否开启: service sshd status,如果没有开启,请执行service sshd start启动该服务,或者通过service sshd restart重启该服务;2、检查 /etc/ssh/ssh_config文件: ssh服务端口是否为22,Protocol协议版本是否为2(一般为2安全。1为ss_错误:sshd_config配置文件不存在,无法继续!

使用docker安装mysql-程序员宅基地

文章浏览阅读5.7w次,点赞35次,收藏341次。1.在docker hub 上查看要下载的mysql镜像名称:docker hub镜像仓库中为我们开发要打开docker hub 网站dockerHub官网地址在上方搜索栏里输入mysql找到要拉取的镜像版本,在tag下找到版本回到虚拟机界面,执行下面命令来拉取mysql镜像不指定版本号,默认下载最新版本:sudo docker pull mysql指定版本号:sudo docker pull mysql:5.72.镜像拉取完成后,用该镜像创建mysql实例,使用下面的命令来_docker安装mysql

echo输出不重复行到文件 shell_搞定Linux Shell文本处理工具,看完这篇集锦就够了...-程序员宅基地

文章浏览阅读250次。Linux Shell是一种基本功,由于怪异的语法加之较差的可读性,通常被Python等脚本代替。既然是基本功,那就需要掌握,毕竟学习Shell脚本的过程中,还是能了解到很多Linux系统的内容。Linux脚本大师不是人人都可以达到的,但是用一些简单的Shell实现一些常见的基本功能还是很有必要的。下面我介绍Linux下使用Shell处理文本时最常用的工具:find、grep、xargs、sort..._shell重复行不输出

随便推点

文献速递:基于SAM的医学图像分割---在医学图像中进行任何分割-程序员宅基地

文章浏览阅读637次,点赞19次,收藏15次。这些模型通常被设计和训练用于特定的分割任务,当应用于新任务或不同类型的成像数据时,它们的性能可能会显著下降。我们通过汇总公开可用的医学图像分割数据集中的图像,策划了一个全面的数据集,这些数据集从互联网上的各种来源获得,包括癌症影像档案(TCIA)、Kaggle、Grand-Challenge、Scientific Data、CodaLab以及医学图像计算和计算机辅助干预学会(MICCAI)的分割挑战。然而,现有的方法通常是针对特定的模态或疾病类型定制的,缺乏在医学图像分割任务的多样性谱系中的普遍适用性。

1. 计算费用_有一个字典变量d={"苹果":5,"草莓":15,"香蕉":3.5,"梨子":4.5}保存着4种水果-程序员宅基地

文章浏览阅读944次,点赞2次,收藏5次。【问题描述】有一个字典变量d={"苹果":5,"草莓":15,"香蕉":3.5,"梨子":4.5}保存着4种水果的单价(单位:元/斤),现从键盘分别输入4种水果中某一个水果和购买的数量,要求利用d变量计算并输出相应的总费用。【输入形式】用两个input()函数分两行输入水果和购买的数量,注意input()函数中没有参数。【输出形式】用print()函数在屏幕上输出。_有一个字典变量d={"苹果":5,"草莓":15,"香蕉":3.5,"梨子":4.5}保存着4种水果名称

FL Studio2024中文破解版百度网盘下载地址含Crack补丁_百度网盘补丁-程序员宅基地

文章浏览阅读776次,点赞14次,收藏16次。FL Studio2024中文破解版是最优秀、最繁荣的数字音频工作站 (DAW) 之一,日新月异。它是一款录音机和编辑器,可让您不惜一切代价制作精美的音乐作品并保存精彩的活动画廊。为方便用户,FL Studio 21提供三种不同的版本——Fruity 版、Producer 版和签名版。所有这些版本都是独一无二的,同样具有竞争力。用户可以根据自己的需要选择其中任何一种。FL Studio2024中文破解版可以说是一站式综合音乐制作单位,可以让您录制、作曲、混音和编辑音乐。_百度网盘补丁

solidworks2019安装出现无效的使用许可号码(-8,544,3)_安装sw2019无效的许可-程序员宅基地

文章浏览阅读6.4w次,点赞21次,收藏21次。万分感谢,求解答_安装sw2019无效的许可

LiveQing稳定高性能RTMP流媒体服务器软件-支持与企业MySQL数据库对接-程序员宅基地

文章浏览阅读484次。青柿流媒体服务解决方案LiveQing云平台直播点播流媒体服务-LiveGBS国标GB28181无插件流媒体服务LiveNVR安防Onvif/RTSP流媒体服务;支持本地、内网、私有云部署;为企业视频能力建设,提供了视频点播转码、手机直播推流、云端录像存储计划、RTMP拉流推流服务、RTSP拉流推流服务、设备GB28181接入、Onvif云台控制等等能力,同时提供性能强大稳定的RTMP..._liveqing

51nod 3215 1到N的最小公倍数-程序员宅基地

文章浏览阅读455次。进阶习题:1到N的最小公倍数已完成这一天小明学习了最小公倍数的知识,于是他想知道,1到一个数N之间所有整数的最小公倍数是多少呢?聪明的你想要帮助小明解决这个问题,但老师提醒道,这个数可能会非常大,于是你决定将它对1000000007取模。输入格式输入一个正整数N,表示数字的上界。其中2≤N≤10000。输出格式输出一个数,表示这个最小公倍数取模后的结果。输入样例4输出样例12数据范围对于10%的数据,2≤N≤5; 对于30%的数据,2≤N≤100;_51nod 3215

推荐文章

热门文章

相关标签