统计学中的Bootstrap方法(Bootstrap抽样)-程序员宅基地

技术标签: Bootstrap  

      Bootstrap又称自展法、自举法、自助法、靴带法 ,  是统计学习中一种重采样(Resampling)技术,用来估计标准误差、置信区间和偏差

      Bootstrap是现代统计学较为流行的一种统计方法,在小样本时效果很好。机器学习中的Bagging,AdaBoost等方法其实都蕴含了Boostrap的思想,在集成学习的范畴里 Bootstrap直接派生出了Bagging模型.
 

子样本之于样本,可以类比样本之于总体

举例

栗子:我要统计鱼塘里面的鱼的条数,怎么统计呢?假设鱼塘总共有鱼1000条,我是开了上帝视角的,但是你是不知道里面有多少。

步骤

1. 承包鱼塘,不让别人捞鱼(规定总体分布不变)。
2. 自己捞鱼,捞100条,都打上标签(构造样本)
3. 把鱼放回鱼塘,休息一晚(使之混入整个鱼群,确保之后抽样随机)
4. 开始捞鱼,每次捞100条,数一下,自己昨天标记的鱼有多少条,占比多少(一次重采样取分布)。
5. 重复3,4步骤n次。建立分布。

(原理是中心极限定理)

       假设一下,第一次重新捕鱼100条,发现里面有标记的鱼12条,记下为12%,放回去,再捕鱼100条,发现标记的为9条,记下9%,重复重复好多次之后,假设取置信区间95%,你会发现,每次捕鱼平均在10条左右有标记,所以,我们可以大致推测出鱼塘有1000条左右。其实是一个很简单的类似于一个比例问题。这也是因为提出者Efron给统计学顶级期刊投稿的时候被拒绝的理由--"太简单"。这也就解释了,为什么在小样本的时候,bootstrap效果较好,你这样想,如果我想统计大海里有多少鱼,你标记100000条也没用啊,因为实际数量太过庞大,你取的样本相比于太过渺小,最实际的就是,你下次再捕100000的时候,发现一条都没有标记,就尴尬了。。。



 

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/hxxjxw/article/details/108265491

智能推荐

结构体计算机二级,结构体类型(2)_计算机二级C语言入门及上机实践视频教程_等级考试视频-51CTO学堂...-程序员宅基地

文章浏览阅读70次。第1章C语言概述11.1 程序和程序设计11.2 算法11.3 结构化程序设计和模块化结构21.4 开发环境(VC6.0)的安装、配置和简介2第2章 C语言基础知识72.1 简单C语言程序的构成和格式72.2 标识符、常量和变量92.3 整型数据112.4 实型数据132.5 算术表达式152.6 赋值表达式152.7 自加、自减运算符和逗号运算符162.8运算符的优先级和结合性17第3章 C语言...

使用GitHub开源项目 申请 IntelliJ License_github开源项目 申请idea-程序员宅基地

文章浏览阅读8.6k次,点赞4次,收藏18次。使用GitHub开源项目 申请 IntelliJ IDEA 商业版 License免费获取IntelliJ IDEA的正版License,申请资格要求要有自己的开源项目,我这里用的是自己开源在GitHub上的项目,地址是:https://github.com/hcitlife/SSMGenerator。1.为GitHub开源项目添加License具体的申请步骤:给开源项目添加Licens..._github开源项目 申请idea

牛客刷题-软件测试_牛客是用来刷什么的-程序员宅基地

文章浏览阅读5.2k次。JUnit-单元测试如何选择测试用例是测试的关键问题代码评审员一般由开发担任_牛客是用来刷什么的

java处理rdf文件_Java-使用Jena APi-从RDF文件获取数据-程序员宅基地

文章浏览阅读500次。我的问题与数据类型属性hasFirstName,hasLastName,hasDateOfBirth,hasGender的类Person有关.我正在使用Java和Jena API.这是我的RDF文件中代表一个人的方式.H04/02/1980DS Bruno如果性别是女性,我想在下面写下这一行:[label= \"" +firstName+ " \"\n\n\"D.Naiss:"+dnai1+"\..._java 读取rdf文件 dt: 后面值如何获取

SRM高维特征隐写分析原理与应用_srm隐写分析-程序员宅基地

文章浏览阅读5.2k次,点赞8次,收藏41次。一、SRM简介  SRM(Spatial Rich Model) 为基于空域富模型的隐写分析方法,由Fridrich等人[1] 提出,主要用于空域编码图像的隐写分析,在基于传统的提取手工特征的方式中占据主流地位。SRM采用了多个子模型(sub-model)以提取更多类型的特征,使得能够更好地表征隐写对邻域像素多种相关性的破坏。所谓“子模型”,指的是图像经过特定的滤波后再提取相应特征,由于邻域相关性可以通过局部像素之间的预测误差表示,这里滤波一般指输出这种预测误差的操作,这类误差一般被称为残差(residu_srm隐写分析

spark-shell计算某大学计算机系的成绩_使用 spark-shell 读取数据集 /data/bigfiles/data01.txt 中的内-程序员宅基地

文章浏览阅读3.9k次,点赞4次,收藏37次。数据集Data01.txt如下Aaron,OperatingSystem,100Aaron,Python,50Aaron,ComputerNetwork,30Aaron,Software,94Abbott,DataBase,18Abbott,Python,82Abbott,ComputerNetwork,76Abel,Algorithm,30Abel,DataStructure,38Abel,OperatingSystem,38Abel,ComputerNetwork,92Abrah_使用 spark-shell 读取数据集 /data/bigfiles/data01.txt 中的内容,完成交互式编

随便推点

linux搭建dlna媒体服务器,Serviio:一款功能强大的DLNA媒体服务器软件-程序员宅基地

文章浏览阅读1.7k次。Serviio是一款非常不错的DLNA媒体服务器工具,很多小伙伴或许没有听说过这款神器,那么Serviio究竟是做什么用的呢?简单来说就是将您电脑中的音乐、视频、图像等媒体文件瞬间分享到您的网络电视机、蓝光播放器和游戏控制台中,非常方便快捷。接下来就让我们一起看看Serviio所拥有的一系列强大功能吧!Serviio pro for Mac 特别版 软件功能特征以原生格式传输音频,视频(SD和HD..._linux dlna服务器

python:将json文件导入mysql数据库_爬虫json数据有列表怎么导入数据库-程序员宅基地

文章浏览阅读4.5k次,点赞6次,收藏55次。# 准备json文件,里边内容为:{"name": "tom", "age": "28"}import jsonimport pymysql# 连接数据库conn = pymysql.connect( host = '192.168.32.131', #端口号 port = 3306, #用户名 user = 'root', #密码 passwd = '123456', #数据库名称 _爬虫json数据有列表怎么导入数据库

RK3399 GPIO配置问题/电源域配置_rk3399 apio2_vddpst-程序员宅基地

文章浏览阅读4.7k次,点赞3次,收藏11次。标题RK3399 GPIO配置问题/电源域配置平台RK3399OS LinuxKernel 4.4硬件需要拉高gpio1 A3来使能OTG功能,但是在配置dts后一直没有电压,最后查下来是硬件与软件的电源域配置不一致,记录一下查找过程。原理图VCC5V0_OTG_EN对应gpio1 A3Dts配置:arch/arm64/boot/dts/rockchip/rk3399-sapphire.dtsi+ vcc5v0_otg: vcc5v0-otg-regulator {+ _rk3399 apio2_vddpst

STM32F429使用PWM控制电机转速_stm32f429 pwm-程序员宅基地

文章浏览阅读2.7w次,点赞33次,收藏267次。功能简介实验前准备工作原理介绍程序源码 功能简介本次实验实现的是使用F429输出PWM,从而控制减速电机的速度。实验主要是通过对定时器3的通道3和通道4的配置来实现PWM的输出,并且可以通过调整占空比来实现对电机转速的控制。 实验前准备本次实验需要用到的器材有:STM32F429开发板、两路减速电机、L298N电机驱动模块、杜邦线,电机及其驱动模块如下图: 原..._stm32f429 pwm

HF-Net(三)基于NetVLAD及superpoint构建的sfm场景模型的查询图像位姿解算_superpoint netvlad-程序员宅基地

文章浏览阅读2.8k次。参考:HF-Net git地址0.数据准备0.1NetVLAD预训练权重,存放在编译hfnet后生成的$DATA_PATH/weights/路径下0.2aachen数据下载,存放在编译hfnet后生成的$DATA_PATH/路径下0.3基于superpoint生成的aachen三维点云场景0.4aachen数据对应的每张图像相机内参文件1.基于NetVLAD生成aachen所有图像的g..._superpoint netvlad

PGM:概率图模型Graphical Model-程序员宅基地

文章浏览阅读184次。http://blog.csdn.net/pipisorry/article/details/51461878 概率图模型Graphical Models简介 完全通过代数计算来对更加复杂的模型进行建模和求解。然而,我们会发现,使用概率分布的图形表示进行分析很有好处。这种概率分布的图形表示..._graphical models建图

推荐文章

热门文章

相关标签