分布式统计计算------逆变换法生成随机数 - R Studio_假设离散型随机变量x的分布率如下,使用逆变换方法产生1000随机数-程序员宅基地

技术标签： r语言统计学统计概率论

摘要

生成随机变量的逆变换方法

文章目录

摘要
几个缩写
连续型分布情况下
离散型分布情况下

几个缩写

pmf(probability mass function)：概率质量函数。离散随机变量在各特定取值上的概率。只有离散型随机变量才有概率质量函数。
PDF/pdf(probability density function)：概率密度函数，简称密度函数。描述随机变量的输出值，在某个确定的取值点附近的可能性的函数
CDF/cdf(cumulatative distributionfunction)：累积分布函数，简称分布函数。是概率密度函数的积分，能完整描述一个实验随机变量X的概率分布。

连续型分布情况下

存在一个定理：

如果X是一个连续型随机变量，它的分布函数为
$F_X(X)\sim~U(0,1)$ 。
逆变换方法生成随机数要求了概率积分的变化，定义逆变换为：
$F_X^{-1}(u)=inf\{x:F_X(x)=u\},0<u<1$
如果U~Uniform(0,1)，则对所有的x∈R
$P(F_X^{-1}(U)\le x)=P(inf\{t:F_X(t)=U\}\le x) \\ =P(U\le F_X(x))\\ =F_U(F_X(x))\\ =F_X(x)$
并且 $F_X^{-1}(u)$ 和X有相同的分布。并且和X有相同的分布。因此，要想生成X的随机观测值，首先生成一个服从Uniform(0,1)的随机变量，并且传参给 $F_X^{-1}(u)$ 得到相应值，即为X的观测值。只要提供的 $F_X^{-1}$ 易于计算，那么这个方法就简单。同时，这个方法能够应用在连续型和离散型随机变量的生成。这个方法简单概括如下：

推导出逆函数 $F_X^{-1}(u)$
写一个命令或函数来计算 $F_X^{-1}(u)$
对每一随机变量都要求：
（1）生成的随机数u来自于Uniform(0, 1)
（2）得到的x = $F_X^{-1}(u)$

例1. -------- 服从密度分布为 $F_X(X)=3x^2 ~(0<x<1)$ 的随即样本。

n <- 1000  #样本大小设置1000
U <- runif(n)   #生成均匀分布随机数
X <- U^(1/3)   #逆变换
hist(X, prob = TRUE)  #样本密度直方图， main = expression(f(x)==3*x^2)加上此参数可出现表达式标题
y <- seq(0, 1, .01)
lines(y, 3*y^2)    #理论密度曲线f(x)

在这里插入图片描述
结论：生成的随机数直方图与理论密度分布曲线保持一致。那就符合预期。
练习3.2-------

#练习 3.2   方法一  推导出逆函数的定义域后，即u的区间，将逆函数分段分别生成随机数
U1 = runif(5000,0.5,1)
X1 = -log(2-2*U1);   #u>1/2
U2 = runif(5000,0,0.5)
X2 = log(2*U2);    #u<1/2
X = append(X1, X2)    # x的样本
hist(X, prob = TRUE, ylim = c(0,1), breaks = 100)
x = seq(-60,60,0.1)
lines(x,0.5*exp(-abs(x)))
plot(x,0.5*exp(-abs(x)))

#练习 3.2   方法二
n = 10000  #样本大小
u = runif(n)
x3 = rep(0,n)
ind = u>.5   #判断不同定义域时对应的逆函数
x3[ind] = -log(2*(1-u[ind]))
x3[!ind]=log(2*u[!ind])
hist(x3, breaks=100, prob=TRUE, ylim = c(0,1))
y = seq(-60,60,.05)
lines(y,.5*exp(-abs(y)))

在这里插入图片描述

离散型分布情况下

逆变换法同样可以应用在离散型分布上。如果X是一个离散型随机变量并且
$x_{i-1}<x_i <x_{i+1} <...$
是 $F_X(x)$ 的不连续点，则逆变换是当 $F_X(x_{i-1})$ <u< $F_X(x_{i+1})$ 时，使 $F_X^{-1}(u)=x_i$ 。
对每个随机变量要求：

生成的随机样本u服从U(0,1)
当 $F_X(x_{i-1})$ <u< $F_X(x_{i+1})$ ，输出 $x_i$

例 3.4 （两点分布）
这个例子利用逆变换来生成p=0.4的伯努利变量的一个随机样本。尽管在R中有更简单的办法生成两点分布的随机数，但这个简单的例子仅仅是用来阐述离散随机变量分布函数的逆变换计算方法。
在这个例子中， $F_X(0)=f_X(0)=1-p并且F_X(1)=1$ .因此，如果 u>0.6 ， $F_X^{-1}(u)=1$ .如果u≤0.6， $F_X^{-1}(u)=0$ 。这个生成器就把逻辑表达式u>0.6的值进行传递给X。

n <- 1000 
p <- 0.4 
u <- runif(n) 
x <- as.integer(u > 0.6)    #(u > 0.6) is a logical vector 
> mean(x) 
[1] 0.41 
> var(x) 
[1] 0.2421421

还有两种简单的二项分布随机数生成办法是利用R内置的函数直接的进行样本抽取：

n=100   #样本容量
rbinom(n, size = 1, prob = p) 
sample(c(0,1), size = n, replace = TRUE, prob = c(.6,.4))

练习3.5
在这里插入图片描述

#生成离散型分布函数随机数
u = runif(1000)
y1=integer(1000)   #1.初始化一个y1，用来放置离散概率函数的随机数，大小与均匀分布随机数保持一致
x = seq(0,4,1)     #2. 离散型分布随机变量的可能取值
p = c(0.1,0.2,0.2,0.2,0.3)   #3. 写出离散型概率函数分布列
f = c(0,cumsum(p))          #4. 写出离散型概率分布函数
m=length(f)         #判断对于均匀分布随机数进行的区间判断个数，准备找到对应离散型随机数的取值
#--------------------------------------------
y1 [u>0 &u<=0.1] = 0      #5. 区间判断
y1 [u>0.1 &u<=0.3] = 1
y1 [u>0.3 & u<=0.5] = 2
y1 [u>0.5 & u<= 0.7] = 3
y1 [u>0.7 & u<1] = 4
# ----------上下表达意思相同，选择一段即可-------
for(i in 1:m-1){
                      #5. 区间判断
  ind= u<=f[i+1] & u>f[i]
  y1[ind]=x[i]
}
#----------------------------------------------
b = table(y1)        #6. 随机数频数统计，加上"/n"统计频率

#sample函数生成离散型分布函数随机数,非逆变换法
k = sample(seq(0,4,1), size = 1000, replace = TRUE, prob = c(.1,.2,.2,.2,.3))
c = table(k)/n
b = table(y1)/n
rbind(p,b,c)
>
      0     1     2     3     4
p 0.100 0.200 0.200 0.200 0.300
b 0.111 0.205 0.211 0.198 0.275
c 0.097 0.225 0.199 0.192 0.287

可以看出，两种方法生成的样本还是服从题中分布的。

本文链接：https://blog.csdn.net/Yeeyi_max/article/details/121038110

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

c# 调用c++ lib静态库_c#调用lib-程序员宅基地

文章浏览阅读2w次，点赞7次，收藏51次。四个步骤1.创建C++ Win32项目动态库dll 2.在Win32项目动态库中添加外部依赖项 lib头文件和lib库3.导出C接口4.c#调用c++动态库开始你的表演...①创建一个空白的解决方案，在解决方案中添加 Visual C++ , Win32 项目空白解决方案的创建：添加Visual C++ , Win32 项目这......_c#调用lib

deepin/ubuntu安装苹方字体-程序员宅基地

文章浏览阅读4.6k次。苹方字体是苹果系统上的黑体，挺好看的。注重颜值的网站都会使用，例如知乎：font-family: -apple-system, BlinkMacSystemFont, Helvetica Neue, PingFang SC, Microsoft YaHei, Source Han Sans SC, Noto Sans CJK SC, W..._ubuntu pingfang

html表单常见操作汇总_html表单的处理程序有那些-程序员宅基地

文章浏览阅读159次。表单表单概述表单标签表单域按钮控件demo表单标签表单标签基本语法结构<form action="处理数据程序的url地址“ method=”get|post“ name="表单名称”></form><!--method将表单中的数据传送给服务器处理，get方式直接显示在url地址中，数据可以被缓存，且长度有限制；而post方式数据隐藏传输，_html表单的处理程序有那些

PHP设置谷歌验证器（Google Authenticator）实现操作二步验证_php otp 验证器-程序员宅基地

文章浏览阅读1.2k次。使用说明:开启Google的登陆二步验证（即Google Authenticator服务）后用户登陆时需要输入额外由手机客户端生成的一次性密码。实现Google Authenticator功能需要服务器端和客户端的支持。服务器端负责密钥的生成、验证一次性密码是否正确。客户端记录密钥后生成一次性密码。下载谷歌验证类库文件放到项目合适位置(我这边放在项目Vender下面)https://github.com/PHPGangsta/GoogleAuthenticatorPHP代码示例://引入谷_php otp 验证器

【Python】matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距-程序员宅基地

文章浏览阅读4.3k次，点赞5次，收藏11次。matplotlib.plot画图横坐标混乱及间隔处理_matplotlib更改横轴间距

docker — 容器存储_docker 保存容器-程序员宅基地

文章浏览阅读2.2k次。①Storage driver 处理各镜像层及容器层的处理细节，实现了多层数据的堆叠，为用户提供了多层数据合并后的统一视图②所有 Storage driver 都使用可堆叠图像层和写时复制（CoW）策略③docker info 命令可查看当系统上的 storage driver主要用于测试目的，不建议用于生成环境。_docker 保存容器

随便推点

网络拓扑结构_网络拓扑csdn-程序员宅基地

文章浏览阅读834次，点赞27次，收藏13次。网络拓扑结构是指计算机网络中各组件（如计算机、服务器、打印机、路由器、交换机等设备）及其连接线路在物理布局或逻辑构型上的排列形式。这种布局不仅描述了设备间的实际物理连接方式，也决定了数据在网络中流动的路径和方式。不同的网络拓扑结构影响着网络的性能、可靠性、可扩展性及管理维护的难易程度。_网络拓扑csdn

JS重写Date函数，兼容IOS系统_date.prototype 将所有 ios-程序员宅基地

文章浏览阅读1.8k次，点赞5次，收藏8次。IOS系统Date的坑要创建一个指定时间的new Date对象时，通常的做法是：new Date("2020-09-21 11:11:00")这行代码在 PC 端和安卓端都是正常的，而在 iOS 端则会提示 Invalid Date 无效日期。在IOS年月日中间的横岗许换成斜杠，也就是new Date("2020/09/21 11:11:00")通常为了兼容IOS的这个坑，需要做一些额外的特殊处理，笔者在开发的时候经常会忘了兼容IOS系统。所以就想试着重写Date函数，一劳永逸，避免每次ne_date.prototype 将所有 ios