百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Python实现概率分布,学数据统计的需要收藏

itomcoil 2025-06-08 21:53 9 浏览

作者:Runsen

二项分布

包含n个相同的试验 每次试验只有两个可能的结果:“成功”或“失败”。出现成功的概率p对每一次试验是相同的,失败的概率q也是如此,且p+q=1。试验是互相独立的。试验成功或失败可以计数,即试验结果对应于一个离散型随机变量。

以X表示n次重复独立试验中事件A(成功)出现的次数,则



在python中,可以使用scipy.stats模块中的binom.rvs()方法生成符合二项分布的离散随机变量。该方法的参数n表示n次重复独立试验,p表示事件A出现的次数。size表示做多少次二项分布试验。

同时,本文中使用seaborn的distplot方法绘制随机变量分布的直方图。在大数据量的试验下,通过随机变量出现的频率除以试验的次数,可以得到特定离散随机变量出现的概率。

from scipy.stats import binom
import seaborn as sns
data_binom = binom.rvs(n=10,p=0.5,size=10000)
ax = sns.distplot(data_binom,
                  kde=False,
                  color='green',
                  hist_kws={"linewidth": 15,'alpha':1})
ax.set(xlabel='Binomial Distribution', ylabel='Frequency')


# 可以打印随机变量的值,按照定义,其值为出现A事件的次数,范围肯定在[0,1]
print(data_binom)
[2 3 6 ... 5 4 3]

以抛硬币试验解析上图,得出连续抛10次硬币,5次为正面的概率最高,概率趋近于2500/10000=25%。

贝努里分布(Bernoulli Distribution)

贝努里分布为特殊的二项分布,即每次执行一次试验(n=1),然后获取单次试验的随机变量的值,为0或1。所以贝努里分布也被称为0-1分布。其分布函数为:



在python中,可以使用scipy.stats模块中的bernoulli.rvs()方法生成符合二项分布的离散随机变量。其它参数同二项分布。

from scipy.stats import bernoulli
data_bern = bernoulli.rvs(size=10000,p=0.5)
ax= sns.distplot(data_bern,
                 kde=False,
                 color="green",
                 hist_kws={"linewidth": 15,'alpha':1})
ax.set(xlabel='Bernoulli Distribution', ylabel='Frequency')

以抛硬币试验解析上图,得出正面和反面出现的概率,趋近于5000/10000=50%。

几何分布(Geometric distribution)

几何分布是指在n次贝努里试验中,经过k次获得1次成功的概率。

 几何分布的特点:
(1)进行一系列相互独立的试验;
(2)每一次试验既有成功的可能,也有失败的可能,且单次试验的成功概率相同;
(3)主要是为了取得第一次成功需要进行多少次试验。

其分布函数为:



在python中,可以使用scipy.stats模块中的geom.rvs()方法得出几何分布的离散随机变量。

from scipy.stats import geom
data_geom = geom.rvs(size=10000,p=0.5)
ax= sns.distplot(data_geom,
                 kde=False,
                 color="green",
                 hist_kws={"linewidth": 15,'alpha':1})
ax.set(xlabel='Geometric Distribution', ylabel='Frequency')

泊松分布(Poisson distribution)

泊松分布是用来描述在一指定时间范围内或在指定的面积或体积之内某一事件出现的次数的分布,例如某企业每月发生事故的次数。

泊松分布的公式为:



式中,为给定的时间间隔内事件的平均数。


在python中,可以使用scipy.stats模块中的poisson.rvs()方法得出泊松分布的连续随机变量。其中参数mu即为公式中的,其它参数同上文方法。

from scipy.stats import poisson
data_poisson = poisson.rvs(mu=3, size=10000)
ax = sns.distplot(data_poisson,
                  bins=30,
                  kde=False,
                  color="green",
                  hist_kws={"linewidth": 15,'alpha':1})
ax.set(xlabel='Poisson Distribution', ylabel='Frequency')


正态分布(Normal Distribution)

在连续型随机变量中,最重要的一种随机变量是具有钟形概率分布的随机变量。人们称它为正态随机变量,相应的概率分布称为正态分布。

如果随机变量X的概率密度为:



则称X服从正态分布,记作,其中,,, 为随机变量X的均值,为随机变量X的标准差,它们是正态分布的两个参数。

在python中,可以使用scipy.stats模块中的norm.rvs()方法产生符合二项分布的连续随机变量。其中参数loc代表随机变量的均值,size变量代表随机变量的标准差。

from scipy.stats import norm
# 生成标准正态分布,N(0,1)
data_normal = norm.rvs(size=10000,loc=0,scale=1)
ax = sns.distplot(data_normal,
                  bins=100,
                  kde=True,
                  color="green",
                  hist_kws={"linewidth": 15,'alpha':1})
ax.set(xlabel='Normal Distribution', ylabel='Frequency')


总结

本文通过scipy.stats包中的随机分布函数rvs方法(Random variates),执行10000次随机变量的计算,通过随机变量值个数直方图的绘制得出特定分布的图形。另外,也可以通过随机分布函数的pmf方法直接获得指定参数下的概率值,然后画出参数与概率的对应关系,但在本文中不做展开。

相关推荐

pip 设置镜像源

pip是python必不可少的的包管理工具,但是要在国内用得爽,必须要配置镜像源。我常用的是清华镜像站。pipconfigsetglobal.index-urlhttps://pypi...

定制构建OpenWrt发行版镜像及插件安装包,升级插件到最新版本

最近Tailscale提示OpenWrt路由器上的版本太低,建议升级到最新版本。OpenWrt用的23.05的,因为23.05中带的tailscale版本比较老,之前升级都是从主线版本中下载最新的ta...

第十节 Dockerfile 核心指南:从基础概念到镜像构建实践

一、Dockerfile基础概念(一)本质与作用Dockerfile是用于定义Docker镜像构建流程的文本文件,包含一系列指令和说明,指导Docker引擎生成定制化镜像。其核心价值在于:...

Python 模型部署不用愁!容器化实战,5 分钟搞定环境配置

你是不是也遇到过这种糟心事:花了好几天训练出的Python模型,在自己电脑上跑得顺顺当当,一放到服务器就各种报错。要么是Python版本不对,要么是依赖库冲突,折腾半天还是用不了。别再喊“我...

Docker-镜像

1、获取镜像在Docker中,获取(下载)镜像通常使用dockerpull命令:基本用法:dockerpull镜像名称[:标签]例如:dockerpullnginx...

第十二节 Ubuntu 系统 Docker 镜像安装与容器运行指南

一、Ubuntu镜像版本选择(一)DockerHub镜像库浏览Ubuntu官方镜像在DockerHub上提供多版本支持,访问地址:https://hub.docker.com/_/ubu...

Docker-使用Dockerfile 定制镜像

一、什么是Dockerfile?Dockerfile是一个文本文件,其中包含一条条构建镜像所需的指令。Docker引擎会按顺序执行这些指令,逐步构建出最终的自定义镜像。二、Dockerfil...

在Windows的WSL环境中本地安装watercrawl和Python3.13

这段时间在折腾Dify环境调用网络爬虫工具去自动化抓取网页信息的功能,就希望在本地Windows11的WSL环境中docker方式部署watercrawl,但每次都报错如下:用命令pip--ver...

1分钟搞定!Python超速工具uv换国内镜像,下载速度飙升10倍

1分钟搞定!Python超速工具uv换国内镜像,下载速度飙升10倍作为搞运维的老手,我太清楚Python包下载速度慢是啥滋味了。今天我来教你用3行代码给uv换上清华或者阿里云的镜像,这样就...

Dockerfile 教程:构建你的第一个自定义镜像!

Dockerfile就是你自定义镜像的“说明书”,学会它,你就能打造属于自己的开发环境、部署环境,甚至可以把你的应用一键打包。一、什么是Dockerfile?Dockerfile是一个文本文件...

提升Python编程效率的10点建议

程序员的时间很宝贵,Python这门语言虽然足够简单、优雅,但并不是说你使用Python编程,效率就一定会高。要想节省时间、提高效率,还是需要注意很多地方的。今天就与大家分享资深Python程序员总结...

掌握线性代数: 奇异值分解 (SVD)

奇异值分解(SVD)什么是SVD?奇异值分解是一种矩阵分解方法,它将矩阵A分解为三个分量:哪里:U是正交矩阵(mxm)Σ是包含奇异值(mxn)的对角矩阵V^T是另一个正交矩...

用 Docker+K8s 部署模型,再也不怕流量暴增和服务器崩溃了

上周朋友公司的AI模型又出问题了——电商大促期间,预测接口突然崩溃,眼睁睁看着订单流失。老板气得拍桌子:“花了几十万训练的模型,连个大促都扛不住?”这其实是很多企业的通病:模型在实验室跑得好好...

Python 图像处理

以前照相从来没有那么容易。现在你只需要一部手机。拍照是免费的,如果我们不考虑手机的费用的话。就在上一代人之前,业余艺术家和真正的艺术家如果拍照非常昂贵,并且每张照片的成本也不是免费的。我们拍照是为了及...

一文让你掌握22个神经网络训练技巧

作者丨匡吉来源丨深蓝学院神经网络训练是一个非常复杂的过程,在这过程中,许多变量之间相互影响,因此我们研究者在这过程中,很难搞清楚这些变量是如何影响神经网络的。而本文给出的众多tips就是让大家,在神经...