R数据分析:逻辑斯蒂回归与泊松回归
itomcoil 2025-06-08 21:53 3 浏览
今天将逻辑回归和泊松回归放一起给大家写写,因为它两在R中的做法都非常的相似和非常的简单,同时还有两个回归的图形化表达。
什么时候用逻辑回归
Logistic regression, also known as logit regression, is what you use when your outcome variable (dependent variable) is dichotomous
就是如果你的因变量是二分类的时候就得考虑用逻辑回归了,多分类也得用,所以你就记住因变量只要是分类的,基本逻辑回归跑不掉。
Rather than estimate beta sizes, the logistic regression estimates the probability of getting one of your two outcomes (i.e., the probability of voting vs. not voting) given a predictor/independent variable(s). For our purposes
传统的回归都会出来一个β值,解释为当自变量改变一个单位时,因变量会改变β个单位,那么在做逻辑回归的时候也会有这个β值,但是意思却大大不同,此时的β值为自变量改变一个单位时,logOR的改变量,怎么解释呢?就是说自变量改变一个单位阳性结果(通常编码为1)的发生概率比阴性结果的发生概率会增加expβ倍。
什么时候用泊松回归
Poisson regression, also known as a log-linear model, is what you use when your outcome variable is a count (i.e., numeric, but not quite so wide in range as a continuous variable.)
当你的因变量是单位时间某事件的发生次数时你就应该考虑用泊松回归,比如你想研究的因变量是过去一个月病人发生心梗的次数,你就考虑用泊松回归。
实例展示
今天的例子为研究GRE,GPA和学校排名是否会影响一个人被录取为研究生,在这个例子中GRE和GPA都是连续变量,学校排名rank为分类变量,是否录取admit为(0/1)二分类。
读入数据(数据请私信获取):
mydata <- read.csv('C:/Users/hrd/Desktop/bootcamp/dataset/binary.csv')
head(mydata)
那么对于这么一个数据集,我们就应该使用逻辑回归模型,首先我们得告诉R我们的学校排名rank这个变量是分类变量,然后再拟合模型:
mydata$rank <- factor(mydata$rank)
mylogit <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(mylogit)
从上面的结果看出:
- 结果中首先会提示你跑的什么模型
- 然后我们会看到deviance residuals,这个和线性回归的残差一个意思,是表示模型好坏的一个指标
- 然后就是各个预测变量的系数和标准误,z统计量和p值,我们可以看到gpa,gre和rank都有显著意义,系数的解释就是预测变量每增加一个单位,LogOR的改变量,比如对于gre就有学生的gre每增加一个单位,那么它被录取为研究生的概率增加exp0.002倍。
默认输出的这个结果其实是不直观的,我们可以通过下面的代码直接输出OR改变量和置信区间
exp(cbind(OR = coef(mylogit), confint(mylogit)))
这样解释起来就会直观很多。
那么模型建立好了之后,我们还可以使用该模型做预测,比如我们想看看不同学校排名是如何预测了学生是否能上研究生:
newdata1 <- with(mydata, data.frame(gre = mean(gre), gpa = mean(gpa), rank = factor(1:4)))
newdata1$rankP <- predict(mylogit, newdata = newdata1, type = "response")
newdata1
在上面的代码中我们将gpa和gre都固定为均值,只改变学校排名,然后我们得到的结果就是排名为1的学校的学生能上研究生的概率为0.517,排名为2,3,4的学校的学生能上研究生的概率分别为0.352,0.219,0.185。
我们还可以将不同的gre或者gpa与能否上研究生的关系以学校排名分组画出来,比如我们想画gre与能否上研究生的概率,此时我们需要有很多的gre分数:
newdata2 <- with(mydata, data.frame(gre = rep(seq(from = 200, to = 800, length.out = 100),
4), gpa = mean(gpa), rank = factor(rep(1:4, each = 100))))
上面的代码就给不同排名的学校都生成了一百个200到800的gre分数,同时依然固定gpa。
此时我们的newdata2就只有3个预测变量gre,gpa,和rank,我们用之前训练的模型来给这个数据做预测,生成newdata3:
newdata3 <- cbind(newdata2, predict(mylogit, newdata = newdata2, type = "link",
se = TRUE))
此时这个newdata3就包含一个fit列以及fit的标准误,fit就是logOdds,如下图:
因为我们需要的是概率,所以我们需要将fit转化为预测概率,下面的代码就可以实现概率和概率的置信区间计算:
newdata3 <- within(newdata3, {
PredictedProb <- plogis(fit)
LL <- plogis(fit - (1.96 * se.fit))
UL <- plogis(fit + (1.96 * se.fit))
})
此时再看我们的newdata3,里面就有我们的预测概率和置信区间了:
我们现在就可以以rank这个变量分组,画出gre和预测概率的关系:
ggplot(newdata3, aes(x = gre, y = PredictedProb)) + geom_ribbon(aes(ymin = LL,
ymax = UL, fill = rank), alpha = 0.2) + geom_line(aes(colour = rank),
size = 1)
到这儿这篇文章的逻辑回归就写完了,在具体分析的时候如果我们要用泊松回归,我们只需要将拟合模型时的family 参数修改为family=poisson就行,其余都完全一样。
那么对于本文中的例子来说,如果我们不是模拟的数据集,如果我们的newdata3中还有实际的admit这个变量,我们就可以进一步的做出真阳性率和假阳性率,进而画出ROC曲线。具体的操作之前文章应该有写的,有兴趣的可以翻看。
小结
今天给大家写了一个逻辑回归的例子,并对模型的输出和结果解释做了说明,希望对大家有帮助,很多人爱做预测模型,其实本文就是一个很好的例子。感谢大家耐心看完,也欢迎大家的意见和建议。
如果你是一个大学本科生或研究生,如果你正在因为你的统计作业、数据分析、论文、报告、考试等发愁,如果你在使用SPSS,R,Python,Mplus, Excel中遇到任何问题,都可以联系我。因为我可以给您提供最好的,最详细和耐心的数据分析服务。
如果你对Z检验,t检验,方差分析,多元方差分析,回归,卡方检验,相关,多水平模型,结构方程模型,中介调节等等统计技巧有任何问题,请私信我,获取最详细和耐心的指导。
If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.
Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??
Then Contact Me. I will solve your Problem...
加油吧,打工人!
往期内容:
相关推荐
- 蚂蚁金服用什么技术这么厉害?(蚂蚁金服是怎么赚钱的?)
-
阿里妹导读:本文来自蚂蚁金服人工智能部认知计算组的基础算法团队,文章提出一整套创新算法与架构,通过对TensorFlow底层的弹性改造,解决了在线学习的弹性特征伸缩和稳定性问题,并以GroupLass...
- R数据分析:逻辑斯蒂回归与泊松回归
-
今天将逻辑回归和泊松回归放一起给大家写写,因为它两在R中的做法都非常的相似和非常的简单,同时还有两个回归的图形化表达。什么时候用逻辑回归Logisticregression,alsoknown...
- 想学好Python数据分析,一定要掌握的重要模块之Statsmodels
-
Statsmodels是Python中一个功能强大且广泛使用的统计建模和经济计量学库。它允许用户构建各种统计模型,执行假设检验,进行预测,并对模型结果进行详细的诊断和可视化。以下是statsmodel...
- Python实现概率分布,学数据统计的需要收藏
-
作者:Runsen二项分布包含n个相同的试验每次试验只有两个可能的结果:“成功”或“失败”。出现成功的概率p对每一次试验是相同的,失败的概率q也是如此,且p+q=1。试验是互相独立的。试验成功或失败...
- 60行代码实现经典论文:0.7秒搞定泊松盘采样,比Numpy快100倍
-
编辑整理自太极图形量子位|公众号QbitAI由随机均匀的点组成的图案,在动植物身上已经很常见了。像杨梅、草莓、荔枝、红毛丹这样的水果,表面都有颗粒或者毛发状的结构,它们随机、均匀地散布在水果表...
- linux ubuntu 安装mongo教程(实践步骤)
-
最近需要在linux上安装mongdb由于之前没安装过。在网上搜索到很多安装方法,但有的按照步骤操作是不行的。前后共花费了半天时间找到一个可行的步骤,分享给大家,不必走弯路。如果安装过程遇到技术问题...
- MongoDB 分片集群方案及其优缺点分析
-
一、MongoDB分片集群架构核心组件1.Mongos(路由节点)-无状态代理,客户端连接入口-负责查询路由、结果聚合-需部署多个以实现高可用2.ConfigServer(配置服务器)-...
- CentOS7安装Mongodb 4.x.x(CentOS7安装yum源的方法)
-
1、下载安装包curl-Ohttps://fastdl.mongodb.org/linux/mongodb-linux-x86_64-4.0.6.tgz2、解压安装包tar-zxvfmon...
- MongoDB+GridFS存储文件方案(mongodb存储在哪里)
-
GridFS是MongoDB的一个内置功能,它提供一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两个Collection中,一个保存文件索引,一个保存文...
- 如何使用 GridFS 、 Node.js、Mongodb和Multer 管理文件存储?
-
什么是GridFs?GridFs是用于存储音频、视频或图像等大型文件的mongodb规范……它最适用于存储超过mongodb文档大小限制(16MB)的文件。此外,无论文件大小如何,当您想...
- Mongodb 集群搭建方法(mongodb集群状态startup2)
-
#大有学问#MongoDB是一个非关系型数据库(NoSQL),提供高性能、高可用性和自动扩展的特点。在MongoDB中,可以通过搭建集群实现这些特性。MongoDB集群主要有两种类型:副本集(...
- 记一次生产事故:MongoDB数据分布不均的解决方案
-
推荐阅读:我为什么放弃MySQL,选择了MongoDB?看到这个数据你就会明白了事故集合:可以很明显可以看到我们这个集合的数据严重分布不均匀。一共有8个分片,面对这个情况我首先想到的是手动拆分数据块,...
- 百万级高并发mongodb集群性能数十倍提升优化实践
-
背景线上某集群峰值TPS超过100万/秒左右(主要为写流量,读流量很低),峰值tps几乎已经到达集群上限,同时平均时延也超过100ms,随着读写流量的进一步增加,时延抖动严重影响业务可用性。该集群采用...
- MongoDB 常见问题处理(二)(mongodb数据处理)
-
MongoDB数据库中,删除请求数超过阈值的处理方案?数据删除发生在文档迁移过程中,MongoDB4.0以上版本均衡阈值很小,容易发生迁移,频繁的迁移数据导致delete数据较大,同时还会导致CPU负...
- 实战:docker搭建FastDFS文件系统并集成SpringBoot
-
实战:docker搭建FastDFS文件系统并集成SpringBoot前言15年的时候,那时候云存储还远远没有现在使用的这么广泛,归根结底就是成本和安全问题,记得那时候我待的公司是做建站开发的,前期用...
- 一周热门
- 最近发表
-
- 蚂蚁金服用什么技术这么厉害?(蚂蚁金服是怎么赚钱的?)
- R数据分析:逻辑斯蒂回归与泊松回归
- 想学好Python数据分析,一定要掌握的重要模块之Statsmodels
- Python实现概率分布,学数据统计的需要收藏
- 60行代码实现经典论文:0.7秒搞定泊松盘采样,比Numpy快100倍
- linux ubuntu 安装mongo教程(实践步骤)
- MongoDB 分片集群方案及其优缺点分析
- CentOS7安装Mongodb 4.x.x(CentOS7安装yum源的方法)
- MongoDB+GridFS存储文件方案(mongodb存储在哪里)
- 如何使用 GridFS 、 Node.js、Mongodb和Multer 管理文件存储?
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)