barriers / 阅读 / 详情

probit回归与logistic回归有什么区别

2023-07-17 07:59:36
共1条回复
ardim

区别:

如果从分布角度来讲,logit函数和probit的函数几乎重叠,但反映的含义不同,logit等于p/(1-p),这里p是结局发生的概率,而

probit的函数是F-1(p),注意-1是上标。F是累积的标准正态分布函数,所以F-1就是累积标准正态分布函数的逆函数或反函数。

从解释的角度来讲,logit更容易理解一些,因为p/(1-p)就是我们常说的odds,两个odds相比就是odds

ratio,也就是我们最常用的OR值。所以当我们做出结果后,logistic回归所反应的实际意义就非常直观。而相比之下,probit的含义表示自

变量对累积标准正态分布函数的逆作用,这个就太让人看不懂了。当然,实际上我们也可以通过正态分布值求出probit回归中的p,作为概率预测,只是比

logistic回归要稍微麻烦一些。

关联:这两个方法之间是有关联的,通常情况下,probit回归估计出的参数值乘以1.814,大致会等于logistic回归中的参数值。

probit回归模型:最简单的probit模型就是指被解释变量Y是一个0,1变量,事件发生地概率是依赖于解释变量,即P(Y=1)=f(X),也就是说,Y=1的概率是一个关于X的函数,其中f(.)服从标准正态分布。

logistic回归模型:(logistic

regression)属于概率型非线性回归,它是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。在流行病学研究中,经常需要分析疾病与各危险因素之间的定量关系,为了正确说明这种关系,需要排除一些混杂因素的影响。

相关推荐

logistic是什么意思

logistic英 [lu0259"du0292u026astu026akl] 美 [lou02c8du0292u026astu026ak]adj.逻辑的; [军]后勤学的n.[逻]数理逻辑; 符号逻辑; [军]后勤学逻辑斯蒂;逻辑的;逻辑斯谛;后勤的派生词:logistical logistically 双语例句1. The statistical inference includes ANOVA, Chi - square test, multiple regression, and logistic regression. 统计推断用方差分析检验, 卡方检验, 多元线性回归分析和多因素非条件Logistic回归分析法.2. The mesh size selectivity can be expressed by logistic or Richards equation. 网目选择性常以Logistic或Richards方程来描述.3. Association between HR - HPV and CINs were evaluated by unconditional multinomial logistic regression. 采用非条件多项式logistic回归分析病毒载量与子宫颈病变级别的关系.4. To compute the risk ( Pr ) of fatality with the logistic regress equation. 应用Logistic回归方程计算新的预测病死几率 ( Pr ).5. Predict of mobile communication development using logistic model. 利用logistic模型预测移动电话发展.
2023-07-17 02:14:391

logistic是什么意思

logistic[英][lu0259"du0292u026astu026akl][美][lou02c8du0292u026astu026ak]adj.逻辑的; [军]后勤学的; n.[逻]数理逻辑; 符号逻辑; [军]后勤学;例句:1.Developing pollution-free logistic and environment protection. 发展绿色物流与保护环境。2.He joined the royal logistic corps in 1996 and shortly afterwards applied to train as an ammunition and bomb disposal specialist. 欧拉夫1996年加入皇家后勤军团,不久之后申请受训成为军火和炸弹的拆解专家。3.Be in charge of logistic detail operation, for example transportation or warehousing.
2023-07-17 02:14:471

logistic的意思是逻辑还是物流?

**********************您好,很高兴为您解答物流,logic是逻辑敬请追问,您珍贵的采纳是我坚持的动力,祝您学习进步***********************
2023-07-17 02:14:562

Logistic用中文通俗话怎么读

Logistic的意思是物流
2023-07-17 02:15:312

logistic结果怎么解读啊

logistic结果怎么解读啊有以下回答:1.logistic回归分析也叫logistic回归分析,是一种广义的线性回归分析模型,它通常用于数据挖掘、疾病诊断、经济预测等领域。2.在logistic回归分析中,探索因变量Y与自变a,b,c,d关系。众所周知,a和b可能是相关的,在单变量分析中,a,b,c,d是有意义的。b、c、d合并的多元模型显示,a、c、d具有统计学意义,但在分析了logistic回归分析时,探讨因变量Y与自变a,b,c,d的关系。3.logistic回归的因变量可分为二类或多种类,但二类比较常用,也比较容易解释。因此,实际上最常用的是二类logistic回归。拓展资料:实质,发生概率除以未发生的概率再取对数。这一不繁琐的转换改变了取值区间的矛盾和自变量之间的曲线关系。这是因为发生的概率与未发生的概率成了比值,这个比值是个缓冲,把取值范围扩大,再进行对数变换,整个因变量发生变化。不仅如此,这样的转换往往使因变量与自变量之间呈现线性关系,这是从大量的实践中总结出来的。因此,Logistic回归从根本上解决了为什么不存在连续变量的问题。此外,Logistic被广泛应用的原因是很多现实问题都与其模型相符。一个事件是否与其它数值型自变量相关联。
2023-07-17 02:16:201

logistic是什么函数

Logistic函数(又称sigmoid函数) Logistic函数或Logistic曲线是一种常见的S形函数,它是皮埃尔·弗朗索瓦·韦吕勒在1844或1845年在研究它与人口增长的关系时命名的。广义Logistic曲线可以模仿一些情况人口增长(P)的S形曲线。起初阶段大致是指数增长;然后随着开始变得饱和,增加变慢;最后,达到成熟时增加停止。
2023-07-17 02:17:521

roc曲线与logistic有什么区别

正因为我们比较关注正例的情形,所以设置了两个相应的指标:tpr与fpr。tpr:truepositiverate,将实际的1正确地预测为1的概率,d/(c+d)。fpr:falsepositiverate,将实际的0错误地预测为1的概率,b/(a+b)。tpr也称为sensitivity(即生物统计学中的敏感度),在这里也可以称为“正例的覆盖率”——将实际为1的样本数找出来的概率。覆盖率是重要的指标,例如若分类的目标是找出潜在的劣质客户(响应变量取值为1),则覆盖率越大表示越多的劣质客户被找出。类似地,1-fpr其实就是“负例的覆盖率”,也就是把负例正确地识别为负例的概率。tpr与fpr相互影响,而我们希望能够使tpr尽量地大,而fpr尽量地小。影响tpr与fpr的重要因素就是上文提到的“阈值”。当阈值为0时,所有的样本都被预测为正例,因此tpr=1,而fpr=1。此时的fpr过大,无法实现分类的效果。随着阈值逐渐增大,被预测为正例的样本数逐渐减少,tpr和fpr各自减小,当阈值增大至1时,没有样本被预测为正例,此时tpr=0,fpr=0。由上述变化过程可以看出,tpr与fpr存在同方向变化的关系(这种关系一般是非线性的),即,为了提升tpr(通过降低阈值),意味着fpr也将得到提升,两者之间存在类似相互制约的关系。我们希望能够在牺牲较少fpr的基础上尽可能地提高tpr,由此画出了roc曲线。roc曲线的全称为“接受者操作特性曲线”(receiveroperatingcharacteristic)当预测效果较好时,roc曲线凸向左上角的顶点。平移图中对角线,与roc曲线相切,可以得到tpr较大而fpr较小的点。模型效果越好,则roc曲线越远离对角线,极端的情形是roc曲线经过(0,1)点,即将正例全部预测为正例而将负例全部预测为负例。roc曲线下的面积可以定量地评价模型的效果,记作auc,auc越大则模型效果越好。由于roc曲线描述了在tpr与fpr之间的取舍,因此我一般将其理解为投入产出曲线,receiveofcost。(事实上我理解错了。相对而言lorenz曲线更适合这个名字。当然啦其实fpr可以理解为另一种cost。2010.10.15)当我们分类的目标是将正例识别出来时(例如识别有违约倾向的信用卡客户),我们关注tpr,此时roc曲线是评价模型效果的准绳。
2023-07-17 02:18:023

logistic

1、概念不同:(1)多重线性回归模型可视为简单直线模型的直接推广,具有两个及两个以上自变量的线性模型即为多重线性回归模型。(2)logistic属于概率型非线性回归,是研究二分类(可扩展到多分类)观察结果与一些影响因素之间关系的一种多变量分析方法。2、变量的特点多元回归分析的应变量:1个;数值变量(正态分布);自变量:2个及2个以上;最好是数值变量,也可以是无序分类变量、有序变量。logistic回归的分析应变量:1个;二分 类变量(二项分布)、无序 /有序多分类变量;自变量:2个及2个以上;数值变量、二分类变量、无序/有序多分类变量。总体回归模型LogitP=(样本)偏回归系数含义表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一个自变量变化一个单位时引起因变量Y变化的平均大小。表示在控制其它因素或说扣除其它因素的作用后(其它所有自变量固定不变的情况下),某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值(logitP的平均变化量),即lnOR。3、适用条件LINE:1、L:线性——自变量X与应变量Y之间存在线性关系;2、I:独立性——Y值相互独立,在模型中则要求残差相互独立,不存在自相关;3、N:正态性——随机误差(即残差)e服从均值为零,方差为 2的正态分布;4、E:等方差——对于所有的自变量X,残差e的方差齐。观察对象(case)之间相互独立;若有数值变量,应接近正态分布(不能严重偏离正态分布);二分类变量服从二项分布;要有足够的样本量;LogitP与自变量呈线性关系。
2023-07-17 02:18:162

logistic回归中该怎样选择‘变量选择方法’

 Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。  二值logistic回归:  选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。  细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。  然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。  选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,spss需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。  点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,exp(B)的CI,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选Hosmer-Lemeshow拟合度,这个拟合度表现的会较好一些。  继续,确定。  然后,就会输出结果了。主要会输出六个表。  第一个表是模型系数综合检验表,要看他模型的p值是不是小于0.05,判断我们这个logistic回归方程有没有意义。  第二个表示模型汇总表。这个表里有两个R^2,叫做广义决定系数,也叫伪R^2,作用类似于线性回归里的决定系数,也是表示这个方程能够解释模型的百分之多少。由于计算方法不同,这两个广义决定系数的值往往不一样,但是出入并不会很大。  在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为0或者1时,模型预测正确的百分比,以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好(标准真够低的),当然正确率越高越好。  在然后就是最重要的表了,方程中的变量表。第一行那个B下边是每个变量的系数。第五行的p值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合,那就要从新去掉这个变量做回归。根据这个表就可以写出logistic方程了:P=Exp(常量+a1*变量1+a2*变量2.。。。)/(1+Exp(常量+a1*变量1+a2*变量2.。。。))。如果大家学过一点统计,那就应该对这个形式的方程不陌生。提供变量,它最后算出来会是一个介于0和1的数,也就是你的模型里设定的值比较大的情况发生的概率,比如你想推算会不会治愈,你设0治愈,1为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率,那就需要更改一下设定,用1去代表治愈。  此外倒数后两列有一个EXP(B),也就是OR值,哦,这个可不是或者的意思,OR值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱,在logistic回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响,假设0代表女,1代表男,0代表不好转,1代表好转。发现这个变量的OR值为2.9,那么也就是说男人的好转的可能是女人好转的2.9倍。注意,这里都是以数值较大的那个情况为基准的。而且OR值可以直接给出这个倍数。如果是0,1,2各代表一类情况的时候,那就是2是1的2.9倍,1是0的2.9倍,以此类推。OR值对于方程没什么贡献,但是有助于直观的理解模型。在使用OR值得时候一定要结合它95%的置信区间来进行判断。  此外还有相关矩阵表和概率直方图,就不再介绍了。
2023-07-17 02:18:312

关于logit和logistic模型的区别

 (1)二者的根本区别在于广义化线性模型中的联系函数的形式。logit采用对数形式log(a),logistic形式为log(a/1-a)。  (2)应用上,普通logistic的响应变量是二元的,多元logistic的因变量可为多元。logit的响应变量可以是多元的。  (3)统计软件spss中:logit属于对数线性模型,分析结果主要为因变量和自变量之间的关系,可以细化到各分类因变量与分类自变量之间;logistic属于回归分析,分析结果为估计出自变量参数。regression下有Binary logistic regression和 Multinomial logistic regression 。因变量只取0和1时用的就是Binary logistic regression 。而Multinomial logistic regression 分为多分类无序因变量和多分类有序因变量的logistic回归。即因变量多于两个的。  (4)当因变量是多类的,可以采用logistic,也可以用logit,计算结果并无多少差别。
2023-07-17 02:18:464

logit 和logistic模型的区别

(1)二者的根本区别在于广义化线性模型中的联系函数的形式。logit采用对数形式log(a),logistic形式为log(a/1-a)。  (2)应用上,普通logistic的响应变量是二元的,多元logistic的因变量可为多元。logit的响应变量可以是多元的。  (3)统计软件spss中:logit属于对数线性模型,分析结果主要为因变量和自变量之间的关系,可以细化到各分类因变量与分类自变量之间;logistic属于回归分析,分析结果为估计出自变量参数。regression下有Binarylogisticregression和Multinomiallogisticregression。因变量只取0和1时用的就是Binarylogisticregression。而Multinomiallogisticregression分为多分类无序因变量和多分类有序因变量的logistic回归。即因变量多于两个的。  (4)当因变量是多类的,可以采用logistic,也可以用logit,计算结果并无多少差别。
2023-07-17 02:19:071

Logistic模型的详细介绍

与多重线性回归的比较logistic回归(Logistic regression) 与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。 logistic回归的因变量可以是二分非线性差分方程类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
2023-07-17 02:19:161

logistic回归的应用

logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而logistic回归则不同,它要求的是自变量与logit(y)符合线性关系,所谓logit实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关系:这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作为一种艺术,在分析探索中找到乐趣。样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic回归需要的样本量要多于多重线性回归。最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。
2023-07-17 02:19:541

Logistic模型的介绍

logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
2023-07-17 02:20:011

怎样使用logistic回归模型

logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某块地是否为耕地的概率为P,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出F(P)=G(高程,土壤,人口,GDP)的一个回归函数,即Logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。
2023-07-17 02:20:281

logistic回归中的exp(β)是什么意思啊

logistic回归是一种二元分类的统计学习方法。在这种方法中,预测值是一个概率值,表示属于某一类的概率。其中 exp(β) 是一个指数函数,表示 e 的 β 次方。在 logistic回归模型中,它用来将线性回归模型的结果转换为概率值,帮助我们得到更好的预测结果。
2023-07-17 02:20:362

二元logistic回归

  Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。   二值logistic回归:   选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。   细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。   然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。   选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,spss需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。   点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,exp(B)的CI,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选Hosmer-Lemeshow拟合度,这个拟合度表现的会较好一些。   继续,确定。   然后,就会输出结果了。主要会输出六个表。   第一个表是模型系数综合检验表,要看他模型的p值是不是小于0.05,判断我们这个logistic回归方程有没有意义。   第二个表示模型汇总表。这个表里有两个R^2,叫做广义决定系数,也叫伪R^2,作用类似于线性回归里的决定系数,也是表示这个方程能够解释模型的百分之多少。由于计算方法不同,这两个广义决定系数的值往往不一样,但是出入并不会很大。   在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为0或者1时,模型预测正确的百分比,以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好(标准真够低的),当然正确率越高越好。   在然后就是最重要的表了,方程中的变量表。第一行那个B下边是每个变量的系数。第五行的p值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合,那就要从新去掉这个变量做回归。根据这个表就可以写出logistic方程了:P=Exp(常量+a1*变量1+a2*变量2.。。。)/(1+Exp(常量+a1*变量1+a2*变量2.。。。))。如果大家学过一点统计,那就应该对这个形式的方程不陌生。提供变量,它最后算出来会是一个介于0和1的数,也就是你的模型里设定的值比较大的情况发生的概率,比如你想推算会不会治愈,你设0治愈,1为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率,那就需要更改一下设定,用1去代表治愈。   此外倒数后两列有一个EXP(B),也就是OR值,哦,这个可不是或者的意思,OR值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱,在logistic回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响,假设0代表女,1代表男,0代表不好转,1代表好转。发现这个变量的OR值为2.9,那么也就是说男人的好转的可能是女人好转的2.9倍。注意,这里都是以数值较大的那个情况为基准的。而且OR值可以直接给出这个倍数。如果是0,1,2各代表一类情况的时候,那就是2是1的2.9倍,1是0的2.9倍,以此类推。OR值对于方程没什么贡献,但是有助于直观的理解模型。在使用OR值得时候一定要结合它95%的置信区间来进行判断。
2023-07-17 02:20:501

logistic映射的定义

定义如下: 一维Logistic映射从数学形式上来看是一个非常简单的混沌映射.此系统具有极其复杂的动力学行为,在保密通信领域的应用十分广泛,其数学表达公式如下: Xn+1=Xn×μ×(1-Xn) μ∈[0,4] X∈[0,1] 其中μ∈[0,4]被称为Logistic参数.当X∈[0,1]时,Logistic映射工作处于混沌状态,也就是说,有初始条件X0在Logistic映射作用下产生的序列是非周期的、不收敛的,而在此范围之外,生成的序列必将收敛于某一个特定的值.
2023-07-17 02:20:581

多元Logistic回归是什么意思?

多元Logistic回归,就是自变量在两个以上,因变量的取值范围不受限制的Logistic回归。都是用统计样本来寻找因变量和自变量之间函数关系的一个统计方法。多元Logistic回归属于多元回归中的一种,只是它的数学关系属于非线性的,能更好的反应非线性变量之间的关系。
2023-07-17 02:21:061

logistic回归的主要用途

实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。这是logistic回归最常用的三个用途,实际中的logistic回归用途是极为广泛的,logistic回归几乎已经成了流行病学和医学中最常用的分析方法,因为它与多重线性回归相比有很多的优势,以后会对该方法进行详细的阐述。实际上有很多其他分类方法,只不过Logistic回归是最成功也是应用最广的。
2023-07-17 02:21:161

如何使用MATLAB求解logistic模型的参数

使用MATLAB求解logistic模型参数的步骤,可按下列过程进行:1、要有已知自变量和因变量的一系列数据2、自定义logistic模型函数3、使用nlinfit()函数拟合logistic模型的参数4、根据拟合值与已知值的差值,判断其拟合准确性5、绘制logistic模型曲线图例如:已知x=[21 24 27 30 33 36 39 42 45 48];y=[0 4.5541 11.5836 19.9043 22.7024 25.2441 26.2109 26.5693 26.6396 25.9511]。求logistic模型的参数。求解代码:x=[21 24 27 30 33 36 39 42 45 48];y=[0 4.5541 11.5836 19.9043 22.7024 25.2441 26.2109 26.5693 26.6396 25.9511];fun=inline("a(1)./(1+exp(a(2)-a(3).*x))","a","x");b=[0.95717 0.48538 0.80028];a = nlinfit(x,y,fun,b)plot(x,y,"rp"),hold onxx0=linspace(min(x),max(x),50);yy0=fun(a,xx0);plot(xx0,yy0,"r-"),xlabel("x"),ylabel("y")legend("实验数据","拟合曲线")运行结果
2023-07-17 02:21:291

Logistic VS Logistics

Logistcs is a noun meaning the mangement of materials flow through an anisation. The adjective of logistics is logistical instead of logistic. Therefore it is more appropriate to say Logistics Department/Manager. 2008-03-12 10:38:30 补充: Correction: The first line should read Logistics is a noun....... 参考: Collins Concise Dictionary
2023-07-17 02:21:411

logistic回归可以进行连续变量的分析吗

可以logit回归1.打开数据,依次点击:analyse--regression--binarylogistic,打开二分回归对话框。2.将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量(单变量拉入一个,多因素拉入多个)。3.设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法。4.等级资料,连续资料不需要设置虚拟变量。多分类变量需要设置虚拟变量。5.选项里面至少选择95%CI。点击ok。统计专业研究生工作室原创,请勿复杂粘贴
2023-07-17 02:22:001

excel上怎么做logistic曲线

先用logistic曲线方程生成(横坐标,纵坐标)数值,在Excel里排成两列,然后插入图表,选择图表类型为“XY散点图”,线型可以选择圆滑型。不知道下面的方程是不是你想要的:k为常数,在B10格填入x的初始值,B11=$B$7*B10*(1-B10),下拉填充,然后以n,x区域作散点图。
2023-07-17 02:22:212

Logistic回归分析指标重要程度的主要过程是什么?

Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围:① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析2. Logistic回归的分类:① 按因变量的资料类型分:二分类多分类其中二分较为常用② 按研究方法分:条 件Logistic回归非条件Logistic回归两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。3.Logistic回归的应用条件是:① 独立性。各观测对象间是相互独立的;② LogitP与自变量是线性关系;③ 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;④ 当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。4. 拟和logistic回归方程的步骤:① 对每一个变量进行量化,并进行单因素分析;② 数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。③ 对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;④ 在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。⑤ 在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。⑥ 对专业上认为重要但未选入回归方程的要查明原因。5. 回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)① 决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。② Cp选择法:选择Cp最接近p或p+1的方程(不同学者解释不同)。Cp无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。6. 拟合方程的注意事项:① 进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法(backward)、逐步回归法(stepwise)]时,引入变量的检验水准要小于或等于剔除变量的检验水准;② 小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明自变量选取的标准越严;③ 在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感兴趣的研究变量选入方程;④ 强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。⑤ 多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;⑥ 异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。7. 回归系数符号反常与主要变量选不进方程的原因:① 存在多元共线性;② 有重要影响的因素未包括在内;③ 某些变量个体间的差异很大;④ 样本内突出点上数据误差大;⑤ 变量的变化范围较小;⑥ 样本数太少。8. 参数意义① Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。② Logistic回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。③ 存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。④ 模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。9. 统计软件能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。
2023-07-17 02:23:512

如何理解logistic回归分析优缺点?

logistic回归主要用于危险因素探索。因变量y为二分类或多分类变量,自变量既可以为分类变量,也可以为连续变量。  回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系大多表现为相关关系,因此,回归分析预测法是一种重要的市场预测方法,当我们在对市场现象未来发展状况和水平进行预测时,如果能将影响市场预测对象的主要因素找到,并且能够取得其数量资料,就可以采用回归分析预测法进行预测。它是一种具体的、行之有效的、实用价值很高的常用市场预测方法。
2023-07-17 02:24:001

logistic回归系数如何计算?

这个最近似乎问题很多,用origin可以简单完成。最近回答好几次这个问题了。
2023-07-17 02:24:102

如何用SPSS做logistic回归分析

先做单因素后做多因素回归分析
2023-07-17 02:24:192

如何在SPSS中进行条件Logistic回归分析

Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。   二值logistic回归:   选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。
2023-07-17 02:24:291

多重线性回归和logistic回归有什么区别

1、多重线性回归:用于寻找连续性因变量数值随多个自变量变化而变化的直线趋势;强调因变量为连续变量。如研究肺癌患者某肿瘤标记物的水平(连续变量)是否受年龄、性别、吸烟与否及数量等自变量的影响。2、Logistic回归:用于分析分类变量(或等级变量)和一些影响因素之间的关系,由于因变量非连续变量,与自变量间失去了线性关系的可能性,于是经过Logit变化,将模型转换为线性关系;强调因变量为分类变量或等级变量。如研究肺癌患病与否(二分类变量)是否受年龄、性别、吸烟与否及数量等自变量的影响。以二分类Logistic回归为例。3、Cox回归:用于研究多个因素对结局事件的影响;因变量与二分类Logistic回归相似,唯一的区别在于Cox回归的因变量引入了时间因素。如分析肺癌生存时间(二分类变量,含时间因素)是否受年龄、性别、吸烟与否及数量等自变量的影响。
2023-07-17 02:24:361

多元Logistic回归是什么意思?

多元Logistic回归,就是自变量在两个以上,因变量的取值范围不受限制的Logistic回归。都是用统计样本来寻找因变量和自变量之间函数关系的一个统计方法。多元Logistic回归属于多元回归中的一种,只是它的数学关系属于非线性的,能更好的反应非线性变量之间的关系。
2023-07-17 02:25:341

logistic回归和多元回归有区别么

Logistic回归和多元回归是两个概念.Logistic回归是指因变量(dependentvariable)是离散的,通常为0或1.而自变量(independentvariable)基本没有要求.多元回归是指自变量是多个.对因变量的类型没有要求.所以可以有Logistic一元回归和Logistic多元回归.
2023-07-17 02:25:421

logistic回归分析时为什么虚构变量?

logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而logistic回归则不同,它要求的是自变量与logit(y)符合线性关系,所谓logit实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关系:这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作为一种艺术,在分析探索中找到乐趣。样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic回归需要的样本量要多于多重线性回归。最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。
2023-07-17 02:26:221

logit 和logistic模型的区别

 (1)二者的根本区别在于广义化线性模型中的联系函数的形式。logit采用对数形式log(a),logistic形式为log(a/1-a)。  (2)应用上,普通logistic的响应变量是二元的,多元logistic的因变量可为多元。logit的响应变量可以是多元的。  (3)统计软件spss中:logit属于对数线性模型,分析结果主要为因变量和自变量之间的关系,可以细化到各分类因变量与分类自变量之间;logistic属于回归分析,分析结果为估计出自变量参数。regression下有Binary logistic regression和 Multinomial logistic regression 。因变量只取0和1时用的就是Binary logistic regression 。而Multinomial logistic regression 分为多分类无序因变量和多分类有序因变量的logistic回归。即因变量多于两个的。  (4)当因变量是多类的,可以采用logistic,也可以用logit,计算结果并无多少差别。
2023-07-17 02:26:301

logistic回归

logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某块地是否为耕地的概率为P,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出F(P)=G(高程,土壤,人口,GDP)的一个回归函数,即Logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。请采纳。
2023-07-17 02:26:381

logistic映射是怎么定义的

一维Logistic映射从数学形式上来看是一个非常简单的混沌映射。此系统具有极其复杂的动力学行为,在保密通信领域的应用十分广泛,其数学表达公式如下:Xn+1=Xn×μ×(1-Xn) μ∈[0,4] X∈[0,1]其中μ∈[0,4]被称为Logistic参数。当X∈[0,1]时,Logistic映射工作处于混沌状态,也就是说,有初始条件X0在Logistic映射作用下产生的序列是非周期的、不收敛的,而在此范围之外,生成的序列必将收敛于某一个特定的值。
2023-07-17 02:26:461

单因素logistic回归是什么?

单因素logistic回归是一种广义的线性回归分析模型的影响因素只有1个。logistic回归,又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。单因素就是研究对某个事件或指标的影响因素只有1个。单因素logistic回归的例子特点以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌。值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。
2023-07-17 02:26:551

logistic回归分析步骤是什么?

logistic回归分析是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。扩展资料:Logistic回归模型的适用条件1、因变量为二分类的分类变量或某事件的发生率,并且是数值型变量。但是需要注意,重复计数现象指标不适用于Logistic回归。2、残差和因变量都要服从二项分布。二项分布对应的是分类变量,所以不是正态分布,进而不是用最小二乘法,而是最大似然法来解决方程估计和检验问题。
2023-07-17 02:27:121

如何用spss做logistic回归

  Logistic回归主要分为三类,一种是因变量为二分类得logistic回归,这种回归叫做二项logistic回归,一种是因变量为无序多分类得logistic回归,比如倾向于选择哪种产品,这种回归叫做多项logistic回归。还有一种是因变量为有序多分类的logistic回归,比如病重的程度是高,中,低呀等等,这种回归也叫累积logistic回归,或者序次logistic回归。  二值logistic回归:  选择分析——回归——二元logistic,打开主面板,因变量勾选你的二分类变量,这个没有什么疑问,然后看下边写着一个协变量。有没有很奇怪什么叫做协变量?在二元logistic回归里边可以认为协变量类似于自变量,或者就是自变量。把你的自变量选到协变量的框框里边。  细心的朋友会发现,在指向协变量的那个箭头下边,还有一个小小的按钮,标着a*b,这个按钮的作用是用来选择交互项的。我们知道,有时候两个变量合在一起会产生新的效应,比如年龄和结婚次数综合在一起,会对健康程度有一个新的影响,这时候,我们就认为两者有交互效应。那么我们为了模型的准确,就把这个交互效应也选到模型里去。我们在右边的那个框框里选择变量a,按住ctrl,在选择变量b,那么我们就同时选住这两个变量了,然后点那个a*b的按钮,这样,一个新的名字很长的变量就出现在协变量的框框里了,就是我们的交互作用的变量。  然后在下边有一个方法的下拉菜单。默认的是进入,就是强迫所有选择的变量都进入到模型里边。除去进入法以外,还有三种向前法,三种向后法。一般默认进入就可以了,如果做出来的模型有变量的p值不合格,就用其他方法在做。再下边的选择变量则是用来选择你的个案的。一般也不用管它。  选好主面板以后,单击分类(右上角),打开分类对话框。在这个对话框里边,左边的协变量的框框里边有你选好的自变量,右边写着分类协变量的框框则是空白的。你要把协变量里边的字符型变量和分类变量选到分类协变量里边去(系统会自动生成哑变量来方便分析,什么事哑变量具体参照前文)。这里的字符型变量指的是用值标签标注过得变量,不然光文字,系统也没法给你分析啊。选好以后,分类协变量下边还有一个更改对比的框框,我们知道,对于分类变量,spss需要有一个参照,每个分类都通过和这个参照进行比较来得到结果,更改对比这个框框就是用来选择参照的。默认的对比是指示符,也就是每个分类都和总体进行比较,除了指示符以外还有简单,差值等。这个框框不是很重要,默认就可以了。  点击继续。然后打开保存对话框,勾选概率,组成员,包含协方差矩阵。点击继续,打开选项对话框,勾选分类图,估计值的相关性,迭代历史,exp(B)的CI,在模型中包含常数,输出——在每个步骤中。如果你的协变量有连续型的,或者小样本,那还要勾选Hosmer-Lemeshow拟合度,这个拟合度表现的会较好一些。  继续,确定。  然后,就会输出结果了。主要会输出六个表。  第一个表是模型系数综合检验表,要看他模型的p值是不是小于0.05,判断我们这个logistic回归方程有没有意义。  第二个表示模型汇总表。这个表里有两个R^2,叫做广义决定系数,也叫伪R^2,作用类似于线性回归里的决定系数,也是表示这个方程能够解释模型的百分之多少。由于计算方法不同,这两个广义决定系数的值往往不一样,但是出入并不会很大。  在下边的分类表则表述了模型的稳定性。这个表最后一行百分比校正下边的三个数据列出来在实际值为0或者1时,模型预测正确的百分比,以及模型总的预测正确率。一般认为预测正确概率达到百分之五十就是良好(标准真够低的),当然正确率越高越好。  在然后就是最重要的表了,方程中的变量表。第一行那个B下边是每个变量的系数。第五行的p值会告诉你每个变量是否适合留在方程里。如果有某个变量不适合,那就要从新去掉这个变量做回归。根据这个表就可以写出logistic方程了:P=Exp(常量+a1*变量1+a2*变量2.。。。)/(1+Exp(常量+a1*变量1+a2*变量2.。。。))。如果大家学过一点统计,那就应该对这个形式的方程不陌生。提供变量,它最后算出来会是一个介于0和1的数,也就是你的模型里设定的值比较大的情况发生的概率,比如你想推算会不会治愈,你设0治愈,1为没有治愈。那你的模型算出来就是没有治愈的概率。如果你想直接计算治愈的概率,那就需要更改一下设定,用1去代表治愈。  此外倒数后两列有一个EXP(B),也就是OR值,哦,这个可不是或者的意思,OR值是优势比。在线性回归里边我们用标准化系数来对比两个自变量对于因变量的影响力的强弱,在logistic回归里边我们用优势比来比较不同的情况对于因变量的影响。举个例子。比如我想看性别对于某种病是否好转的影响,假设0代表女,1代表男,0代表不好转,1代表好转。发现这个变量的OR值为2.9,那么也就是说男人的好转的可能是女人好转的2.9倍。注意,这里都是以数值较大的那个情况为基准的。而且OR值可以直接给出这个倍数。如果是0,1,2各代表一类情况的时候,那就是2是1的2.9倍,1是0的2.9倍,以此类推。OR值对于方程没什么贡献,但是有助于直观的理解模型。在使用OR值得时候一定要结合它95%的置信区间来进行判断。  此外还有相关矩阵表和概率直方图,就不再介绍了。  多项logistic回归:  选择分析——回归——多项logistic,打开主面板,因变量大家都知道选什么,因变量下边有一个参考类别,默认的第一类别就可以。再然后出现了两个框框,因子和协变量。很明显,这两个框框都是要你选因变量的,那么到底有什么区别呢?嘿嘿,区别就在于,因子里边放的是无序的分类变量,比如性别,职业什么的,以及连续变量(实际上做logistic回归时大部分自变量都是分类变量,连续变量是比较少的。),而协变量里边放的是等级资料,比如病情的严重程度啊,年龄啊(以十年为一个年龄段撒,一年一个的话就看成连续变量吧还是)之类的。在二项logistic回归里边,系统会自动生成哑变量,可是在多项logistic回归里边,就要自己手动设置了。参照上边的解释,不难知道设置好的哑变量要放到因子那个框框里去。  然后点开模型那个对话框,哇,好恐怖的一个对话框,都不知道是干嘛的。好,我们一点点来看。上边我们已经说过交互作用是干嘛的了,那么不难理解,主效应就是变量本身对模型的影响。明确了这一点以后,这个对话框就没有那么难选了。指定模型那一栏有三个模型,主效应指的是只做自变量和因变量的方程,就是最普通的那种。全因子指的是包含了所有主效应和所有因子和因子的交互效应的模型(我也不明白为什么只有全因子,没有全协变量。这个问题真的很难,所以别追问我啦。)第三个是设定/步进式。这个是自己手动设置交互项和主效应项的,而且还可以设置这个项是强制输入的还是逐步进入的。这个概念就不用再啰嗦了吧啊?  点击继续,打开统计量对话框,勾选个案处理摘要,伪R方,步骤摘要,模型拟合度信息,单元格可能性,分类表,拟合度,估计,似然比检验,继续。打开条件,全勾,继续,打开选项,勾选为分级强制条目和移除项目。打开保存,勾选包含协方差矩阵。确定(总算选完了)。  结果和二项logistic回归差不多,就是多了一个似然比检验,p值小于0.05认为变量有意义。然后我们直接看参数估计表。假设我们的因变量有n个类,那参数估计表会给出n-1组的截距,变量1,变量2。我们我们用Zm代表Exp(常量m+am1*变量1+am2*变量2+。。。),那么就有第m类情况发生的概率为Zn/1+Z2+Z3+……+Zn(如果我们以第一类为参考类别的话,我们就不会有关于第一类的参数,那么第一类就是默认的1,也就是说Z1为1)。    有序回归(累积logistic回归):  选择菜单分析——回归——有序,打开主面板。因变量,因子,协变量如何选取就不在重复了。选项对话框默认。打开输出对话框,勾选拟合度统计,摘要统计,参数估计,平行线检验,估计响应概率,实际类别概率,确定,位置对话框和上文的模型对话框类似,也不重复了。确定。  结果里边特有的一个表是平行线检验表。这个表的p值小于0.05则认为斜率系数对于不同的类别是不一样的。此外参数估计表得出的参数也有所不同。假设我们的因变量有四个水平,自变量有两个,那么参数估计表会给出三个阈值a1,a2,a3(也就是截距),两个自变量的参数m,n。计算方程时,首先算三个Link值,Link1=a1+m*x1+n*x2,Link2=a2+m*x1+n*x2,Link3=a3+m*x1+n*x2,(仅有截距不同)有了link值以后,p1=1/(1+exp(link1)),p1+p2=1/(1+exp(link2)),p1+p2+p3=1/(1+exp(link3)),p1+p2+p3+p4=1..  通过上边的这几个方程就能计算出各自的概率了。    Logistic回归到这里基本就已经结束了。大家一定要记熟公式,弄混可就糟糕了。希望能对你有所帮助呦。
2023-07-17 02:27:281

什么是logistic回归模型?

logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而logistic回归则不同,它要求的是自变量与logit(y)符合线性关系,所谓logit实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关系:这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作为一种艺术,在分析探索中找到乐趣。样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic回归需要的样本量要多于多重线性回归。最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。
2023-07-17 02:27:361

logistic模型

logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和Logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和GDP总量,把上述四种因素作为自变量,某块地是否为耕地的概率为P,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出F(P)=G(高程,土壤,人口,GDP)的一个回归函数,即Logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。满意请采纳。
2023-07-17 02:27:451

怎么看logistic回归的结果

logistic回归与多重线性回归一样,在应用之前也是需要分析一下资料是否可以采用logistic回归模型。并不是说因变量是分类变量我就可以直接采用logistic回归,有些条件仍然是需要考虑的。首要的条件应该是需要看一下自变量与因变量之间是什么样的一种关系。多重线性回归中,要求自变量与因变量符合线性关系。而logistic回归则不同,它要求的是自变量与logit(y)符合线性关系,所谓logit实际上就是ln(P/1-P)。也就是说,自变量应与ln(P/1-P)呈线性关系。当然,这种情形主要针对多分类变量和连续变量。对于二分类变量就无所谓了,因为两点永远是一条直线。这里举一个例子。某因素y与自变量x之间关系分析,y为二分类变量,x为四分类变量。如果x的四分类直接表示为1,2,3,4。则分析结果为p=0.07,显示对y的影响在0.05水准时无统计学意义,而如果将x作为虚拟变量,以1为参照,产生x2,x3,x4三个变量,重新分析,则结果显示:x2,x3,x4的p值分别为0.08,0.05和0.03。也就是说,尽管2和1相比无统计学意义,但3和1相比,4和1相比,均有统计学意义。为什么会产生如此结果?实际上如果仔细分析一下,就可以发现,因为x与logit(y)并不是呈线性关系。而是呈如下图的关系:这就是导致上述差异的原因。从图中来看,x的4与1相差最大,其次是2,3与1相差最小。实际分析结果也是如此,上述分析中,x2,x3,x4产生的危险度分别为3.1,2.9,3.4。因此,一开始x以1,2,3,4的形式直接与y进行分析,默认的是认为它们与logit(p)呈直线关系,而实际上并非如此,因此掩盖了部分信息,从而导致应有的差异没有被检验出来。而一旦转换为虚拟变量的形式,由于虚拟变量都是二分类的,我们不再需要考虑其与logit(p)的关系,因而显示出了更为精确的结果。最后强调一下,如果你对自变量x与y的关系不清楚,在样本含量允许的条件下,最好转换为虚拟变量的形式,这样不至于出现太大的误差。如果你不清楚应该如何探索他们的关系,也可以采用虚拟变量的形式,比如上述x,如果转换的虚拟变量x2,x3,x4他们的OR值呈直线关系,那x基本上可以直接以1,2,3,4的形式直接与y进行分析。而我们刚才也看到了,x2,x3,x4的危险度分别为3.1,2.9,3.4。并不呈直线关系,所以还是考虑以虚拟变量形式进行分析最好。总之,虚拟变量在logistic回归分析中是非常有利的工具,善于利用可以帮助你探索出很多有用的信息。统计的分析策略是一个探索的过程,只要留心,你就会发现在探索数据关系的过程中充满了乐趣,因为你能发现别人所发现不了的隐藏的信息。希望大家多学点统计分析策略,把统计作为一种艺术,在分析探索中找到乐趣。样本量的估计可能是临床最头疼的一件事了,其实很多的临床研究事前是从来不考虑样本量的,至少我接触的临床研究大都如此。他们大都是想到就开始做,但是事后他们会寻求研究中样本量的依据,尤其是在投文章被审稿人提问之后。可能很少有人想到研究之前还要考虑一下样本够不够的问题。其实这也难怪,临床有临床的特点,很多情况下是很难符合统计学要求的,尤其一些动物试验,可能真的做不了很多。这种情况下确实是很为难的。本篇文章仅是从统计学角度说明logistic回归所需的样本量的大致估计,不涉及临床特殊问题。其实不仅logistic回归,所有的研究一般都需要对样本量事前有一个估计,这样做的目的是为了尽可能地得出阳性结果。比如,你事前没有估计,假设你做了20例,发现是阴性结果。如果事前估计的话,可能会提示你需要30例或25例可能会得出阳性结果,那这时候你会不会后悔没有事前估计?当然,你可以补实验,但是不管从哪方面角度来讲,补做的实验跟一开始做得实验可能各种条件已经变化,如果你在杂志中说你的实验是补做的,那估计发表的可能性就不大了。一般来说,简单的研究,比如组间比较,包括两组和多组比较,都有比较成熟的公式计算一下你到底需要多少例数。这些在多数的统计学教材和流行病学教材中都有提及。而对于较为复杂的研究,比如多重线性回归、logistic回归之类的,涉及多个因素。这种方法理论上也是有计算公式的,但是目前来讲,似乎尚无大家公认有效的公式,而且这些公式大都计算繁琐,因此,现实中很少有人对logistic回归等这样的分析方法采用计算的方法来估计样本量。而更多地是采用经验法。其实关于logistic回归的样本量在部分著作中也有提及,一般来讲,比较有把握的说法是:每个结局至少需要10例样品。这里说得是每个结局。例如,观察胃癌的危险因素,那就是说,胃癌是结局,不是你的总的例数,而是胃癌的例数就需要这么多,那总的例数当然更多。比如我有7个研究因素,那我就至少需要70例,如果你是1:1的研究,那总共就需要140例。如果1:2甚至更高的,那就需要的更多了。而且,样本量的大小也不能光看这一个,如果你的研究因素中出现多重共线性等问题,那可能需要更多的样本,如果你的因变量不是二分类,而是多分类,可能也需要更大的样本来保证你的结果的可靠性。理论上来讲,logistic回归采用的是最大似然估计,这种估计方法有很多优点,然而,一个主要的缺点就是,必须有足够的样本才能保证它的优点,或者说,它的优点都是建立在大样本的基础上的。一般来讲,logistic回归需要的样本量要多于多重线性回归。最后仍然需要说一句,目前确实没有很好的、很权威的关于logistic回归样本量的估计方法,更多的都是根据自己的经验以及分析过程中的细节发现。如果你没有太大的把握,就去请教统计老师吧,至少他能给你提出一些建议。
2023-07-17 02:28:051

logistic回归和多元回归有区别么

Logistic回归和多元回归是两个概念.Logistic回归是指因变量(dependent variable)是离散的,通常为0或1.而自变量(independent variable)基本没有要求.多元回归是指自变量是多个.对因变量的类型没有要求.所以可以有Logistic一元回归和Logistic多元回归.
2023-07-17 02:28:301

logit模型和logistic模型是不是一样的

  (1)二者的根本区别在于广义化线性模型中的联系函数的形式。logit采用对数形式log(a),logistic形式为log(a/1-a)。   (2)应用上,普通logistic的响应变量是二元的,多元logistic的因变量可为多元。logit的响应变量可以是多元的。   (3)统计软件spss中:logit属于对数线性模型,分析结果主要为因变量和自变量之间的关系,可以细化到各分类因变量与分类自变量之间;logistic属于回归分析,分析结果为估计出自变量参数。regression下有Binary logistic regression和 Multinomial logistic regression 。因变量只取0和1时用的就是Binary logistic regression 。而Multinomial logistic regression 分为多分类无序因变量和多分类有序因变量的logistic回归。即因变量多于两个的。   (4)当因变量是多类的,可以采用logistic,也可以用logit,计算结果并无多少差别。
2023-07-17 02:28:392

logistic回归如何调整混杂因素

二元logit回归1.打开数据,依次点击:analyse--regression--binarylogistic,打开二分回归对话框。2.将因变量和自变量放入格子的列表里,上面的是因变量,下面的是自变量(单变量拉入一个,多因素拉入多个)。3.设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法。4.等级资料,连续资料不需要设置虚拟变量。多分类变量需要设置虚拟变量。虚拟变量ABCD四类,以a为参考,那么解释就是b相对于a有无影响,c相对于a有无影响,d相对于a有无影响。5.选项里面至少选择95%CI。点击ok。
2023-07-17 02:28:471

logistic模型是什么意思

Logistic模型(虫口模型)logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。
2023-07-17 02:28:571

如何建立logistic回归模型

logistic回归模型,主要是用来对多因素影响的事件进行概率预测,它是普通多元线性回归模型的进一步扩展,logistic模型是非线性模型。比如说我们曾经做过的土地利用评价,就分别用多元线性回归模型和logistic模型进行试验。影响耕地的因素假设有高程、土壤类型、当地人口数量和gdp总量,把上述四种因素作为自变量,某块地是否为耕地的概率为p,即应变量。然后根据已经有的样本数据,求出logistic模型的系数,一般用最大似然法结合牛顿—拉斐逊法解系数,求出f(p)=g(高程,土壤,人口,gdp)的一个回归函数,即logistic模型,然后把全地区的数据代入上式,求出每个地方是否为耕地的概率,用来对土地利用的评价提供科学的依据。希望我的答案能让你满意,我以前就是做这方面研究的。
2023-07-17 02:29:051

如何理解logistic回归分析优缺点

logistic回归主要用于危险因素探索。因变量y为二分类或多分类变量,自变量既可以为分类变量,也可以为连续变量。  回归分析预测法,是在分析市场现象自变量和因变量之间相关关系的基础上,建立变量之间的回归方程,并将回归方程作为预测模型,根据自变量在预测期的数量变化来预测因变量关系大多表现为相关关系,因此,回归分析预测法是一种重要的市场预测方法,当我们在对市场现象未来发展状况和水平进行预测时,如果能将影响市场预测对象的主要因素找到,并且能够取得其数量资料,就可以采用回归分析预测法进行预测。它是一种具体的、行之有效的、实用价值很高的常用市场预测方法。
2023-07-17 02:29:151

如何用spss做logistic回归分析

打开数据以后,菜单栏上依次点击:analyse--regression--binary logistic,打开二分回归对话框2将因变量和自变量放入格子的列表里,如图所示,上面的是因变量,下面的是自变量,我们看到这里有三个自变量设置回归方法,这里选择最简单的方法:enter,它指的是将所有的变量一次纳入到方程。其他方法都是逐步进入的方法,在前面的文章中有介绍,这里就不再熬述。点击ok,开始处理数据并检验回归方程,等待一会就会弹出数据结果窗口看到的第一个结果是对case的描述,第一个列表告诉你有多少数据参与的计算,有多少数据是缺省值;第二个列表告诉你因变量的编码方式,得分为1代表患病,得分为0代表没有患病这个列表告诉你在没有任何自变量进入以前,预测所有的case都是患病的正确率,正确率为%52.6下面这个列表告诉你在没有任何自变量进入以前,常数项的预测情况。B是没有引入自变量时常数项的估计值,SE它的标准误,Wald是对总体回归系数是否为0进行统计学检验的卡方。下面这个表格结果,通过sig值可以知道如果将模型外的各个变量纳入模型,则整个模型的拟合优度改变是否有统计学意义。 sig值小于0.05说明有统计学意义这个表格是对模型的全局检验,为似然比检验,供给出三个结果:同样sig值<0.05表明有统计学意义。下面的结果展示了-2log似然值和两个伪决定系数。两个伪决定系数反应的是自变量解释了因变量的变异占因变量的总变异的比例。他们俩的值不同因为使用的方法不同。分类表,这里展示了使用该回归方程对case进行分类,其准确度为%71.8。最后是输出回归方程中的各变量的系数和对系数的检验额值,sig值表明该系数是否具有统计学意义。到此,回归方程就求出来了。
2023-07-17 02:29:241

逻辑回归有哪些模型

有如下模型:1、二项logistic回归:因变量为两种结局的二分类变量,如中奖=1、未中奖=0;自变量可以为分类变量,也可以为连续变量;阳性样本量n要求是自变量个数至少10倍。2、无序多分类logistic回归:因变量为无序的多分类变量,如获取健康知识途径(传统大众媒介=1,网络=2,社区宣传=3);自变量可以为分类变量,也可以为连续变量;也可用于因变量为有序多分类变量,但不满足平行检验条件的数据资料。原理:用因变量的各个水平(除参照水平外)与参照水平比值的自然对数来建立模型方程。3、有序多分类logistic回归:因变量为有序的多分类变量,如病情严重程度(轻度=1,中度=2,重度=3);自变量可以为分类变量,也可以为连续变量。原理:将因变量的多个分类依次分割为多个二元的Logistic回归;须进行平行线检验,即检验自变量系数是否相等,如不满足,则使用无需多分类logistic回归。
2023-07-17 02:29:311