警惕危险因素分析中的3个关键问题

时间:2021-09-29 01:17 作者:lol下注
本文摘要:内容来自:“小白学统计”微信民众号谢谢作者授权。 关于这一问题在前面的文章中(“先做单因素有意义的做多因素”这种思路对吗?)已有专门提到大家可以再回去温习一下。 不外其时那篇文章用的是一个一连变量举例可能有的人看的不够直观。现在这个例子是分类变量看起来可能更直观一些。 危险因素筛选或探索是医学研究中的一大类目的许多临床医生都市通过已有的数据确定一个医学了局然后分析这一了局跟哪些因素有关或者说哪些因素可能是该了局发生的独立影响因子。

lol下注

内容来自:“小白学统计”微信民众号谢谢作者授权。

关于这一问题在前面的文章中(“先做单因素有意义的做多因素”这种思路对吗?)已有专门提到大家可以再回去温习一下。

不外其时那篇文章用的是一个一连变量举例可能有的人看的不够直观。现在这个例子是分类变量看起来可能更直观一些。

危险因素筛选或探索是医学研究中的一大类目的许多临床医生都市通过已有的数据确定一个医学了局然后分析这一了局跟哪些因素有关或者说哪些因素可能是该了局发生的独立影响因子。

本文凭据作者多年的分析履历说一下危险因素探索分析中的3个关键问题希望以此提醒列位朋侪在数据分析时不要一味依赖软件。

软件主要是帮你盘算思路是无法替代的。

没有一个明确的分析思路只能导致garbage in garbage out 这种悲凉了局。关键的问题是许多人纵然获得了garbage的效果却懵然不知还以为发现了真理。这才是最大的悲伤。

所以本文特地先容几个在危险因素探索历程中比力关键的3个问题希望对列位有所资助。

一、线性问题

不管是线性回送还是logistic回归或Poisson回归他们都属于广义线性模型本质上都是“线性模型”因此一定要确认自变量与因变量(logistic回归中为logit P)之间是否线性关系如果不是需要思量举行相应的变换否则可能会发生错误效果。

例1:某研究分析暮年人高血压(二分类变量是或否)的危险因素研究因素包罗gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM 共6个指标。

其中gender为二分类变量其余变量均为一连变量。如果把这6个自变量直接纳入统计软件分析所得效果如表1所示。

危险因素的探索分析历程说简朴就简朴说庞大也很庞大。说简朴是因为许多人习惯把数据往软件里一扔因变量放到因变量的地方自变量拖到自变量的地方运行出效果竣事。

说庞大是因为往往上述的这种分析方式其实许多都有问题因为统计分析最关键的不是软件而是使用软件的人。

这提醒我们不仅仅是线性回归需要看自变量与因变量的线性logistic回归也需要思量虽然logistic回归中不像线性回归可以用散点图那么直观然而logit p与自变量的关系仍需要思量是否线性。如果不是你的效果恐怕就有问题。

二、共线性问题

共线性简朴来说就是自变量之间存在高度相关从而导致效果不行靠。

共线性是大多数回归模型都需要思量的一个问题一旦发现该问题需要接纳差别措施来解决。常见的解决方案包罗删除某一自变量、主身分分析、Lasso回归等。

例2:某研究分析乳腺增生的危险因素自变量同时包罗妊娠次数(三分类变量用1、2、3表现相应次数)和流产次数(三分类变量用0、1、2表现相应次数)。

在单因素分析中妊娠次数有统计学意义(2 vs. 1P=0.0258;3 vs. 1P=0.0354)然而多因素分析中变得无统计学意义(P值划分为0.6351、0.5942)。

分析原因发现主要是由于妊娠次数和流产次数有较强的共线性二者相关系数高达0.55从而导致妊娠次数变得无统计学意义。

解决方案接纳了删除法删除妊娠次数变量保留了流产次数变量。

多数软件都可以实现线性回归的共线性诊断logistic回归则纷歧定有相应选项。实际上无所谓因为共线性只是针对自变量的因此纵然logistic回归分析仍可以用线性回归的共线性诊断工具判断自变量之间是否存在共线性


本文关键词:警惕,lol下注手机版,危险,因素,分析,中的,3个,关键,问题

本文来源:lol下注-www.yzhongxing.com