在许许多多的医疗器械临床试验中,我们设计方案、入组受试者、采集研究数据,整个过程漫长而艰辛,所有的努力都是为了最后那个简单的P值或者置信区间上。那么P值和置信区间代表什么意思呢?为什么我们要做计算P值或置信区间来做统计推断呢?
首先我们要弄清楚两个概念,置信度和置信区间 :
置信度:以测量值为中心,在一定范围内,真值出现在该范围内的几率。一般设定在2σ,也就是95%,95%是通常情况下置信度(置信水平)的设定值。
置信区间:在某一置信度下,以测量值为中心,真值出现的范围。 我们在论文里经常看到CI,CI是置信区间,一定概率下真值得取值范围(可靠范围)称为置信区间。其概率称为置信概率或置信度(置信水平)
在讲P值和置信区间之前,我们先讲讲样本与总体。
在《医学统计学》中,根据研究目的而确定的同质观察单位的全体成为总体。观察单位,又称个体,是统计研究中的基本单位,他可以是一个人、一个器官、一个细胞。
比如调查某公司某一天来上班的所有员工的体重,那么一个员工就是一个观察单位,所有员工就是一个总体。同一家公司、同一天形成了同质的基础。在这个例子中的总体是一个“有限总体”,他规定了时间、范围里有限个观察单位。
但是在临床试验中,大多数情况下我们的总体是“无限总体”,是没有办法观察到所有观察单位的。比如研究某透析器对慢性肾衰竭患者的肌酐清除率,这里同质的基础是慢性肾衰竭的患者,但是患者的总数在理论上是存在的,但是真正是多少我们无法得知。在这种情况下,我们只能抽取其中的部分患者进行研究。这部分随机抽取的患者称为样本,我们通过样本信息推断总体特征。
当检验水准为双侧0.05时,大多数情况下P<0.05是我们希望看到的结果。但是P值本身的含义是什么呢?
以两组间的差异性检验为例,P值指的是,如果试验组疗效和对照组疗效相同(来自一个总体),那么得到现有这么大的差别或更大差别的可能性。
打个比方,研究某微波消融设备A与另外一种微波消融设备B在治疗肝脏肿瘤的疗效,受试者随机分组至A组或B组,分别采用设备A和设备B进行治疗,两组各100人。
表1 两种微波消融设备首次消融成功率的比较
A组首次消融成功率为96%,B组首次消融成功率为88%,采用Pearson χ2 计算P值为0.0371。结合P值的定义,说明如果A组和B组的首次消融成功率是一样的,那么得到96%-88%=8%这样的差别或大于8%的差别的概率为0.0371。0.0371<0.05,说明不太可能得到现有这么大或者更大差别的结果了,这种差别不是样本抽样偶然性导致的,可能是两组总体不同导致的,所以可以推断A组和B组的总体首次消融成功率不同。
置信区间是推断两组差别所在的范围,如果置信区间包含0,则可以认为两组间差异无统计学意义,否则差异有统计学意义。接上述例子,两组样本的率差为8%,其双侧95%置信区间为(0.31%,16.18%),那么两个总体的率差会在这个范围内。这个置信区间不包含0,所以可以认为A组和B组的总体首次消融成功率不同。
需要注意的是置信区间意味着95%的情况下可以估计到总体率差,还有5%的情况可能估计不到。比如我们在总体中随机抽取100份样本,每份样本中有2组,每组100人分别使用设备A和设备B,并计算置信区间。那么有95份样本的置信区间包含总体率差,有5份样本未包含总体率差。而不是指“该区间有95%的可能包含总体率差,有5%的可能不包含”。
统计推断是样本信息推断总体特征的方法,P值和置信区间是统计推断直观的表现形式。
在抽取的样本中,A组首次消融成功率为96%,B组首次消融成功率为88%,如果只从样本的结果来看确实是A设备比B设备要好。但是我们不知道这个8%的优势,是由抽样的偶然性造成的呢,还是两组的总体确实不同。我们的研究不仅仅是研究这个样本,尤其是药品或医疗器械的临床试验,我们是要通过样本计算P值和置信区间,从而推断出在总体的人群当中A设备的疗效比B设备要好。这就是计算P值和置信区间的意义。