在血液肿瘤治疗领域,我们经常会用到真实世界数据来比较疗效。真实世界数据来自临床实践,具有很高的外部代表性,可以有效填补随机对照试验在现实应用中的一些空白。然而,真实世界数据不可避免地存在混杂因素。因此,如何选择合适的统计方法来校正这些混杂因素,从而让真实世界研究结果更能体现出治疗措施的真正效果,是临床研究者分析这类数据时面临的一个重大挑战。
如何正确使用Cox回归模型
比例风险假定(PH假定)只有满足该假定前提下,基于Cox模型的分析结果才是可靠有效的。只需展示各个自变量分组原始Kaplan-Meier生存曲线,若生存曲线交叉明显,提示不满足PH假定中风险人群两治疗组的曲线没有明显交叉,因此适合使用Cox模型进行分析(图1);而高风险人群两治疗组的生存曲线有着明显的交叉,这种情况提示了违反PH假设,Cox模型结论不可靠(图2)。
图1
图2
除了PH假定以外,使用多因素Cox回归分析还有一些其他的注意事项。
其他控制混杂因素的方法:分层与匹配
那我们还有没有其他方法可以在真实世界研究中控制混杂因素呢?一种应对方法是,我们可以尝试使用亚组分析(分层分析)来处理混杂因素,即根据该混杂因素的不同类别将研究样本分成多个子组,然后在各个子组中独立比较治疗效果。这种方法简单直观,但有一个明显的缺点,那就是无法有效处理存在多个混杂因素的情况。当混杂因素较多时,可能需要划分出非常多的子组,这将导致每个子组的样本数量过小,无法进行有效的比较[4]。
还有一种应对方法是对各治疗组的患者进行匹配。传统的匹配可以针对少量的混杂因素进行1:1或者1:n的配对。在面对真实世界数据存在较多混杂因素时,倾向性评分匹配是一种有效的校正方法。这种方法基于多个混杂因素来为每个患者计算一个倾向性评分。这个评分反映了在给定混杂因素的情况下,患者接受某种治疗的概率。然后,我们可以根据相同或相近的倾向性评分来对各治疗组的患者进行匹配,以达到控制已知混杂因素的效果,再使用log-rank检验或Cox模型比较疗效[5]。倾向性评分匹配的优点在于,它既可以同时控制多个混杂因素,也可以让研究者使用不需要满足PH假定的分析方法,例如log-rank检验。对倾向性评分匹配未能完全控制的混杂因素,还可以使用Cox模型进一步校正。不过,倾向性评分匹配也对各治疗组的样本量、研究者的软件操作等有着更高的要求。
真实世界研究的分析思路:多种统计方法结合运用
特别是当混杂因素较多时,只靠单一的统计方法校正混杂因素可能并不充分。值得注意的是,原先在中风险人群中Cox分析显示两治疗组GRFS上存在显著差异
P<0.05
但经过倾向性评分匹配后,Cox分析显示两组GRFS的差异未能达到统计学显著性
P=0.11
表1 中风险人群倾向性评分匹配前后生存分析结果
真实世界数据的解读重点
在解读真实世界研究时,除了关注如p值、HR等统计结果之外,我们也应该关注研究者对潜在偏倚的控制情况。例如,研究者是否充分考虑了可能存在的混杂因素,研究者是否对于需要校正哪些混杂因素进行了事先判断,研究者是否对所选统计方法的前置假定进行过评估,研究者是否使用了多种统计学方法互相验证等。倾向性评分校正后的单因素和多因素分析显示研究者尽量控制了混杂因素,结果当然更可靠。患者的身体状况(例如年龄、合并症等)可能影响药物的耐受性,而不良反应导致的剂量调整和停药会影响患者预后。在多发性骨髓瘤等发病年龄较大的疾病中,需要考虑患者因素对疗效评估的潜在影响,因此在真实世界研究中只关注某一单组的疗效以及安全性评估数据可能会得出误导性的结论,而经过校正混杂因素后的数据分析会更有意义。此外,回顾性研究中患者随访不规律,导致疾病进展评估不及时,而PFS的数据相对容易受到随访时间的影响。
最后,真实世界研究场景复杂,例如临床实践中诱导治疗和维持治疗是一个整体治疗方案,医生在选择诱导治疗方案时已考虑到维持治疗方案的选择,这与临床试验是不同的。治疗方案选择还会受到医患偏好的影响,而医患偏好是药物疗效、安全性、便利性、可及性、医保、后续治疗选择等多种考虑因素的综合。对于这种场景,研究者可以合理使用多种统计方法进行分析。当中位生存期、log-rank检验、符合PH假定的多因素cox回归分析、倾向性评分匹配都得出一致的结论,那么读者有更大的信心认为这个结果是可靠的。相反,如果不同的方法得出的结果存在较大差异,那么研究者就需要进一步研究这些差异的原因,并可能需要重新评估阳性结果的可靠程度。而读者在解读真实世界研究结果时,除了关注统计数字以外,也需要评估研究中是否充分控制了混杂偏倚,从而判断证据的可信程度。
参考文献:
[1]KLEINBAUM D G, KLEIN M. Survival Analysis : a Self-Learning Text, Third Edition [M]. Springer Science+Business Media, LLC, 2012.
[2]方积乾. 卫生统计学(第7版) [M]. 人民卫生出版社, 2013.
[3]SALVATORE D, LABOPIN M, RUGGERI A, et al. Outcomes of hematopoietic stem cell transplantation from unmanipulated haploidentical versus matched sibling donor in patients with acute myeloid leukemia in first complete remission with intermediate or high-risk cytogenetics: a study from the Acute Leukemia Working Party of the European Society for Blood and Marrow Transplantation [J]. Haematologica, 2018, 103(8): 1317-28.
[4]JAGER K J, ZOCCALI C, MACLEOD A, et al. Confounding: what it is and how to deal with it [J]. Kidney Int, 2008, 73(3): 256-60.
[5]AUSTIN P C. The use of propensity score methods with survival or time-to-event outcomes: reporting measures of effect similar to those used in randomized experiments [J]. Stat Med, 2014, 33(7): 1242-58.
[6]MANGIACAVALLI S, CARTIA C S, GALLI M, et al. Lenalidomide-based triplet regimens in first relapsed multiple myeloma patients: real-world evidence from a propensity score matched analysis [J]. Haematologica, 2023, 108(3): 833-42.