您当前的位置:检测资讯 > 科研开发
嘉峪检测网 2024-06-16 11:33
摘 要
病原宏基因组高通量测序(mNGS)技术已成为感染病原学诊断的新工具,由实验操作(湿实验)和生物信息学分析(干实验)两部分组成。干实验由算法和数据库构成,其功能是对湿实验产生的测序数据进行分析处理后输出检测结果。干实验的性能受到测序数据中复杂多变的干扰因素的影响,包括临床样本中大量的人源核酸、试剂与耗材携带的微生物核酸、采样与湿实验引入的环境微生物核酸、数据库中基因组质量不均一或不同物种基因组之间的相似性过高导致的错误比对与注释,以及算法与参数差异对分类鉴定的影响等。上述干扰因素可能来自mNGS 检测各个环节,不仅可能导致干实验输出错误的物种鉴定和微生物检测结果,也给干实验的质量控制与评价带来较大挑战。本文综述了mNGS 干实验质量控制的关键问题以及关于质量评价方法的思考。
关键词
病原宏基因组高通量测序;生物信息学分析;质量评价;数字参考品
metagenomic next-generation sequencing; bioinformatics analyses; quality evaluation; digital reference panel
感染性疾病对人类健康构成重大威胁, 其病原体呈现多样化和复杂化的发展趋势。近年来, 病原宏基因组高通量测序(metagenomic next-generation sequencing ,mNGS)技术迅速发展和普及,通过对待测样本总核酸进行测序分析,理论上能“无偏倚”地检出样本中全部潜在病原体,包括病毒、细菌、真菌和寄生虫[1]。mNGS 技术因其无需培养、不依赖于已知核酸序列、无需特殊核酸探针,以及能够快速获得病原体核酸序列信息等优势,打破了传统微生物检验的局限。
2014 年, 美国学者应用mNGS 技术诊断了一例常规病原检测方法未能确诊的神经系统钩端螺旋体感染病例[2],首次证明mNGS 技术在临床疑难微生物鉴定领域的应用前景。随着mNGS技术社会经济成本不断降低和技术发展的不断成熟,已逐渐从科研走向临床[3-4],成为疑难感染和未知病原微生物检验的重要手段。然而,mNGS 相较传统分子检测方法更为复杂,包括实验操作(湿实验)和生物信息学分析(干实验)两部分。因此,对mNGS 检测流程进行质量控制与评价是一项跨学科的系统工程。目前,已有多个研究和综述详述mNGS 湿实验的各个质量控制关键因素[5-7],但对于干实验的影响因素、质量控制环节及评价方法等,仍缺少系统且详尽的参考信息。
本文从mNGS 干实验质量控制的角度综述了该技术的研究现状,以及关于其性能验证和质量评价方法的思考。
1、 mNGS 干实验流程
mNGS 检测分为湿实验和干实验两部分(图1)。湿实验包括样品前处理(如液化、离心/ 去宿主、破壁等)、核酸提取与前处理(如DNA 和RNA 提取、反转录等)、文库制备和上机测序环节。对测序产生的测序数据进行分析和报告,即为干实验,包括但不限于数据质量控制、人源序列过滤及物种鉴定等过程[8]。湿实验和干实验构成mNGS 的串联检测结构,任一步产生的错误或误差都将被传递或放大[9]。而干实验位于检测流程末端,需要处理上游各个环节引入的潜在干扰因素,因此必须合理地处理各项干扰的影响,才能准确地进行物种鉴定和检测指标的输出, 再经过与阳性判断值比较后输出最终检测结果。
干实验第一步需要去除测序过程中由于文库质量或测序原理导致的测序错误, 包括低质量、低复杂度及接头污染等序列,常用软件包括SOAPnuke、Trimmomatic 或Fastp 等[10-12];第二步需要去除临床样本中占比极高的人源核酸序列,需要将经第一步处理得到的测序数据,用比对软件与人基因组数据库进行比对去除(图2)。目前常用的比对软件包括Bowtie、Bowtie2、BWA 等[13-14],常用的人基因组包括Hg19、GRCH38 和YH2.0,以及由国际科学团队端粒到端粒联盟(Telomere-to-Telomere,T2T)于2022 年发布的完整无间隙的人基因组T2T-CHM13[15]。
人源核酸序列去除后是微生物鉴定, 也是干实验的核心环节,包括两个关键因素:微生物基因组数据库与比对鉴定算法(图2)。①对于数据库,目前尚无统一建立标准或数据收录规范。我国常用的公共数据源,如由美国国家生物技术信息中心(National Center for Biotechnology Information, NCBI) 建立的GenBank 数据库, 存在数据冗余、基因组质量参差不齐以及物种分类错误等较多问题。以公共数据源为基础的不同的微生物基因组数据库,理论上的微生物鉴定范围可能差异极大,包括收录的物种数量和基因组序列数量。②对于比对鉴定算法,则有更多可选组合和参数,如以BLAST、SNAP 和BWA 为代表的基于alignment 算法的软件[16-17],以Kraken 和Kaiju 为代表的基于k-mer 算法的软件[18-19], 还有以MetaPhlAn3 为代表的基于marker 基因比对算法的软件[20]。这些基于不同算法的软件,运行时选择合适的运行参数以获得更优的分析结果。
微生物鉴定后,需要与病原体阳性判断值进行比对后输出检测报告。对于不同的mNGS 检测试剂,其阳性判断值(指标和阈值)都不一样,不同的检测指标可能是测序序列数、每百万序列数或相对丰度等。目前,阳性判断值不固定是影响mNGS 检测性能的重要因素。部分开发者和使用者可能选择在阳性判断值比对环节,引入临床信息数据库或环境背景菌数据库等动态因素,以期提高“信噪比”或准确性,但往往会降低mNGS 检测的可靠性。
对于某一种mNGS 检测试剂,其病原体阳性判断值应该明确且固定:在阳性判断值研究和验证前,应先固定mNGS 的整体检测流程;在研究过程中,可以使用不同批次试剂和耗材以及不同来源的样本,在不同的实验室进行研究,这样能更好地评估试剂和耗材携带的微生物核酸、环境微生物核酸以及干实验的潜在错误因素等影响。所使用的样本,应选用可靠的比对方法确定相关病原的阴阳性,包括分子生物学方法(如Sanger 测序法等)、传统的微生物鉴定方法(如微生物培养法等)或已获批的试剂盒等,必要时结合临床诊断进行确认。
由上可见,mNGS 干实验的环节和参数繁多,作用关键且标准不一。相较湿实验,干实验被视为“黑匣子”。因此,现阶段应关注干实验的质量控制与评价方法。
2、 mNGS 干实验质量评价研究现状
目前,已有研究团队使用虚拟数据对mNGS 干实验相关的软件工具进行了基准测试研究[21]。其中,Sun 等[22] 针对病毒、细菌与真菌基因组差异(如核酸可获得性、核酸分子数量及基因组大小等)使用虚拟数据测试多种软件的物种定量准确性,发现物种基因组越小,其定量准确性越差。Mcintyre 等[23] 通过广义线性模型对多种软件的结果进行分析,发现样本中物种的数量与假阳性结果之间没有显著关联,但测序序列数的增加可能会导致基于k-mer 算法的软件出现假阳性风险。美国博德研究所总结了用于干实验性能验证的指标与计算方法,发现基因组数据库是影响软件性能的主要因素[24]。
mNGS 干实验本质上是一种分类问题的数学模型,因此关于干实验相关软件的基准测试大多围绕分类准确性、运行速度和算力以及鲁棒性三方面展开研究。
在分类准确性评价方面,常使用混淆矩阵评判分类模型的查准- 查全性。混淆矩阵是机器学习中总结模型预测结果的情形分析表,以矩阵形式将数据集中的记录,按照真实的类别与模型预测的类别判断两个标准进行汇总,多用于判断分类器的优劣。应用混淆矩阵,研究人员可以统计四个基础指标:真阳性表示正确准入的样本数,假阳性一类错误表示误报的样本数,假阴性二类错误表示漏报的样本数,真阴性表示正确拒绝的样本数。混淆矩阵还用于统计召回率、精确率、特异度及准确率等常见二级指标。
此外,软件的运行参数,即过滤条件会显著影响查准- 查全性。经过优化和验证的mNGS干实验, 应能够为每种微生物设置实现最佳分类准确性的运行参数。研究人员可以统计分析相关物种的ROC 曲线下面积(area under curve,AUC) 或P-R 曲线下面积(area under the precision-recall curve,AUPR)的平均数或中位数,以及使用箱型图对相关物种的AUC或AUPR 进行展示,作为分类准确性评价的依据。
在运行速度和算力以及鲁棒性评价方面,目前没有统一的标准,会兼顾时间成本与硬件成本之间的平衡。更好的硬件条件可以一定程度上提升运行速度,然而一般而言,在合理的时间范围内以及合理的硬件条件下,能顺利完成分析任务即可。
值得注意的是,以往mNGS干实验基准测试研究,大多聚焦于对比不同分类器对于不同物种间的分类水平的性能差异,较少针对mNGS 干实验在临床感染诊断场景的实际情况,以及遇到的具体问题和挑战开展深入研究[25]。
3、 mNGS 干实验质量评价方法思考
mNGS 干实验的质量评价方法应包含两个重要评价工具,即可溯源的数字参考品和高质量的基因组数据库。数字参考品来源可分为三种:①经过验证的临床样本的测序数据集;②模拟临床样本且经过精确定量的参考品或标准品的测序数据集;③按照预设微生物丰度,从目标基因组中应用软件抽取序列或生成序列组成的虚拟数据集( 表1)[26]。Rong 等[27] 基于生成对抗网络开发了一种能够学习真实样本并生成高度拟真的微生物丰度图谱的技术。应用该技术, 结合CAMISIM 软件[28] 从基因组序列中能够自动根据丰度图谱生成原始测序数据,作为数字参考品重要的候选来源。这种生成式虚拟数据集,不仅能够最大程度地模拟真实临床样本的核酸特征,减小来自mNGS 湿实验的偏倚,同时还具有良好的可控性与随机性,适合于根据不同质量评价目的进行大规模生产和多批次制备。
基因组数据库可分为:①人基因组数据库,作用是去除人源核酸序列;②微生物基因组数据库,包含各类微生物参考基因组,作用是物种比对鉴定;③污染微生物数据库,包含试剂和耗材携带的、采样以及湿实验引入的微生物;④功能基因数据库,一般是耐药基因与毒力因子数据库。其中,人基因组数据库和微生物基因组数据库是实现mNGS 干实验功能的基础,而微生物基因组数据库对干实验性能的影响更为重要[29-32]。
一般地,mNGS 干实验并不只使用一个软件进行分析,而是多个软件与基因组数据库的搭配组合,再通过不同运行参数的设置形成一套完整的分析流程,如SURPI、 MegaPath 等[33-34]。在对不同mNGS 干实验进行评价时,不仅需要使用相同的数字参考品,还应使用同一个高质量的微生物基因组数据库作为评价结果的参考基准,以保证评价结果的横向可比性。在此基础上,尽量从测序序列数、物种鉴定及结果报告等多维度对mNGS 干实验的假阳性和假阴性进行深入分析。
3.1 近源微生物同源干扰对干实验性能的影响
同源干扰是产生假阳性主要影响因素之一。在临床应用场景下,常出现与某种微生物的丰度过高,从而导致与其基因组高度同源的临床感染相关病原体被错误鉴定或过高鉴定测序序列数,造成假阳性结果。此类问题的原因是某些微生物基因组序列上存在高度相似的区段,导致软件进行测序序列比对时无法区分或鉴定错误。研究人员可以针对同源干扰的特殊场景设置相应数字参考品,对mNGS 干实验同源干扰性能进行评价,并验证优化方案,包括引入基因组覆盖度指标、构建泛基因组或者比较k-mer 特征等方式。
3.2 微生物种类与参考基因组质量对干实验性能的影响
不同种类的微生物,如细菌、真菌、病毒和寄生虫等,在基因组大小、遗传信息复杂度和染色体倍性等方面都存在较大差异。同时,不同种类的微生物在世界范围内的研究程度也不尽相同,导致微生物参考基因组数据库的组成、数量及分布差异明显,例如某些微生物被收录的参考基因组序列可达上万种不同株系,而有些微生物甚至一个完整的参考基因组序列都未收录。构建微生物基因组数据库时,参考基因组的选择对于干实验的分析结果有重要潜在影响。因此,研究人员开展基准测试时,在对总体性能进行评价和研究之外,还可尝试按不同微生物种类对数据进行分类统计和分析,以便更细致地分析算法软件与运行参数的优劣。
3.3 算法软件与运行参数对干实验性能的影响
算法软件与运行参数直接影响测序序列数层面的分类鉴定性能。通过使用相同的数字参考品,可以评价并横向比较不同算法软件与运行参数的召回率、精确率和F1 分数,从而分析不同组合的分类鉴定性能。由于单一测试条件难以准确反映分类模型的实际性能,因此可以对相同的算法软件在不同运行参数条件下进行评价,并通过计算AUC 或AUPR,比较分析该算法软件最适合的运行参数。一般地,AUC或AUPR 分数越高,表明该分类模型的性能越好、分类效果越明显且阈值容错度越高。
3.4 样本复杂度对干实验性能的影响
临床样本具有高度复杂性。对于同一感染者,不同类型样本(如呼吸道样本、脑脊液样本或血液样本等)的核酸特征,包括人源核酸占比、病原微生物丰度及污染微生物丰度等差异较大;对于不同感染者,由于个体差异,往往具有相似或相同临床症状,但样本内的病原微生物丰度也可能完全不同。在处理健康者与感染者、健康者与健康者以及感染者与感染者等样本多样性和复杂性时,算法软件既要能够准确区分,又要保持合理的“惰性”,以保证干实验性能的稳定性。在对干实验进行基准测试时,使用临床样本来源和生成式数字参考品,能够真实还原并最大程度丰富临床样本的多样性和复杂性,从而保证评价结果的科学性。
4、 结语
当前,mNGS 技术仍在不断完善与发展,临床普及程度增速稳定,科学地对其性能与质量进行评价是保证其临床使用效果的基础。mNGS 湿实验和干实验既相对独立,又共同决定着mNGS检测性能。尽管前期已有多项关于mNGS 的质量评价研究报道,但多侧重于湿实验及整体检测流程,鲜有关于干实验流程独立深入的研究。本文对mNGS 干实验质量控制和性能验证的关键问题进行梳理,并详述关于质量评价方法的思考。后续,将应用数字参考品和病原微生物基因组数据库等质量评价工具,针对mNGS临床场景下的技术要求和具体问题,开展mNGS 干实验的基准测试研究,以期进一步完善mNGS技术的质量评价体系,助力相关产品的规范发展和推广。
来源:中国食品药品监管杂志