肺癌目前仍是中國人群中發病率和死亡率最高的惡性腫瘤,其中約85%為非小細胞肺癌(non-small cell lung cancer,NSCLC)[1]。手術、化療、靶向治療、免疫療法等療法的發展為NSCLC患者帶來了治愈的希望,但并非所有患者均能從中受益,例如僅20%的NSCLC患者對免疫治療產生應答[2]。因此,發掘生物標記物以構建臨床預測模型、篩選出潛在的受益人群對提高臨床療效尤為重要[3]。
研究表明外周血生物標志物與NSCLC患者的預后相關,例如,淋巴細胞計數偏高和中性粒細胞計數偏低均與NSCLC患者免疫檢查點抑制劑(immune checkpoint inhibitors,ICIs)治療后更長的總生存期(overall survival,OS)呈正相關[4],免疫治療前乳酸脫氫酶(lactate dehydrogenase,LDH)升高的NSCLC患者預后更差[5]。外周血生物標記物具有實時、取樣方便等優勢,以外周血標志物為預測因子的臨床預測模型被廣泛開發。本文系統評價現有基于外周血生物標志物的NSCLC預后預測模型,以期為今后的臨床研究和應用提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究。
1.1.2 研究對象
NSCLC患者,其種族、國籍、病程不限。
1.1.3 干預措施
治療方法不限。
1.1.4 研究內容
基于外周血生物標志物建立NSCLC患者預后預測模型,并描述模型的建立過程。
1.1.5 排除標準
① 僅為危險因素研究,未構建模型;② 模型包含的預測變量<2,或預測變量基于細胞、基因水平;③ 通過綜述、系統評價、Meta分析、神經網絡或決策樹建立的模型;④ 對既往開發的模型進行驗證的研究;⑤ 無法獲取全文的文獻;⑥ 非中、英文文獻。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Cochrane Library、Web of Science、VIP、WanFang Data、CNKI數據庫,搜集基于外周血生物標志物建立NSCLC患者預后預測模型的研究,檢索時限均從建庫至2023年6月12日。此外,追溯納入研究的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:carcinoma, non-small-cell lung、biomarker、predictive model、prediction model、risk prediction model、prognostic model等;中文檢索詞包括:非小細胞肺癌、生物標志物、預測模型、風險預測模型、預后預測模型等。
1.3 文獻篩選及資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。資料提取內容包括:① 納入研究的基本信息;② 研究對象的基本特征;③ 偏倚風險評價的關鍵要素;④ 預測模型及其性能,包括模型的呈現形式、預測因子、受試者工作特征曲線下面積(area under the receiver operating characteristic curve,AUC)、校準度等。
1.4 納入研究的偏倚風險評價
由2名評價員根據預后或診斷多因素預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[6],從研究對象、預測因子、結果、統計分析4個領域評價預測模型的偏倚風險。
1.5 統計分析
采用RevMan 5.4.1軟件對出現頻率最高的3個預測因子進行Meta分析。二分類變量采用風險比(hazard ratio,HR)為效應分析統計量,并提供其95%可信區間(confidence interval,CI)。納入研究結果間的異質性采用χ2檢驗進行分析(檢驗水準為α=0.1),同時結合I2定量判斷異質性大小。若各研究結果間無統計學異質性,則采用固定效應模型進行Meta分析;若各研究結果間存在統計學異質性,則進一步分析異質性來源,在排除明顯臨床異質性的影響后,采用隨機效應模型進行Meta分析。Meta分析的檢驗水準為α=0.05。
2 結果
2.1 文獻檢索結果
初檢出相關文獻1 441篇,包括PubMed(n=388)、EMbase(n=102)、Cochrane Library(n=102)、Web of Science(n=158)、VIP(n=174)、WanFang Data(n=225)和CNKI(n=292)。經逐層篩選后,最終納入8個研究[7-14],包括2 390例患者。
2.2 納入研究的基本特征與偏倚風險評價結果


2.3 納入研究的預測因子及模型性能
出現頻率最高的預測變量分別是LDH[7-8,12,14]、中性粒細胞與淋巴細胞比率(neutrophil to lymphocyte ratio,NLR)[10-11]、衍生NLR(derived NLR,dNLR)[7-8]。模型呈現方式主要是公式法[10]或賦分法。2項研究[7,10]報告了模型的AUC,為0.702~0.74;3項研究[7,9,11]報告了模型驗證的AUC,為0.664~0.783。見表1。
2.4 Meta分析結果
2.4.1 LDH
共納入4項研究[7-8,12,14],包含1 656例。固定效應模型Meta分析結果顯示:LDH是NSCLC患者OS的獨立預測因素[HR=1.86,95%CI(41.32,2.63),P<0.01]。
2.4.2 dNLR
共納入2項研究[7-8],包含1 125例。固定效應模型Meta分析結果顯示:dNLR是NSCLC患者生存的獨立預測因素[HR=2.15,95%CI(1.56,2.96),P<0.01]。
2.4.3 NLR
共納入2項研究[10-11],包含531例。固定效應模型Meta分析結果顯示:NLR是NSCLC患者生存的獨立預測因素[HR=1.71,95%CI(1.08,2.69),P=0.02]。

3 討論
構建預后預測模型的目的是預測患者的生存時間,幫助醫務人員篩選療效反應高、預后較好的人群,做出合理的臨床決策,為患者選擇更合適的治療方案。本研究納入了8項基于外周標志物的NSCLC預后預測模型研究,其中3項進行了性能評估結果較好,AUC均>0.7。但8項研究偏倚風險均較高,主要存在于變量篩選、數據處理、模型評價和驗證等階段。
研究設計:預后預測模型存在縱向時間邏輯,最宜采用前瞻性隊列研究設計[17],但納入的8項研究均為回顧性隊列研究,這可能會導致模型的預測能力被高估[18]。
變量的篩選和處理:7項研究將連續性變量轉化為二分類變量,損失了連續性變量的數據信息,從而降低了模型的精度,可能導致重要信息丟失,將連續變量轉化為分類變量時,應檢驗連續變量的非線性擬合[18]或補充內部驗證和收縮回歸系數以避免過度擬合[19]。5項研究[8-11,14]采用單因素分析和多因素分析篩選變量,可能會因自變量間的共線性等問題造成有效預測因子的遺失以及模型的過度擬合,產生偏倚[18]。逐步回歸法可避免多重共線性問題,LASSO回歸可同時進行參數估計和變量選擇,均可用于變量篩選[20]。
缺失數據的處理:Navani等[7]采用鏈式方程多重插補,Zhu等[14]和Jafri等[10]將部分數據缺失的研究對象排除,剩余5項未報告數據缺失及處理情況。所有研究應當詳細報告缺失數據及處理情況,直接刪除可能會導致納入分析數據中存在大量極端值,失去結果的效力和信度,建議根據缺失數據的類型及原因適當采用多重插補法、加權法等處理缺失數據以減小偏倚[21]。
模型的評價和驗證:全面報告區分度和校準度才能明確模型的預測性能,納入的研究中僅4項研究報告了區分度(AUC值)[7,9-11],均未評價校準度,如校準曲線(斜率、截距項)[22-24]。內部驗證可較準確地評估模型性能、防止過擬合,外部驗證可驗證模型的外推性以促進模型的推廣[25-26],若缺乏驗證會使模型的偏倚風險較高且轉化率較低。納入的研究中,4項[7-9,11]采用了內部或外部驗證,時段驗證、領域驗證和空間驗證均屬于外部驗證,而通常空間驗證比時段驗證能更好的檢驗模型的可轉移性和泛化性。選取高質量的預測模型并利用多中心、大樣本數據集對其驗證,將其應用于臨床,成本-效益更高[17]。
Meta分析結果顯示,LDH、dNLR、NLR是NSCLC患者OS的獨立影響因素。LDH是癌細胞轉變為Warburg代謝來確保持續生長和分裂的關鍵開關[27-28],因此,LDH水平升高反映了腫瘤負荷較高[29]。在本研究納入的文獻中,LDH參與預測化療、免疫治療的NSCLC患者的預后,也有研究表明,LDH的升高與靶向治療[30]和手術治療[31]的NSCLC患者不良預后顯著相關,可見,LDH適應性較為廣泛。dNLR定義為:中性粒細胞數/(白細胞數?中性粒細胞數),腫瘤局部炎癥反應環境中有較多中性粒細胞和較少的淋巴細胞浸潤[32]。本研究表明dNLR是免疫治療的NSCLC患者OS的影響因素,這也在接受nivolumab治療的NSCLC患者中得到證實[33]。而dNLR也與接受免疫治療的晚期NSCLC患者的預后相關[9],治療8周時dNLR為負值的NSCLC患者最有可能產生免疫應答[34]。這也提示我們NLR的動態變化對NSCLC患者的免疫治療療效預測可能存在巨大潛力。
本研究的局限性:① 預測因子的多因素分析結果報道不充分,故本研究僅評價了出現頻次位于前3的預測因子;② 預測模型的性能和適用性可能因治療方法而異[35],但由于納入的預測模型較少,故未根據治療方法進行亞組分析;③ 僅納入了英文文獻,可能存在納入文獻遺漏以及發表偏倚等情況。
綜上所述,本研究結果提示目前基于外周血生物標志物的NSCLC患者預后預測模型的研究還處于發展階段,偏倚風險均較高,且大部分模型未進行外部驗證,影響模型的外推性。未來模型構建應嚴格遵循PROBAST以完善研究設計,基于多中心、大樣本量的數據開發性能良好的預測模型,驗證并調整模型,將模型推廣使用,發揮模型的臨床效能。
肺癌目前仍是中國人群中發病率和死亡率最高的惡性腫瘤,其中約85%為非小細胞肺癌(non-small cell lung cancer,NSCLC)[1]。手術、化療、靶向治療、免疫療法等療法的發展為NSCLC患者帶來了治愈的希望,但并非所有患者均能從中受益,例如僅20%的NSCLC患者對免疫治療產生應答[2]。因此,發掘生物標記物以構建臨床預測模型、篩選出潛在的受益人群對提高臨床療效尤為重要[3]。
研究表明外周血生物標志物與NSCLC患者的預后相關,例如,淋巴細胞計數偏高和中性粒細胞計數偏低均與NSCLC患者免疫檢查點抑制劑(immune checkpoint inhibitors,ICIs)治療后更長的總生存期(overall survival,OS)呈正相關[4],免疫治療前乳酸脫氫酶(lactate dehydrogenase,LDH)升高的NSCLC患者預后更差[5]。外周血生物標記物具有實時、取樣方便等優勢,以外周血標志物為預測因子的臨床預測模型被廣泛開發。本文系統評價現有基于外周血生物標志物的NSCLC預后預測模型,以期為今后的臨床研究和應用提供參考。
1 資料與方法
1.1 納入與排除標準
1.1.1 研究類型
隊列研究。
1.1.2 研究對象
NSCLC患者,其種族、國籍、病程不限。
1.1.3 干預措施
治療方法不限。
1.1.4 研究內容
基于外周血生物標志物建立NSCLC患者預后預測模型,并描述模型的建立過程。
1.1.5 排除標準
① 僅為危險因素研究,未構建模型;② 模型包含的預測變量<2,或預測變量基于細胞、基因水平;③ 通過綜述、系統評價、Meta分析、神經網絡或決策樹建立的模型;④ 對既往開發的模型進行驗證的研究;⑤ 無法獲取全文的文獻;⑥ 非中、英文文獻。
1.2 文獻檢索策略
計算機檢索PubMed、EMbase、Cochrane Library、Web of Science、VIP、WanFang Data、CNKI數據庫,搜集基于外周血生物標志物建立NSCLC患者預后預測模型的研究,檢索時限均從建庫至2023年6月12日。此外,追溯納入研究的參考文獻,以補充獲取相關文獻。檢索采取主題詞和自由詞相結合的方式。英文檢索詞包括:carcinoma, non-small-cell lung、biomarker、predictive model、prediction model、risk prediction model、prognostic model等;中文檢索詞包括:非小細胞肺癌、生物標志物、預測模型、風險預測模型、預后預測模型等。
1.3 文獻篩選及資料提取
由2位評價員獨立篩選文獻、提取資料并交叉核對,如遇分歧,則咨詢第三方協助判斷。資料提取內容包括:① 納入研究的基本信息;② 研究對象的基本特征;③ 偏倚風險評價的關鍵要素;④ 預測模型及其性能,包括模型的呈現形式、預測因子、受試者工作特征曲線下面積(area under the receiver operating characteristic curve,AUC)、校準度等。
1.4 納入研究的偏倚風險評價
由2名評價員根據預后或診斷多因素預測模型研究的偏倚風險評價工具(prediction model risk of bias assessment tool,PROBAST)[6],從研究對象、預測因子、結果、統計分析4個領域評價預測模型的偏倚風險。
1.5 統計分析
采用RevMan 5.4.1軟件對出現頻率最高的3個預測因子進行Meta分析。二分類變量采用風險比(hazard ratio,HR)為效應分析統計量,并提供其95%可信區間(confidence interval,CI)。納入研究結果間的異質性采用χ2檢驗進行分析(檢驗水準為α=0.1),同時結合I2定量判斷異質性大小。若各研究結果間無統計學異質性,則采用固定效應模型進行Meta分析;若各研究結果間存在統計學異質性,則進一步分析異質性來源,在排除明顯臨床異質性的影響后,采用隨機效應模型進行Meta分析。Meta分析的檢驗水準為α=0.05。
2 結果
2.1 文獻檢索結果
初檢出相關文獻1 441篇,包括PubMed(n=388)、EMbase(n=102)、Cochrane Library(n=102)、Web of Science(n=158)、VIP(n=174)、WanFang Data(n=225)和CNKI(n=292)。經逐層篩選后,最終納入8個研究[7-14],包括2 390例患者。
2.2 納入研究的基本特征與偏倚風險評價結果


2.3 納入研究的預測因子及模型性能
出現頻率最高的預測變量分別是LDH[7-8,12,14]、中性粒細胞與淋巴細胞比率(neutrophil to lymphocyte ratio,NLR)[10-11]、衍生NLR(derived NLR,dNLR)[7-8]。模型呈現方式主要是公式法[10]或賦分法。2項研究[7,10]報告了模型的AUC,為0.702~0.74;3項研究[7,9,11]報告了模型驗證的AUC,為0.664~0.783。見表1。
2.4 Meta分析結果
2.4.1 LDH
共納入4項研究[7-8,12,14],包含1 656例。固定效應模型Meta分析結果顯示:LDH是NSCLC患者OS的獨立預測因素[HR=1.86,95%CI(41.32,2.63),P<0.01]。
2.4.2 dNLR
共納入2項研究[7-8],包含1 125例。固定效應模型Meta分析結果顯示:dNLR是NSCLC患者生存的獨立預測因素[HR=2.15,95%CI(1.56,2.96),P<0.01]。
2.4.3 NLR
共納入2項研究[10-11],包含531例。固定效應模型Meta分析結果顯示:NLR是NSCLC患者生存的獨立預測因素[HR=1.71,95%CI(1.08,2.69),P=0.02]。

3 討論
構建預后預測模型的目的是預測患者的生存時間,幫助醫務人員篩選療效反應高、預后較好的人群,做出合理的臨床決策,為患者選擇更合適的治療方案。本研究納入了8項基于外周標志物的NSCLC預后預測模型研究,其中3項進行了性能評估結果較好,AUC均>0.7。但8項研究偏倚風險均較高,主要存在于變量篩選、數據處理、模型評價和驗證等階段。
研究設計:預后預測模型存在縱向時間邏輯,最宜采用前瞻性隊列研究設計[17],但納入的8項研究均為回顧性隊列研究,這可能會導致模型的預測能力被高估[18]。
變量的篩選和處理:7項研究將連續性變量轉化為二分類變量,損失了連續性變量的數據信息,從而降低了模型的精度,可能導致重要信息丟失,將連續變量轉化為分類變量時,應檢驗連續變量的非線性擬合[18]或補充內部驗證和收縮回歸系數以避免過度擬合[19]。5項研究[8-11,14]采用單因素分析和多因素分析篩選變量,可能會因自變量間的共線性等問題造成有效預測因子的遺失以及模型的過度擬合,產生偏倚[18]。逐步回歸法可避免多重共線性問題,LASSO回歸可同時進行參數估計和變量選擇,均可用于變量篩選[20]。
缺失數據的處理:Navani等[7]采用鏈式方程多重插補,Zhu等[14]和Jafri等[10]將部分數據缺失的研究對象排除,剩余5項未報告數據缺失及處理情況。所有研究應當詳細報告缺失數據及處理情況,直接刪除可能會導致納入分析數據中存在大量極端值,失去結果的效力和信度,建議根據缺失數據的類型及原因適當采用多重插補法、加權法等處理缺失數據以減小偏倚[21]。
模型的評價和驗證:全面報告區分度和校準度才能明確模型的預測性能,納入的研究中僅4項研究報告了區分度(AUC值)[7,9-11],均未評價校準度,如校準曲線(斜率、截距項)[22-24]。內部驗證可較準確地評估模型性能、防止過擬合,外部驗證可驗證模型的外推性以促進模型的推廣[25-26],若缺乏驗證會使模型的偏倚風險較高且轉化率較低。納入的研究中,4項[7-9,11]采用了內部或外部驗證,時段驗證、領域驗證和空間驗證均屬于外部驗證,而通常空間驗證比時段驗證能更好的檢驗模型的可轉移性和泛化性。選取高質量的預測模型并利用多中心、大樣本數據集對其驗證,將其應用于臨床,成本-效益更高[17]。
Meta分析結果顯示,LDH、dNLR、NLR是NSCLC患者OS的獨立影響因素。LDH是癌細胞轉變為Warburg代謝來確保持續生長和分裂的關鍵開關[27-28],因此,LDH水平升高反映了腫瘤負荷較高[29]。在本研究納入的文獻中,LDH參與預測化療、免疫治療的NSCLC患者的預后,也有研究表明,LDH的升高與靶向治療[30]和手術治療[31]的NSCLC患者不良預后顯著相關,可見,LDH適應性較為廣泛。dNLR定義為:中性粒細胞數/(白細胞數?中性粒細胞數),腫瘤局部炎癥反應環境中有較多中性粒細胞和較少的淋巴細胞浸潤[32]。本研究表明dNLR是免疫治療的NSCLC患者OS的影響因素,這也在接受nivolumab治療的NSCLC患者中得到證實[33]。而dNLR也與接受免疫治療的晚期NSCLC患者的預后相關[9],治療8周時dNLR為負值的NSCLC患者最有可能產生免疫應答[34]。這也提示我們NLR的動態變化對NSCLC患者的免疫治療療效預測可能存在巨大潛力。
本研究的局限性:① 預測因子的多因素分析結果報道不充分,故本研究僅評價了出現頻次位于前3的預測因子;② 預測模型的性能和適用性可能因治療方法而異[35],但由于納入的預測模型較少,故未根據治療方法進行亞組分析;③ 僅納入了英文文獻,可能存在納入文獻遺漏以及發表偏倚等情況。
綜上所述,本研究結果提示目前基于外周血生物標志物的NSCLC患者預后預測模型的研究還處于發展階段,偏倚風險均較高,且大部分模型未進行外部驗證,影響模型的外推性。未來模型構建應嚴格遵循PROBAST以完善研究設計,基于多中心、大樣本量的數據開發性能良好的預測模型,驗證并調整模型,將模型推廣使用,發揮模型的臨床效能。