引用本文: 熊子慧, 田瑞, 程潔, 盧絲麗, 彭建新, 何軍明. 基于SEER數據庫構建肝內膽管癌肝切除術后患者的預測模型. 中國循證醫學雜志, 2023, 23(10): 1129-1136. doi: 10.7507/1672-2531.202304101 復制
肝內膽管癌(intrahepatic cholangiocarcinoma,ICC)是繼肝細胞癌之后第二常見的原發性肝癌[1-2]。盡管近幾十年來ICC的年發病率低,但在全球范圍內卻急劇上升[3]。肝切除術是延長患者生存時間的重要手段[1,4],但遠期預后仍不理想。最近研究表明,ICC患者行肝切除術后的5年總生存率(overall survival,OS)僅為15%~40%[5-6]。
與其他癌癥一樣,ICC術后患者的個體預后預測非常重要。目前最常用的評估方法是美國癌癥聯合委員會(American Joint Cancer Committee,AJCC)的TNM系統[7-8]。然而,TNM系統存在一些局限性,例如準確性低、未考慮其他危險因素以及在預測個體生存風險方面的表現不佳[9]。因此,迫切需要開發個性化預測模型來評估ICC肝切除術后患者的預后。
列線圖是一種可靠且方便的統計模型,能對所有危險因素進行綜合分析,已經廣泛用于癌癥患者的生存預測[10]。雖然目前已有ICC術后風險預測列線圖的研究[11-12],但樣本量較少,對不同群體預測的準確性欠佳。本研究利用監測、流行病學、結果(surveillance, epidemiology, and end results,SEER)數據庫的隊列開發列線圖,用于預測ICC患者肝切除術后的癌癥特異性生存期(cancer-specific survival,CSS),為臨床醫生提供定量工具來評估患者的預后。
1 資料與方法
1.1 數據來源和研究對象的選擇
使用SEER*Stat軟件(版本8.4.01)從SEER數據庫中提取2004—2015年診斷為ICC且行肝切除術的患者。納入標準:① 年齡18~80歲;② 病理診斷確診為ICC;③ 無遠處轉移或其他惡性腫瘤病史;④ 手術方式為肝切除術。排除標準:① 臨床資料不全;② 術后1月內死亡。
本研究滿足《赫爾辛基宣言》要求。由于SEER數據庫是公開獲取的臨床數據來源,因此無需進行倫理審查。
1.2 變量定義和結局指標
納入的變量包括:年齡、性別、種族、婚姻狀況、腫瘤大小、組織學分級、T分期、N分期、AJCC分期、化療、放療、區域淋巴結活檢數目、陽性淋巴結數目和生存信息。T分期按照第8版AJCC分期系統重新分期。研究的主要終點是CSS,定義為從確診ICC到因ICC而死亡的時間或最近一次隨訪的時間。為了方便模型的構建,將連續性變量轉換為分類變量。
1.3 構建和驗證模型
研究人群按照7:3的比例隨機分為建模組和驗證組。在建模組中,采用單因素COX回歸,計算危險比(hazard ratio,HR)及其95%可信區間(confidence interval,CI)。將P<0.05的變量納入LASSO回歸,LASSO回歸可以處理變量間的多重共線性問題。隨后進行多因素COX回歸分析并確定最終的獨立危險因素。根據多因素COX回歸分析的結果,構建列線圖預測患者1、3、5年的CSS。應用一致性指數(C-index)、ROC曲線、校準曲線來驗證列線圖的預測性能,通過計算凈重分類改善指數(net reclassification index,NRI)、整體鑒別指數(integrated discrimination improvement,IDI)比較列線圖和AJCC分期系統預測能力的優劣。使用決策曲線分析(decision curve analysis,DCA)評估列線圖的臨床實用性。根據列線圖計算所有患者的風險評分,分為三個級別的危險組,采用Kaplan-Meier法和log-rank檢驗比較三個級別危險組之間的CSS。
1.4 統計分析
連續變量用中位數和四分位數間距表示,分類變量用頻率及其百分比(%)表示。分類變量使用卡方檢驗或Fisher精確檢驗比較兩組患者的基線特征。連續型變量采用Mann-Whitney U檢驗進行比較。所有統計分析均采用R語言(4.1.3版本)完成。主要使用的R包有“ggplot2”、“survival”、“glmnet”、“rms”、“nomogramFormula”、“survIDINRI”、“ggDCA”和“timeROC”等。在所有統計檢驗中,雙側P值小于0.05認為有統計學意義。
2 結果
2.1 一般臨床資料
最終納入1 007例患者資料,其中建模組705例,驗證組302例。納入患者的一般臨床資料見表1。

2.2 預后因素分析
單因素COX回歸結果顯示,影響ICC肝切除術后患者的預后因素有年齡、性別、病理分期、T分期、N分期、是否放療、是否化療、腫瘤大小、陽性淋巴結數目(P<0.05),見表2。將上述因素納入LASSO回歸分析并交叉驗證(圖1)。選擇λmin=0.015,模型擬合效果最好,此時排除的變量為N分期。采用逐步向后回歸法進行多因素COX回歸分析,結果顯示年齡、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響患者生存的獨立預后因素。而相比于男性,性別為女性則是一個保護因素(表2)。


a:交叉驗證圖;b:系數路徑圖。
2.3 生存列線圖的建立和驗證
根據多因素COX回歸結果,構建生存列線圖(圖2)。在建模組中,列線圖預測CSS的C-index為0.66[95%CI(0.64,0.69)],驗證組中的C-index為0.67[95%CI(0.63,0.72)],提示模型具有較好的預后診斷準確性。ROC曲線顯示,建模組中預測1、3、5年CSS的AUC分別為0.68、0.74、0.75,驗證組中預測1、3、5年CSS的AUC分別為0.69、0.68、0.71(圖3)。建模組和驗證組的校準曲線顯示,1、3、5年的校準曲線分布均接近對角線,該模型的預測結果與實際觀測值有良好的一致性。綜上,該模型在ICC肝切除術后患者的預后預測中具有較好的效能(圖4)。


a:建模組;b:驗證組。

a:建模組;b:驗證組。
2.4 列線圖與第八版AJCC分期預測性能比較
最后,通過C-index、NRI和IDI比較列線圖與第8版AJCC分期系統的準確性。在建模組中,第8版AJCC分期系統的C-index為0.62,1、3、5年CSS的NRI分別為0.19(P<0.05)、0.22(P<0.01)、0.21(P<0.01)。1、3、5年CSS的IDI分別為0.04(P<0.01)、0.06(P<0.01)、0.05(P<0.01),在驗證組中同樣得到驗證,表明列線圖的預測效能明顯優于AJCC分期系統(表3)。DCA曲線顯示,相較于AJCC分期,列線圖能獲得更多的臨床凈效益(圖5)。


a:建模組;b:驗證組。
2.5 根據列線圖構建生存曲線
根據患者風險評分的中位數和四分位數間距,分為低危組、中危組和高危組,使用Kaplan-Meier分析和log-rank檢驗比較三個級別危險組之間的CSS。如圖6所示,三個風險亞組之間的CSS差異有統計學意義(P<0.001)。

3 討論
ICC是一種高致死率的肝膽系統腫瘤,發病率呈上升趨勢[13]。臨床醫生通常使用AJCC分期系統來評估患者的預后,但該分期系統僅包含有限的變量,對特定患者的預后評估效果一般。因此,本研究使用來自SEER數據庫的數據,開發了預測ICC肝切除術患者CSS的列線圖,進行了內部驗證,并全面評估列線圖的預測準確性和有效性。
在本研究中,年齡、性別、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響ICC肝切除術患者的獨立預后因素。老年人(尤其>60歲)的預后較差。Kim等[14]研究也表明,年齡越大,預后越差。這種現象可能與老年人對手術的耐受性差、合并并發癥的風險較高有關。另外,腫瘤大小、區域淋巴結活檢陽性均為獨立的預后因素,與以往研究一致。在第8版AJCC分期系統中,腫瘤直徑大于5 cm是確定分期的臨界值之一。Zhang等[15]認為,腫瘤較大且腫瘤分化較差的患者更有可能出現區域淋巴結陽性和血管浸潤。病理分級是衡量腫瘤分化程度的關鍵指標。在本研究中,病理分級也是ICC肝切除術后患者CSS的獨立預后預測因子,與以前的研究相似[16-17]。構建的列線圖結果顯示,不同腫瘤分級的患者即使具有相同的TNM分期,也可能具有不同的CSS概率。這一發現可以部分解釋本研究構建的列線圖在預測ICC肝切除術后患者CSS的性能優于AJCC分期系統。
單因素COX回歸結果表明,不同的肝切除術式并不影響預后。倪俊聲等[18-19]認為,對于原發性肝癌患者,不同肝切除方式不影響患者遠期預后,更需要重點關注的是手術切緣。在確保足夠的切緣前提下,達到R0切除標準;并根據腫瘤數量、大小、血管浸潤及鄰近器官的受累情況,制定個體化手術方案,來決定不同的肝切除術式。這是提高患者預后、延長患者生存期的關鍵[20-22]。
本研究顯示,不同的淋巴結活檢數目對預后無影響。NCCN指南建議進行淋巴結切除術,并至少采集6個淋巴結[23]。AJCC分期系統也同樣建議[24],以實現對淋巴結狀態的精確分期,并降低局部復發的風險。一項來自國際多中心的回顧性研究表明[25-26],對于ICC,應考慮淋巴結切除術,因為多達30%的患者會出現淋巴結轉移。但另外有研究[27]表明,對ICC患者常規行淋巴結切除術無額外生存獲益,但對確定淋巴結分期有一定作用。目前對于是否常規行淋巴結活檢術以及確定活檢的數目,尚存在爭議。
本研究的局限性:① 影響ICC肝切除術后患者預后的其他因素例如手術切緣、血管浸潤、膽道梗阻程度和血清腫瘤標志物等數據,在SEER數據庫中無法獲取,被排除在分析之外;② 本研究為回顧性研究,受限于SEER數據庫,難以更新到最新時間,研究隊列存在選擇性偏倚;③ 缺乏外部的多機構驗證數據。
綜上所述,本研究結果顯示,年齡、性別、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響ICC肝切除術后患者CSS的獨立危險因素。基于上述危險因素構建的預測模型具有良好的準確度,有助于臨床決策和個體化治療。
肝內膽管癌(intrahepatic cholangiocarcinoma,ICC)是繼肝細胞癌之后第二常見的原發性肝癌[1-2]。盡管近幾十年來ICC的年發病率低,但在全球范圍內卻急劇上升[3]。肝切除術是延長患者生存時間的重要手段[1,4],但遠期預后仍不理想。最近研究表明,ICC患者行肝切除術后的5年總生存率(overall survival,OS)僅為15%~40%[5-6]。
與其他癌癥一樣,ICC術后患者的個體預后預測非常重要。目前最常用的評估方法是美國癌癥聯合委員會(American Joint Cancer Committee,AJCC)的TNM系統[7-8]。然而,TNM系統存在一些局限性,例如準確性低、未考慮其他危險因素以及在預測個體生存風險方面的表現不佳[9]。因此,迫切需要開發個性化預測模型來評估ICC肝切除術后患者的預后。
列線圖是一種可靠且方便的統計模型,能對所有危險因素進行綜合分析,已經廣泛用于癌癥患者的生存預測[10]。雖然目前已有ICC術后風險預測列線圖的研究[11-12],但樣本量較少,對不同群體預測的準確性欠佳。本研究利用監測、流行病學、結果(surveillance, epidemiology, and end results,SEER)數據庫的隊列開發列線圖,用于預測ICC患者肝切除術后的癌癥特異性生存期(cancer-specific survival,CSS),為臨床醫生提供定量工具來評估患者的預后。
1 資料與方法
1.1 數據來源和研究對象的選擇
使用SEER*Stat軟件(版本8.4.01)從SEER數據庫中提取2004—2015年診斷為ICC且行肝切除術的患者。納入標準:① 年齡18~80歲;② 病理診斷確診為ICC;③ 無遠處轉移或其他惡性腫瘤病史;④ 手術方式為肝切除術。排除標準:① 臨床資料不全;② 術后1月內死亡。
本研究滿足《赫爾辛基宣言》要求。由于SEER數據庫是公開獲取的臨床數據來源,因此無需進行倫理審查。
1.2 變量定義和結局指標
納入的變量包括:年齡、性別、種族、婚姻狀況、腫瘤大小、組織學分級、T分期、N分期、AJCC分期、化療、放療、區域淋巴結活檢數目、陽性淋巴結數目和生存信息。T分期按照第8版AJCC分期系統重新分期。研究的主要終點是CSS,定義為從確診ICC到因ICC而死亡的時間或最近一次隨訪的時間。為了方便模型的構建,將連續性變量轉換為分類變量。
1.3 構建和驗證模型
研究人群按照7:3的比例隨機分為建模組和驗證組。在建模組中,采用單因素COX回歸,計算危險比(hazard ratio,HR)及其95%可信區間(confidence interval,CI)。將P<0.05的變量納入LASSO回歸,LASSO回歸可以處理變量間的多重共線性問題。隨后進行多因素COX回歸分析并確定最終的獨立危險因素。根據多因素COX回歸分析的結果,構建列線圖預測患者1、3、5年的CSS。應用一致性指數(C-index)、ROC曲線、校準曲線來驗證列線圖的預測性能,通過計算凈重分類改善指數(net reclassification index,NRI)、整體鑒別指數(integrated discrimination improvement,IDI)比較列線圖和AJCC分期系統預測能力的優劣。使用決策曲線分析(decision curve analysis,DCA)評估列線圖的臨床實用性。根據列線圖計算所有患者的風險評分,分為三個級別的危險組,采用Kaplan-Meier法和log-rank檢驗比較三個級別危險組之間的CSS。
1.4 統計分析
連續變量用中位數和四分位數間距表示,分類變量用頻率及其百分比(%)表示。分類變量使用卡方檢驗或Fisher精確檢驗比較兩組患者的基線特征。連續型變量采用Mann-Whitney U檢驗進行比較。所有統計分析均采用R語言(4.1.3版本)完成。主要使用的R包有“ggplot2”、“survival”、“glmnet”、“rms”、“nomogramFormula”、“survIDINRI”、“ggDCA”和“timeROC”等。在所有統計檢驗中,雙側P值小于0.05認為有統計學意義。
2 結果
2.1 一般臨床資料
最終納入1 007例患者資料,其中建模組705例,驗證組302例。納入患者的一般臨床資料見表1。

2.2 預后因素分析
單因素COX回歸結果顯示,影響ICC肝切除術后患者的預后因素有年齡、性別、病理分期、T分期、N分期、是否放療、是否化療、腫瘤大小、陽性淋巴結數目(P<0.05),見表2。將上述因素納入LASSO回歸分析并交叉驗證(圖1)。選擇λmin=0.015,模型擬合效果最好,此時排除的變量為N分期。采用逐步向后回歸法進行多因素COX回歸分析,結果顯示年齡、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響患者生存的獨立預后因素。而相比于男性,性別為女性則是一個保護因素(表2)。


a:交叉驗證圖;b:系數路徑圖。
2.3 生存列線圖的建立和驗證
根據多因素COX回歸結果,構建生存列線圖(圖2)。在建模組中,列線圖預測CSS的C-index為0.66[95%CI(0.64,0.69)],驗證組中的C-index為0.67[95%CI(0.63,0.72)],提示模型具有較好的預后診斷準確性。ROC曲線顯示,建模組中預測1、3、5年CSS的AUC分別為0.68、0.74、0.75,驗證組中預測1、3、5年CSS的AUC分別為0.69、0.68、0.71(圖3)。建模組和驗證組的校準曲線顯示,1、3、5年的校準曲線分布均接近對角線,該模型的預測結果與實際觀測值有良好的一致性。綜上,該模型在ICC肝切除術后患者的預后預測中具有較好的效能(圖4)。


a:建模組;b:驗證組。

a:建模組;b:驗證組。
2.4 列線圖與第八版AJCC分期預測性能比較
最后,通過C-index、NRI和IDI比較列線圖與第8版AJCC分期系統的準確性。在建模組中,第8版AJCC分期系統的C-index為0.62,1、3、5年CSS的NRI分別為0.19(P<0.05)、0.22(P<0.01)、0.21(P<0.01)。1、3、5年CSS的IDI分別為0.04(P<0.01)、0.06(P<0.01)、0.05(P<0.01),在驗證組中同樣得到驗證,表明列線圖的預測效能明顯優于AJCC分期系統(表3)。DCA曲線顯示,相較于AJCC分期,列線圖能獲得更多的臨床凈效益(圖5)。


a:建模組;b:驗證組。
2.5 根據列線圖構建生存曲線
根據患者風險評分的中位數和四分位數間距,分為低危組、中危組和高危組,使用Kaplan-Meier分析和log-rank檢驗比較三個級別危險組之間的CSS。如圖6所示,三個風險亞組之間的CSS差異有統計學意義(P<0.001)。

3 討論
ICC是一種高致死率的肝膽系統腫瘤,發病率呈上升趨勢[13]。臨床醫生通常使用AJCC分期系統來評估患者的預后,但該分期系統僅包含有限的變量,對特定患者的預后評估效果一般。因此,本研究使用來自SEER數據庫的數據,開發了預測ICC肝切除術患者CSS的列線圖,進行了內部驗證,并全面評估列線圖的預測準確性和有效性。
在本研究中,年齡、性別、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響ICC肝切除術患者的獨立預后因素。老年人(尤其>60歲)的預后較差。Kim等[14]研究也表明,年齡越大,預后越差。這種現象可能與老年人對手術的耐受性差、合并并發癥的風險較高有關。另外,腫瘤大小、區域淋巴結活檢陽性均為獨立的預后因素,與以往研究一致。在第8版AJCC分期系統中,腫瘤直徑大于5 cm是確定分期的臨界值之一。Zhang等[15]認為,腫瘤較大且腫瘤分化較差的患者更有可能出現區域淋巴結陽性和血管浸潤。病理分級是衡量腫瘤分化程度的關鍵指標。在本研究中,病理分級也是ICC肝切除術后患者CSS的獨立預后預測因子,與以前的研究相似[16-17]。構建的列線圖結果顯示,不同腫瘤分級的患者即使具有相同的TNM分期,也可能具有不同的CSS概率。這一發現可以部分解釋本研究構建的列線圖在預測ICC肝切除術后患者CSS的性能優于AJCC分期系統。
單因素COX回歸結果表明,不同的肝切除術式并不影響預后。倪俊聲等[18-19]認為,對于原發性肝癌患者,不同肝切除方式不影響患者遠期預后,更需要重點關注的是手術切緣。在確保足夠的切緣前提下,達到R0切除標準;并根據腫瘤數量、大小、血管浸潤及鄰近器官的受累情況,制定個體化手術方案,來決定不同的肝切除術式。這是提高患者預后、延長患者生存期的關鍵[20-22]。
本研究顯示,不同的淋巴結活檢數目對預后無影響。NCCN指南建議進行淋巴結切除術,并至少采集6個淋巴結[23]。AJCC分期系統也同樣建議[24],以實現對淋巴結狀態的精確分期,并降低局部復發的風險。一項來自國際多中心的回顧性研究表明[25-26],對于ICC,應考慮淋巴結切除術,因為多達30%的患者會出現淋巴結轉移。但另外有研究[27]表明,對ICC患者常規行淋巴結切除術無額外生存獲益,但對確定淋巴結分期有一定作用。目前對于是否常規行淋巴結活檢術以及確定活檢的數目,尚存在爭議。
本研究的局限性:① 影響ICC肝切除術后患者預后的其他因素例如手術切緣、血管浸潤、膽道梗阻程度和血清腫瘤標志物等數據,在SEER數據庫中無法獲取,被排除在分析之外;② 本研究為回顧性研究,受限于SEER數據庫,難以更新到最新時間,研究隊列存在選擇性偏倚;③ 缺乏外部的多機構驗證數據。
綜上所述,本研究結果顯示,年齡、性別、病理分期、T分期、腫瘤直徑、陽性淋巴結數目是影響ICC肝切除術后患者CSS的獨立危險因素。基于上述危險因素構建的預測模型具有良好的準確度,有助于臨床決策和個體化治療。