目前,基于人工智能的醫學影像方法快速發展,相關的文獻報告逐年增多,但未有專用的報告標準,結果報告不規范。為提高該類研究的報告質量,幫助讀者和評價人員更科學地評估該類研究質量,國外提出了人工智能醫學影像研究檢查清單(CLAIM)。本文介紹CLAIM的內容,并對其條目進行解釋說明。
基于人工智能(artificial intelligence,AI)的醫學影像方法突破了傳統方法的技術壁壘,是近年發展最快的領域之一[1]。在醫學影像領域,AI技術的介入結合大數據挖掘,使得醫學影像大數據在AI的篩選、梳理和提取后,可能轉換成有效的臨床決策[2]。研究發現,2011—2020年AI+醫學影像研究逐年增多,中國發表的數量最多,美國、韓國次之[3]。AI在醫學成像領域的應用應基于科學的原則,研究報告應描述具體的研究過程,其研究成果應具備可重復性[4]。AI研究過程包括數據獲取、數據處理、機器學習及模型評估,現有的報告指南并未完全涵蓋AI系統特有的偏倚潛在來源[5],如診斷準確性研究報告規范旨在通過加強研究報告的透明度及完整性,以提高診斷性試驗的報告質量[6]。加強流行病學觀察性研究報告主要目的是為觀察性流行病學研究論文提供報告規范[7]。臨床試驗報告的統一標準則是為了改進隨機對照試驗的報告質量,方便讀者了解研究實施情況并判斷其結果的真實性[8]。2020年加州大學舊金山分校放射學和生物醫學成像系Mogan等學者提出了AI+醫學影像研究報告的檢查清單(checklist for artificial intelligence in medical imaging,CLAIM)[9],本文對其內容進行介紹,以供國內學者參考。
1 CLAIM的概述與內容
CLAIM參照診斷準確性研究報告規范指南,并結合已有的機器學習模型評估指南[10-13]和一般文獻報告標準制定,內容注重AI在醫學影像中的應用,包括分類、圖像重建、文本分析和工作流優化。CLAIM分為標題與摘要、引言、方法、結果、討論和其他信息6個部分,共包含42個條目,條目清單見表1。

2 CLAIM工具條目的解讀
以下是對CLAIM清單各條目的解讀,部分條目將結合已發表的相關研究[14]進行解讀,以促進讀者對報告規范理解與應用。
2.1 標題和摘要
條目1:在文章的標題或摘要中指出AI技術的使用,如“深度學習”或“隨機森林”。
實例:例文[14]在摘要中即表明該研究為通過深度學習算法來預測高危兒童確診自閉癥譜系病的情況。
條目2:摘要應對研究的設計、方法、結果和結論進行總結。提供研究人群的概況(如患者或檢查的數量、圖像的數量、年齡和性別分布),說明該研究為前瞻性研究或回顧性研究,并總結所選擇的統計分析方法。在介紹結果時,要包括比較的P值,并說明軟件、數據和(或)結果模型是否可以公開獲得。
實例:例文[14]在摘要部分已對研究的設計、方法、結果和結論進行了簡要報告,并表明研究是對具有自閉癥譜系病(autism spectrum disorder,ASD)高家族性風險的嬰兒進行的前瞻性腦成像研究。在結果部分,未總結所選統計分析方法,也未對關于軟件、數據和(或)結果模型是否可以公開獲得進行說明。
2.2 引言
條目3:描述該研究的基本原理、研究目標和預期影響。總結相關文獻,指出該研究建立的研究基礎,以及與其他研究的不同之處。使讀者了解研究的背景、基礎科學、方法的基本假設。
實例:例文[14]中說明了是通過對前期相關研究的總結,從而建立了通過對具有ASD高家族性風險的嬰兒進行的前瞻性腦成像研究能夠預測ASD發生的假設。
條目4:定義要回答的臨床或科學問題,清楚描述研究過程。
2.3 方法
清晰完整地描述研究的方法,使讀者能夠復制所描述的步驟。如果該部分描述超過了期刊的字數限制,在方法部分進行總結,在文章附件中提供完整的細節。
實例:例文[14]中說明了機器學習程序和有效性測試的細節可從補充信息中獲得。
2.3.1 研究設計
條目5:說明該研究為回顧性研究或前瞻性研究,如為前瞻性研究需評估預測模型。
條目6:界定研究的目標,如建立模型、探索性研究、可行性研究或非劣效性試驗。對于分類系統則說明預期用途,如診斷、篩查、分期、監測、監視、預測或預后[15]。說明AI算法相比于其他方法的優勢,如分類、替代或補充[15]。描述選取預測模型的類型、預測的目標以及將如何解決臨床或科學問題。
2.3.2 數據
條目7:說明研究數據的來源,并指出數據與預測模型的擬合程度。描述預測模型的目標應用,使讀者理解報告準確性估計的含義。參考以前使用相同數據集的研究,并說明與當前研究的不同。作者應遵守倫理準則,描述倫理審查和知情同意[16]。如果可以的話,應提供數據來源和(或)圖片的鏈接,鼓勵作者將建模或分析的數據和(或)軟件存放在一個可公開訪問的資料庫中。
實例:例文[14]中說明了該研究包括來自美國國立衛生研究院資助的自閉癥卓越中心網絡研究的數據,被稱為“嬰兒腦成像研究”。該網絡包括4個臨床數據收集站點(北卡羅來納大學教堂山分校、華盛頓大學、費城兒童醫院、華盛頓大學)。數據收集地點獲得了其機構審查委員會的研究方案批準,所有入組受試者都得到了父母或者監護人的知情同意。
條目8:報告納入標準:研究對象的招募方式、合格標準和源人群,報告樣本量及是否進行過樣本統計效力和樣本量的估算。
實例:例文[14]中說明如果受試者的哥哥姐姐臨床確診為ASD,則被登記為高危組,如果受試者的哥哥姐姐沒有ASD的證據,且沒有一級或二級親屬患有ASD的家族史,則被納入低危組。排除標準包括:① 診斷或體征強烈提示與ASD相關的遺傳性疾病;② 患有相關疾病(例如:中樞神經感染、癲癇、先天性心臟病);③ 感覺障礙(例如:視力或聽力損失);④ 低出生體重(<2 000克)或早產(妊娠<36周);⑤ 母親孕期曾暴露于酒精、致畸處方藥等化學因素;⑥ 語言為非英語;⑦ MRI禁忌癥(例如:金屬植入物);⑧ 被收養的受試者;⑨ 有智力殘疾家族史、一級親屬有精神病、精神分裂癥或雙相情感障礙病史。
條目9:將來自不同來源的原始數據進行預處理,使其轉換為定義明確、機器可讀的格式以供分析[17-18]。詳細描述數據預處理的步驟,以便其他研究者可以重復。具體說明如何對圖像重新取樣、改變色彩深度及調整窗口的設置。說明數據是否經過重新縮放、閾值限制(“二值化”)和(或)標準化處理。同時說明如何處理以下問題:區域格式、手工輸入、不一致數據、缺失數據、錯誤的數據類型、文件操作和缺失的匿名化。定義刪除異常值的標準[10],說明軟件庫、軟件(包括制造商名稱和位置)和版本號,以及所有采用的選項和配置設置。
條目10:在一些研究中,研究者選擇原始數據的一些子集作為預處理的一個步驟。例如:選擇圖像的一個子集,裁剪圖像的一部分,或提取報告的一部分。如果這個過程是自動化的,需要說明所使用的工具和參數。如果是人工操作,說明人員的培訓以及操作標準化。
條目11:定義預測變量和結果變量。如果適用的話,將其映射到公共數據,如放射學界[19-21]或美國國立衛生研究院[22-23]所維護的數據。
實例:例文[14]中說明支持這項研究結果的原始數據可從美國國立衛生研究院國家自閉癥研究數據庫公開獲得。經合理要求時,可向通訊作者提供任何額外數據。
條目12:說明對數據進行去標識化的方法,以及如何刪除受保護的健康信息以符合相關法律。由于面部輪廓可以進行識別,應具體說明如何刪除此類信息或使之無法識別的方法[17]。
條目13:說明缺失數據的處理。例如:用近似值或預測值來代替。描述估算的數據引起的偏倚。
2.3.3 參考標準
條目14:對參考標準的注釋最好是參考公用數據元素。避免模糊的描述,如“肝臟病變的大小”,應使用更精確的定義,如“在厚度為2.5毫米的軸向對比增強CT圖像上測量的完全通過病變的最大線性測量值(毫米)”。向注釋者提供實例圖集,以說明主觀的分級方案(例如:輕度/中度/重度),并提供該信息供審查。
條目15:說明選擇參考標準的理由以及該參考標準的潛在誤差、偏差和局限性。
條目16:具體說明注釋者的數量和其資格,以及如何對注釋者進行培訓。如果可能的話,包括培訓材料作為附件。說明注釋是否是獨立完成的,以及如何解決注釋者之間的差異。
實例:例文[14]中說明所有的掃描結果都由一位兒科神經放射學家進行了審核,如果發現有任何放射學上的異常情況,就會告知參與者。此外,一名經委員會認證的兒科神經放射學家對“嬰兒腦成像研究”中所有MRI掃描結果進行盲審,并對其他發現進行了評級。第三位神經放射學家進行第二次盲評,對前兩次審查結果之間存在差異,通過他們來促成最終評級。
條目17:說明用于手動、半自動或自動注釋的軟件,包括版本號。說明是否使用自然語言處理或遞歸神經網絡,以及如何從自由文本成像報告或電子健康記錄中提取成像標簽[17,24-25]。
條目18:說明衡量評分者之間和評分者內部差異的方法,以及為減少或減輕這種差異和解決不一致而采取的措施。
2.3.4 數據分區
條目19:描述樣本量及其估算方法。可使用把握度計算的方法來估計所需的樣本量[26]。
條目20:具體說明如何將數據分配到訓練集、驗證(調整)集和測試集等分區,指出每個分區的數據比例并說明選擇的理由。如:每個分區的數據之間存在系統性差異,說明原因。
條目21:描述分區不相交的層級。醫學圖像集一般應在病人級別或更高的級別上分開,使同一患者的圖像不會出現在每個分區中。
2.3.5 模型
條目22:提供完整而詳細的模型結構,包括輸入、輸出和所有的中間層,以便其他研究人員可以準確地重新構建模型。對于神經網絡模型,在層的描述中包括池化、歸一化、正則化和激活的所有細節。模型輸入必須與預處理數據的形式相匹配,輸出必須符合所述臨床問題的要求,對于有監督的學習來說,應該與參考標準注釋的形式相匹配。如果采用已發表的模型結構,應引用相應參考文獻,并充分描述對模型的每次修改。在某些情況下,可用代碼提供模型的結構作為補充數據。
條目23:說明所有軟件庫、框架和軟件包的名稱和版本號。避免對硬件進行詳細描述,除非基準計算性能是工作的重點。
條目24:說明模型的參數初始化的方法。描述隨機初始化參數的隨機值分布。如果采用遷移學習來初始化參數,說明起始權重的來源。當隨機初始化和遷移學習相結合時,要清楚地說明模型的哪些部分是以何種策略初始化的。
2.3.6 訓練
條目25:完整詳細地描述所有的訓練過程和超參數,以便其他研究者可以完全重復訓練過程。通常情況下,為了完整地記錄訓練過程,稿件中應描述訓練數據是如何被增加的(例如:對于圖像來說,轉換的類型和范圍)。說明如何監測每個模型的訓練收斂情況,以及停止訓練的標準。說明每個超參數所使用的值,其中哪些是在模型之間變化的,在什么范圍內,以及使用什么搜索策略。對于神經網絡,超參數的描述至少包括學習率計劃、優化算法、最小批量大小、輟學率和正則化參數。討論采用的目標函數、選擇理由和性能要求的符合程度。定義最佳性能模型的選擇標準,如果某些模型參數被凍結或限制修改,如轉移學習中經常出現的情況,應明確指出涉及哪些參數,限制它們的方法,以及限制所適用的訓練部分。在代碼中以訓練腳本的形式描述這些細節可能更簡潔,尤其是使用標準框架的神經網絡模型。
條目26:說明用于選擇最佳模型的方法和性能參數,以便對保留的測試集進行評估。如果選擇了一個以上的模型,說明原因。
條目27:如果最終的算法涉及到模型的組合,完整詳細地描述組合的每個模型,說明各組成模型的輸出是如何加權和組合的。
2.3.7 評價
條目28:描述用于衡量模型性能的指標,并說明該指標對于臨床和科學研究問題的重要性。將所提交的模型與以前發表的模型進行比較。
條目29:表明性能指標值的不確定性,如標準差和(或)置信區間。對指標進行統計學比較,指定統計軟件。
條目30:分析模型的穩定性或敏感性。
實例:例文[14]中說明該研究的預測模型采用標準的十倍交叉驗證方法進行評估,總體準確率為94%,敏感性為88%,特異性為95%,陽性預測值為81%,陰性預測值為97%。
條目31:描述能夠排除或解釋模型結果的方法,并提供用于產生這些結果的參數[13]。描述此類方法是如何在目前的研究中得到了驗證。
條目32:描述用于評估算法性能的數據。當這些數據與訓練數據是同一來源時,說明其存在的局限。如果訓練集和評價集的注釋或數據的結構有差異,解釋這些差異,并描述和說明為適應這些差異而采取的方法。
2.4 結果
詳細介紹實驗的結果。如果對結果的描述超過了字數或其他期刊的要求,可以在稿件的附件部分提供數據。
實例:例文[14]對部分實驗數據和結果以擴展表的形式展示,并以補充信息的形式將詳細的機器學習程序和有效性測試的細節呈現。
2.4.1 數據
條目33:具體說明患者、檢查或信息的納入與排除標準,并記錄符合每個標準的病例數。建議在結果中以流程圖或表的方式說明最初的患者群體以及被排除患者,并說明排除原因。描述數據集的技術特征(例如:對于圖像應描述程序供應商或模型、采集參數、重新格式化參數。對于報告應描述實踐環境,報告作者的數量和培訓,報告結構化程度)。
條目34:說明每個分區中病例的人口學和臨床特征,并說明所有數據分區的性能指標。
實例:例文[14]的擴展數據表1呈現了受試者人口統計數據(包括組間差異的測試)。
2.4.2 模型性能
條目35:說明最終模型在測試部分的表現,將AI模型的性能與當前的診斷標準相比較。
條目36:對于分類任務,診斷準確度及其精確度的估計(95%置信區間)[15],可用ROC曲線或校準曲線。當不能直接計算置信區間時,報告重復抽樣的非參數估計[10]。說明哪些變量被證明可以預測應變量,指出預測模型最有效或最無效的亞組人群[10]。
條目37:提供信息以幫助理解錯誤的結果。如果任務被分為兩個或更多的類別,提供一個混淆矩陣,顯示預測類別與實際類別的統計。考慮提供錯誤分類的案例,以幫助讀者更好地理解算法的優勢和局限性。
2.5 討論
該部分提供總結、局限性、影響和未來方向4個方面的信息。
條目38:簡明扼要地總結結果,并解釋目前的研究如何推動下一階段的研究工作。確定研究的局限性,包括研究方法、材料、偏倚、統計不確定性、意外結果和可推廣性。
實例:例文[14]中說明雖然這項研究的結果沒有直接應用于更大規模的ASD兒童群體,但也表明使用大腦生物標志物的早期前驅癥狀檢測來預測ASD診斷的可能性。未來的分析將結合來自其他相關模式(例如:行為、分子遺傳學、電生理學和其他成像模式)的補充數據,可能會提高我們觀察到的預測的準確性。
條目39:描述對實踐的影響,包括AI模型的預期用途和可能的臨床作用。基于現有研究,說明下一階段的研究計劃,并討論阻礙該模型實踐轉化的相關因素
實例:例文[14]中說明本研究中描述的算法將需要進行復制,才能被認為是預測高家族風險嬰兒ASD的可能臨床工具,因為錯誤的診斷預測有可能對個體和家庭產生不利影響。
2.6 其他信息
條目40:遵守國際醫學期刊編輯委員會的臨床試驗注冊聲明。國際醫學期刊編輯委員會要求在招募第一個病人前在公共試驗注冊機構注冊臨床試驗,以此作為發表的條件[27]。在臨床試驗注冊機構(如ClinicalTrials.gov或WHO一級注冊機構)注冊研究方案,有助于避免重復或多余的研究,并方便感興趣的人與研究協調者聯系[28]。
條目41:如果研究方案超過了期刊的字數限制,則向讀者提供可獲得完整研究方案的途徑,以便幫助讀者評估研究的有效性,也可以幫助其他研究人員重復該研究[28]。詳細描述軟件和算法,以便重復研究。將所有建模和數據分析的計算機代碼存入一個可公開訪問的存儲庫。
實例:例文[14]說明了支持這項研究結果的原始數據可從美國國立衛生研究院國家自閉癥研究數據庫公開獲得,任何附加的數據都可以從相應的權威機構獲得。并且提供了研究分析中使用工具(AutoSeg、HeadCirc和ITK-SNAP)的下載途徑,以及用于構建、訓練和測試預測管道的Matlab源代碼的網址。
條目42:說明資金和其他支持的來源、資助者在研究過程中的作用以及作者在研究的每個階段是否具有獨立性[28]。
實例:例文[14]在最后說明了這項研究這項工作得到了美國國立衛生研究院自閉癥卓越中心的撥款和支持,并且國家醫學圖像計算聯盟提供了進一步的支持。
3 討論
隨著AI在醫學成像領域的應用越發廣泛,基于AI+醫學成像的文獻報告會越來越多。建議國內期刊將CLAIM作為報告規范納入其稿約或作者須知,并要求投稿的論文提供CLAIM核查清單中規定的各個項目的內容。部分文獻報告可能無法完全符合CLAIM的每項標準,但CLAIM可為作者和審稿人提供了一個框架,其最終目標是促進關于AI應用的清晰、透明和可重復的科學交流。但CLAIM只能用于評價和審查相關研究報告,而不能作為評價研究質量的工具。
基于人工智能(artificial intelligence,AI)的醫學影像方法突破了傳統方法的技術壁壘,是近年發展最快的領域之一[1]。在醫學影像領域,AI技術的介入結合大數據挖掘,使得醫學影像大數據在AI的篩選、梳理和提取后,可能轉換成有效的臨床決策[2]。研究發現,2011—2020年AI+醫學影像研究逐年增多,中國發表的數量最多,美國、韓國次之[3]。AI在醫學成像領域的應用應基于科學的原則,研究報告應描述具體的研究過程,其研究成果應具備可重復性[4]。AI研究過程包括數據獲取、數據處理、機器學習及模型評估,現有的報告指南并未完全涵蓋AI系統特有的偏倚潛在來源[5],如診斷準確性研究報告規范旨在通過加強研究報告的透明度及完整性,以提高診斷性試驗的報告質量[6]。加強流行病學觀察性研究報告主要目的是為觀察性流行病學研究論文提供報告規范[7]。臨床試驗報告的統一標準則是為了改進隨機對照試驗的報告質量,方便讀者了解研究實施情況并判斷其結果的真實性[8]。2020年加州大學舊金山分校放射學和生物醫學成像系Mogan等學者提出了AI+醫學影像研究報告的檢查清單(checklist for artificial intelligence in medical imaging,CLAIM)[9],本文對其內容進行介紹,以供國內學者參考。
1 CLAIM的概述與內容
CLAIM參照診斷準確性研究報告規范指南,并結合已有的機器學習模型評估指南[10-13]和一般文獻報告標準制定,內容注重AI在醫學影像中的應用,包括分類、圖像重建、文本分析和工作流優化。CLAIM分為標題與摘要、引言、方法、結果、討論和其他信息6個部分,共包含42個條目,條目清單見表1。

2 CLAIM工具條目的解讀
以下是對CLAIM清單各條目的解讀,部分條目將結合已發表的相關研究[14]進行解讀,以促進讀者對報告規范理解與應用。
2.1 標題和摘要
條目1:在文章的標題或摘要中指出AI技術的使用,如“深度學習”或“隨機森林”。
實例:例文[14]在摘要中即表明該研究為通過深度學習算法來預測高危兒童確診自閉癥譜系病的情況。
條目2:摘要應對研究的設計、方法、結果和結論進行總結。提供研究人群的概況(如患者或檢查的數量、圖像的數量、年齡和性別分布),說明該研究為前瞻性研究或回顧性研究,并總結所選擇的統計分析方法。在介紹結果時,要包括比較的P值,并說明軟件、數據和(或)結果模型是否可以公開獲得。
實例:例文[14]在摘要部分已對研究的設計、方法、結果和結論進行了簡要報告,并表明研究是對具有自閉癥譜系病(autism spectrum disorder,ASD)高家族性風險的嬰兒進行的前瞻性腦成像研究。在結果部分,未總結所選統計分析方法,也未對關于軟件、數據和(或)結果模型是否可以公開獲得進行說明。
2.2 引言
條目3:描述該研究的基本原理、研究目標和預期影響。總結相關文獻,指出該研究建立的研究基礎,以及與其他研究的不同之處。使讀者了解研究的背景、基礎科學、方法的基本假設。
實例:例文[14]中說明了是通過對前期相關研究的總結,從而建立了通過對具有ASD高家族性風險的嬰兒進行的前瞻性腦成像研究能夠預測ASD發生的假設。
條目4:定義要回答的臨床或科學問題,清楚描述研究過程。
2.3 方法
清晰完整地描述研究的方法,使讀者能夠復制所描述的步驟。如果該部分描述超過了期刊的字數限制,在方法部分進行總結,在文章附件中提供完整的細節。
實例:例文[14]中說明了機器學習程序和有效性測試的細節可從補充信息中獲得。
2.3.1 研究設計
條目5:說明該研究為回顧性研究或前瞻性研究,如為前瞻性研究需評估預測模型。
條目6:界定研究的目標,如建立模型、探索性研究、可行性研究或非劣效性試驗。對于分類系統則說明預期用途,如診斷、篩查、分期、監測、監視、預測或預后[15]。說明AI算法相比于其他方法的優勢,如分類、替代或補充[15]。描述選取預測模型的類型、預測的目標以及將如何解決臨床或科學問題。
2.3.2 數據
條目7:說明研究數據的來源,并指出數據與預測模型的擬合程度。描述預測模型的目標應用,使讀者理解報告準確性估計的含義。參考以前使用相同數據集的研究,并說明與當前研究的不同。作者應遵守倫理準則,描述倫理審查和知情同意[16]。如果可以的話,應提供數據來源和(或)圖片的鏈接,鼓勵作者將建模或分析的數據和(或)軟件存放在一個可公開訪問的資料庫中。
實例:例文[14]中說明了該研究包括來自美國國立衛生研究院資助的自閉癥卓越中心網絡研究的數據,被稱為“嬰兒腦成像研究”。該網絡包括4個臨床數據收集站點(北卡羅來納大學教堂山分校、華盛頓大學、費城兒童醫院、華盛頓大學)。數據收集地點獲得了其機構審查委員會的研究方案批準,所有入組受試者都得到了父母或者監護人的知情同意。
條目8:報告納入標準:研究對象的招募方式、合格標準和源人群,報告樣本量及是否進行過樣本統計效力和樣本量的估算。
實例:例文[14]中說明如果受試者的哥哥姐姐臨床確診為ASD,則被登記為高危組,如果受試者的哥哥姐姐沒有ASD的證據,且沒有一級或二級親屬患有ASD的家族史,則被納入低危組。排除標準包括:① 診斷或體征強烈提示與ASD相關的遺傳性疾病;② 患有相關疾病(例如:中樞神經感染、癲癇、先天性心臟病);③ 感覺障礙(例如:視力或聽力損失);④ 低出生體重(<2 000克)或早產(妊娠<36周);⑤ 母親孕期曾暴露于酒精、致畸處方藥等化學因素;⑥ 語言為非英語;⑦ MRI禁忌癥(例如:金屬植入物);⑧ 被收養的受試者;⑨ 有智力殘疾家族史、一級親屬有精神病、精神分裂癥或雙相情感障礙病史。
條目9:將來自不同來源的原始數據進行預處理,使其轉換為定義明確、機器可讀的格式以供分析[17-18]。詳細描述數據預處理的步驟,以便其他研究者可以重復。具體說明如何對圖像重新取樣、改變色彩深度及調整窗口的設置。說明數據是否經過重新縮放、閾值限制(“二值化”)和(或)標準化處理。同時說明如何處理以下問題:區域格式、手工輸入、不一致數據、缺失數據、錯誤的數據類型、文件操作和缺失的匿名化。定義刪除異常值的標準[10],說明軟件庫、軟件(包括制造商名稱和位置)和版本號,以及所有采用的選項和配置設置。
條目10:在一些研究中,研究者選擇原始數據的一些子集作為預處理的一個步驟。例如:選擇圖像的一個子集,裁剪圖像的一部分,或提取報告的一部分。如果這個過程是自動化的,需要說明所使用的工具和參數。如果是人工操作,說明人員的培訓以及操作標準化。
條目11:定義預測變量和結果變量。如果適用的話,將其映射到公共數據,如放射學界[19-21]或美國國立衛生研究院[22-23]所維護的數據。
實例:例文[14]中說明支持這項研究結果的原始數據可從美國國立衛生研究院國家自閉癥研究數據庫公開獲得。經合理要求時,可向通訊作者提供任何額外數據。
條目12:說明對數據進行去標識化的方法,以及如何刪除受保護的健康信息以符合相關法律。由于面部輪廓可以進行識別,應具體說明如何刪除此類信息或使之無法識別的方法[17]。
條目13:說明缺失數據的處理。例如:用近似值或預測值來代替。描述估算的數據引起的偏倚。
2.3.3 參考標準
條目14:對參考標準的注釋最好是參考公用數據元素。避免模糊的描述,如“肝臟病變的大小”,應使用更精確的定義,如“在厚度為2.5毫米的軸向對比增強CT圖像上測量的完全通過病變的最大線性測量值(毫米)”。向注釋者提供實例圖集,以說明主觀的分級方案(例如:輕度/中度/重度),并提供該信息供審查。
條目15:說明選擇參考標準的理由以及該參考標準的潛在誤差、偏差和局限性。
條目16:具體說明注釋者的數量和其資格,以及如何對注釋者進行培訓。如果可能的話,包括培訓材料作為附件。說明注釋是否是獨立完成的,以及如何解決注釋者之間的差異。
實例:例文[14]中說明所有的掃描結果都由一位兒科神經放射學家進行了審核,如果發現有任何放射學上的異常情況,就會告知參與者。此外,一名經委員會認證的兒科神經放射學家對“嬰兒腦成像研究”中所有MRI掃描結果進行盲審,并對其他發現進行了評級。第三位神經放射學家進行第二次盲評,對前兩次審查結果之間存在差異,通過他們來促成最終評級。
條目17:說明用于手動、半自動或自動注釋的軟件,包括版本號。說明是否使用自然語言處理或遞歸神經網絡,以及如何從自由文本成像報告或電子健康記錄中提取成像標簽[17,24-25]。
條目18:說明衡量評分者之間和評分者內部差異的方法,以及為減少或減輕這種差異和解決不一致而采取的措施。
2.3.4 數據分區
條目19:描述樣本量及其估算方法。可使用把握度計算的方法來估計所需的樣本量[26]。
條目20:具體說明如何將數據分配到訓練集、驗證(調整)集和測試集等分區,指出每個分區的數據比例并說明選擇的理由。如:每個分區的數據之間存在系統性差異,說明原因。
條目21:描述分區不相交的層級。醫學圖像集一般應在病人級別或更高的級別上分開,使同一患者的圖像不會出現在每個分區中。
2.3.5 模型
條目22:提供完整而詳細的模型結構,包括輸入、輸出和所有的中間層,以便其他研究人員可以準確地重新構建模型。對于神經網絡模型,在層的描述中包括池化、歸一化、正則化和激活的所有細節。模型輸入必須與預處理數據的形式相匹配,輸出必須符合所述臨床問題的要求,對于有監督的學習來說,應該與參考標準注釋的形式相匹配。如果采用已發表的模型結構,應引用相應參考文獻,并充分描述對模型的每次修改。在某些情況下,可用代碼提供模型的結構作為補充數據。
條目23:說明所有軟件庫、框架和軟件包的名稱和版本號。避免對硬件進行詳細描述,除非基準計算性能是工作的重點。
條目24:說明模型的參數初始化的方法。描述隨機初始化參數的隨機值分布。如果采用遷移學習來初始化參數,說明起始權重的來源。當隨機初始化和遷移學習相結合時,要清楚地說明模型的哪些部分是以何種策略初始化的。
2.3.6 訓練
條目25:完整詳細地描述所有的訓練過程和超參數,以便其他研究者可以完全重復訓練過程。通常情況下,為了完整地記錄訓練過程,稿件中應描述訓練數據是如何被增加的(例如:對于圖像來說,轉換的類型和范圍)。說明如何監測每個模型的訓練收斂情況,以及停止訓練的標準。說明每個超參數所使用的值,其中哪些是在模型之間變化的,在什么范圍內,以及使用什么搜索策略。對于神經網絡,超參數的描述至少包括學習率計劃、優化算法、最小批量大小、輟學率和正則化參數。討論采用的目標函數、選擇理由和性能要求的符合程度。定義最佳性能模型的選擇標準,如果某些模型參數被凍結或限制修改,如轉移學習中經常出現的情況,應明確指出涉及哪些參數,限制它們的方法,以及限制所適用的訓練部分。在代碼中以訓練腳本的形式描述這些細節可能更簡潔,尤其是使用標準框架的神經網絡模型。
條目26:說明用于選擇最佳模型的方法和性能參數,以便對保留的測試集進行評估。如果選擇了一個以上的模型,說明原因。
條目27:如果最終的算法涉及到模型的組合,完整詳細地描述組合的每個模型,說明各組成模型的輸出是如何加權和組合的。
2.3.7 評價
條目28:描述用于衡量模型性能的指標,并說明該指標對于臨床和科學研究問題的重要性。將所提交的模型與以前發表的模型進行比較。
條目29:表明性能指標值的不確定性,如標準差和(或)置信區間。對指標進行統計學比較,指定統計軟件。
條目30:分析模型的穩定性或敏感性。
實例:例文[14]中說明該研究的預測模型采用標準的十倍交叉驗證方法進行評估,總體準確率為94%,敏感性為88%,特異性為95%,陽性預測值為81%,陰性預測值為97%。
條目31:描述能夠排除或解釋模型結果的方法,并提供用于產生這些結果的參數[13]。描述此類方法是如何在目前的研究中得到了驗證。
條目32:描述用于評估算法性能的數據。當這些數據與訓練數據是同一來源時,說明其存在的局限。如果訓練集和評價集的注釋或數據的結構有差異,解釋這些差異,并描述和說明為適應這些差異而采取的方法。
2.4 結果
詳細介紹實驗的結果。如果對結果的描述超過了字數或其他期刊的要求,可以在稿件的附件部分提供數據。
實例:例文[14]對部分實驗數據和結果以擴展表的形式展示,并以補充信息的形式將詳細的機器學習程序和有效性測試的細節呈現。
2.4.1 數據
條目33:具體說明患者、檢查或信息的納入與排除標準,并記錄符合每個標準的病例數。建議在結果中以流程圖或表的方式說明最初的患者群體以及被排除患者,并說明排除原因。描述數據集的技術特征(例如:對于圖像應描述程序供應商或模型、采集參數、重新格式化參數。對于報告應描述實踐環境,報告作者的數量和培訓,報告結構化程度)。
條目34:說明每個分區中病例的人口學和臨床特征,并說明所有數據分區的性能指標。
實例:例文[14]的擴展數據表1呈現了受試者人口統計數據(包括組間差異的測試)。
2.4.2 模型性能
條目35:說明最終模型在測試部分的表現,將AI模型的性能與當前的診斷標準相比較。
條目36:對于分類任務,診斷準確度及其精確度的估計(95%置信區間)[15],可用ROC曲線或校準曲線。當不能直接計算置信區間時,報告重復抽樣的非參數估計[10]。說明哪些變量被證明可以預測應變量,指出預測模型最有效或最無效的亞組人群[10]。
條目37:提供信息以幫助理解錯誤的結果。如果任務被分為兩個或更多的類別,提供一個混淆矩陣,顯示預測類別與實際類別的統計。考慮提供錯誤分類的案例,以幫助讀者更好地理解算法的優勢和局限性。
2.5 討論
該部分提供總結、局限性、影響和未來方向4個方面的信息。
條目38:簡明扼要地總結結果,并解釋目前的研究如何推動下一階段的研究工作。確定研究的局限性,包括研究方法、材料、偏倚、統計不確定性、意外結果和可推廣性。
實例:例文[14]中說明雖然這項研究的結果沒有直接應用于更大規模的ASD兒童群體,但也表明使用大腦生物標志物的早期前驅癥狀檢測來預測ASD診斷的可能性。未來的分析將結合來自其他相關模式(例如:行為、分子遺傳學、電生理學和其他成像模式)的補充數據,可能會提高我們觀察到的預測的準確性。
條目39:描述對實踐的影響,包括AI模型的預期用途和可能的臨床作用。基于現有研究,說明下一階段的研究計劃,并討論阻礙該模型實踐轉化的相關因素
實例:例文[14]中說明本研究中描述的算法將需要進行復制,才能被認為是預測高家族風險嬰兒ASD的可能臨床工具,因為錯誤的診斷預測有可能對個體和家庭產生不利影響。
2.6 其他信息
條目40:遵守國際醫學期刊編輯委員會的臨床試驗注冊聲明。國際醫學期刊編輯委員會要求在招募第一個病人前在公共試驗注冊機構注冊臨床試驗,以此作為發表的條件[27]。在臨床試驗注冊機構(如ClinicalTrials.gov或WHO一級注冊機構)注冊研究方案,有助于避免重復或多余的研究,并方便感興趣的人與研究協調者聯系[28]。
條目41:如果研究方案超過了期刊的字數限制,則向讀者提供可獲得完整研究方案的途徑,以便幫助讀者評估研究的有效性,也可以幫助其他研究人員重復該研究[28]。詳細描述軟件和算法,以便重復研究。將所有建模和數據分析的計算機代碼存入一個可公開訪問的存儲庫。
實例:例文[14]說明了支持這項研究結果的原始數據可從美國國立衛生研究院國家自閉癥研究數據庫公開獲得,任何附加的數據都可以從相應的權威機構獲得。并且提供了研究分析中使用工具(AutoSeg、HeadCirc和ITK-SNAP)的下載途徑,以及用于構建、訓練和測試預測管道的Matlab源代碼的網址。
條目42:說明資金和其他支持的來源、資助者在研究過程中的作用以及作者在研究的每個階段是否具有獨立性[28]。
實例:例文[14]在最后說明了這項研究這項工作得到了美國國立衛生研究院自閉癥卓越中心的撥款和支持,并且國家醫學圖像計算聯盟提供了進一步的支持。
3 討論
隨著AI在醫學成像領域的應用越發廣泛,基于AI+醫學成像的文獻報告會越來越多。建議國內期刊將CLAIM作為報告規范納入其稿約或作者須知,并要求投稿的論文提供CLAIM核查清單中規定的各個項目的內容。部分文獻報告可能無法完全符合CLAIM的每項標準,但CLAIM可為作者和審稿人提供了一個框架,其最終目標是促進關于AI應用的清晰、透明和可重復的科學交流。但CLAIM只能用于評價和審查相關研究報告,而不能作為評價研究質量的工具。