傘狀評價是通過對某個研究問題的系統評價和Meta分析進行綜合分析的一種研究方法。近年來傘狀評價的研究方法已得到廣泛使用,但傘狀評價的制作質量參差不齊,因此,本文著重闡述傘狀評價的制作方法和現存挑戰,以期為國內研究者制作傘狀評價提供參考。
系統評價和Meta分析(systematic reviews and meta-analysis,SRMAs)作為“證據金字塔”中最高等級的證據,在過去20年間發表的數量顯著增加[1]。研究表明,每天約有11篇SRMAs發表,大量的研究導致衛生政策制定者和衛生服務提供者無法選擇最佳證據作出決策[1]。傘狀評價(umbrella review)的出現提供了這一問題的解決方法。傘狀評價,又稱為傘形綜述、系統評價的系統評價或綜述概述等,是一種更廣泛的證據綜合方法,其通過明確定義的研究問題、系統的文獻檢索、嚴格的質量評價,整合現有SRMAs結局,為衛生政策制定者和衛生服務提供者提供了針對特定研究問題的高質量證據綜合體[2]。截止2023年6月,Web of Science數據庫中有超過2 500篇傘狀評價發表,其中英國醫學期刊(British Medical Journal,BMJ)中發表17篇,而美國醫學會雜志(The Journal of the American Medical Association,JAMA)中發表了5篇。傘狀評價的研究在近兩年發表數目顯著增加,為由循證證據向實踐的轉化提供了充足的證據來源。然而,隨著此項研究設計的發展,制作時出現了一些方法學挑戰,其中主要的挑戰為評估系統評價之間主要研究的重疊,可能對定性分析或統計權重產生較大影響而導致誤導性結局。國內已發表兩篇關于傘狀評價的方法學研究[2-3],但沒有詳細描述納入SRMAs重疊的處理,系統評價的更新以及傘狀評價數據分析和結果呈現等步驟。因此,本文將對傘狀評價的制作方法進行詳細介紹,以期為國內學者制作傘狀評價提供參考。
1 傘狀評價制作流程
傘狀評價以系統評價為基礎,其制作流程與系統評價基本相似,主要包括確定研究主題、確定納排標準、文獻檢索、文獻篩選、提取數據、方法學質量評價和證據確信度評估、數據分析和匯報研究結果(圖1)。

1.1 選題和納入排除標準
選題是否合理、明確和恰當關系到傘狀評價制作的必要性和可行性,并影響著傘狀評價計劃書的制訂。在確定研究主題時,通常需考慮以下因素:① 是否對臨床實踐有指導意義或有助于臨床實踐指南的制訂/修訂;② 是否存在高度爭議的結論或者沒有對潛在偏倚進行系統性研究,例如:針對同一PICOS(participants、interventions、comparison、outcomes和study design)問題的多篇系統評價結論不一致[3];③ 是否有足夠數量的SRMAs以及方法學質量和證據確信度是否滿足讀者需要。基于確定的選題,可以通過PICOS要素或SPIDER(sample、phenomenon of interest、design、evaluation和research type)工具來定義研究問題[4]。
納排標準的確定取決于研究問題和研究特征,同時納排標準也是對研究問題最好的回答[5],納排標準的確定可參考PICOS原則:① 研究特征,包括研究設計、發表日期和地理位置;② 研究人群的特征,包括年齡、性別、是否患病等;③ 暴露和對照的特征以及所使用的研究方法,如數據類型、混雜因素、關聯度等。
1.2 文獻檢索和研究注冊
在確定納入和排除標準后需制定檢索策略。檢索策略可包含2個部分:① 納入研究的類型,即應包含系統評價和Meta分析的檢索詞[3],也可以借鑒SIGN(Scottish Intercollegiate Guidelines Network)網站發布的專業檢索詞;② 研究主題的所有相關專業詞匯。通常采用醫學主題詞(MeSH)與自由詞相結合方式進行檢索。
檢索策略與數據庫是否全面與查全率息息相關,因此,可通過以下方式來提高查全率:① 目標數據庫可包括EMbase、MEDLINE、CBM、PubMed、CINAHL、WanFang Data、CNKI等生物醫學數據庫,以及JBI Database of Systematic Reviews and Implementation Reports、Cochrane Database of Systematic Review、Database of Abstracts of Reviews of Effects等系統評價數據庫[6];② 補充檢索灰色文獻,比如追蹤納入SRMAs的參考文獻列表,聯系作者或通過Google學術等搜索灰色文獻[7];③ 關注非英語文章以擴大檢索范圍[8]。
上述步驟完成之后,就可以考慮在注冊平臺進行注冊,目前最常用的綜述注冊平臺包括兩個:Cochrane Library和PROSPERO注冊平臺。
1.3 文獻篩選
文獻篩選時,評價員首先需去除重復記錄,并在根據納入和排除標準對標題和摘要進行初篩,評價員可通過Covidence或Rayyan等在線軟件提高效率[9-10],之后進一步閱讀全文以確定文獻是否納入。文獻篩選應至少由2名經過嚴格培訓的評價員獨立進行交叉核對以降低誤排率、提升可靠性,若有意見分歧可討論解決,也可以通過與第三位評價員協商確定。
1.4 數據提取
評價員根據預先設計好的數據表,獨立地提取納入研究的相關數據,包括:題目、第一作者、發表年份、總樣本量、納入原始研究數量、研究對象及例數、年齡、性別、種族、地區、合并癥、納入標準和排除標準、采用的Meta分析方法、暴露因素/干預措施、主要測量指標/結果、效應量及其置信區間、異質性、發表偏倚等。同時,數據提取需要考慮以下要點:① 如果一個Meta分析中提及兩個結局,應對結局進行分別提取;② 若納入研究質量不高或者數量不足,則應提取一定數量的高質量原始數據進行分析,保證傘狀評價的質量[6]。
1.5 方法學質量評價和證據確信度評估
納入研究的質量高低是傘狀評價質量的重要影響因素。在制作傘狀評價時,研究人員應從方法學質量和證據確信度兩個方面對納入文獻的質量進行評估。
方法學質量通常使用AMSTAR 2(A MeaSurement Tool to Assess systematic Reviews)來評估,該工具由16項條目組成,覆蓋納入研究的關鍵問題、計劃書、文獻檢索、文獻篩選、數據提取、納入原始研究的基本特征、數據分析和利益沖突等方面,其中包括7個關鍵領域[11]。通過評估研究與每個標準條目的符合情況可得知系統評價總體質量[12],總體質量可分為“高”(不超過1個非關鍵領域存在缺陷:系統評價提供了準確和全面的結局匯總)、“中”(超過1個非關鍵領域存在缺陷:系統評價提供了較為準確和全面的結局匯總)、“低”(1個關鍵領域加或不加非關鍵領域存在缺陷:系統評價不能提供了準確和全面的結局匯總)或“極低”(超過1個重要領域加或不加非重要領域存在缺陷:系統評價不可能基于獲得的數據提供準確和全面的結局匯總)4個等級[13]。
證據確信度可使用推薦的分級、評估、制定與評價(Grade of Recommendations Assessment, Development and Evaluation,GRADE)來評估[14]。GRADE詳細描述了影響證據質量的因素并給出了分級的標準,其中GRADE證據質量分級通過效應值、效應估計值、真實值和估計將證據分為高級,中級,低級和極低級證據四個等級,值得注意的是對于納入RCT的SRMA從高級證據開始降級,而納入觀察性研究的SRMA則從低級證據開始降級。GRADE系統通過五個可能降低質量等級的因素(偏倚風險、不一致性、間接性、不精確性和發表偏倚)和三個可能增加質量等級的因素(劑量-反應關系、大效應量和負偏倚評估每個結局證據體的確信度)判斷升高或降低證據確信度。
1.6 數據分析
在傘狀評價中,由于納入SRMAs采用的效應值不同(例如一篇傘狀評價中干預措施采用的效應值包括OR、RR、HR等),因此,在比較干預措施的效果時,需對不同類型的效應值進行轉化[15]。可采用比值比(odds ratio,OR)作為一個統一的效應值進行轉化,不同效應量的轉換公式見表1[15]。在一篇關注精神病發生風險與其影響因素的傘狀評價中,作者將所有影響因素的效應值轉化為OR值,包括發病率比值(incidence rate ratio,IRR)、風險比(risk ratio,RR)和標準化均數差(standardized mean differenc,SDM),這使研究者可以直接比較不同影響因素的風險大小并得出結論[16]。若已發表的SRMAs使用了不一致且不恰當的方法(例如在納入的SRMA中不同類型的原始研究使用相同的分析方法)來合成數據,則需要對納入SRMAs中的原始研究重新進行數據提取和數據分析[17]。此外,原始研究的數據也可以為傘狀評價的結果提供進一步解釋[18]。

一篇針對納入Meta分析的傘狀評價數據分析的研究[19],介紹了如何通過R軟件中的MetaUmbrella包分析提取的數據集,實現數據格式檢查(檢查數據是否有錯誤)和數據分析的自動化(Meta分析中的一般信息,效應量、合并值、置信區間、P值等主要結果,Egger’s檢驗等附加計算),以及根據各種分類標準對證據進行分層,同時能夠進行結果可視化的呈現(總效應量的森林圖等)。此種方式可以高效率進行數據分析,但是需要研究人員掌握R軟件的應用。
1.6.1 異質性、偏倚評估和敏感性分析
研究間異質性通常使用I2統計量、Q統計量(Cochrane’s Q檢驗)和H統計量(Kruskal-Wallis H檢驗)評估[17, 20](表2)。其中H統計量同I2統計量相似,利用自由度矯正了納入研究數對Q值的影響,其值大小不會隨研究數變化而變化,異質性檢驗結局也更穩健可靠。而Q檢驗法受納入研究數量的影響,僅考慮了樣本大小的貢獻性而沒有考慮研究質量的作用[21]。

研究的偏倚風險通常使用紐卡斯爾-渥太華量表(The Newcastle-Ottawa scale,NOS)、科克倫工具(Cochrane)或喬安娜布里格斯研究所(JBI)工具評價;研究的發表偏倚使用Egger’s檢驗衡量(P<0.1認為發表偏倚有統計學意義)[22]。如果SRMAs已報告偏倚則單獨列出,并且注意單獨提取的數據或者納入的原始研究(隨機臨床試驗)的設計和實施中的潛在偏倚以及普遍性問題。
通過敏感度分析評估結局的穩定性,在通過敏感性分析后觀察證據的排序是否與之前證據分級相同,如果不同重新進行調整[6]。
1.6.2 SRMAs間重疊的處理
系統評價之間的重疊是指針對同一PICO問題的2個及以上的SRMAs包含了相同的原始研究。如果2個及以上的SRMAs評估了相同的暴露和結局并產生較大的重疊,則在傘狀評價制作中就有可能納入有重疊關聯的結局或者重復的人群,導致傘狀評價最終結局的偏倚。
處理重疊的方法分如下:① 兩篇或者兩篇以上的Cochrane Library的文獻發生重疊,可以選擇最新的發表時間[8]或者原始研究數量最多[6, 23]或者與研究問題相關性最高的文章[24];② 兩篇或兩篇以上非Cochrane Library文獻之間存在高度重疊,使用校正覆蓋面積(corrected covered area,CCA)[25]進行計算,通過比較結果進行選擇。
CCA作為一種重疊程度的衡量標準[26],通過創建圖形交叉表(引文矩陣)計算CCA,提供主要研究重疊的百分比來評價它們之間的重疊程度[25]。研究中可以使用CCA作為初始診斷工具,通過CCA的計算得出更細致的結論。其中重疊度分為四個等級:極高重疊(CCA>15%)、高重疊(CCA=11%~15%)、中等重疊(CCA=5%~10%)、低重疊(CCA=0~5%)[26]。CCA計算公式如下:
![]() |
CCA以百分比表示,其中N為證據合成中納入的出版物總數(包括重復的研究)(即引文矩陣中已選方框的數量);r為行數(檢索到發布原始研究的數量);c是列數(需要比較的綜述的數量)。
CCA是一種有效可以量化兩個或更多研究之間的重疊程度的方法,并有助于決定如何處理重疊。表3和表4展示了以3篇SRMAs為例制作引文矩陣和計算CCA的過程;圖2顯示了使用CCA發現和處理文獻重疊的流程圖,對系統評價之間的重疊進行了如下管理:


通常CCA≥10%提示高重疊和極高重疊,CCA值較高提示需要進一步對SRMAs質量進行評估,檢查納入文章使用的綜述方法避免有文章存在潛在局限性,高重疊按照以下方法進行優先級排序:① 使用AMSTAR 2質量評估工具(維度)評估評分最高,至少被評為中等質量;② 出版時間最近的;③ 提供了綜合效應估計或進行了Meta分析;④ 有最多數量的研究或參與者。
通常CCA≤10%[27]提示輕微或者中等重疊,需要保留兩篇文章并對結局進行比較選擇。低CCA值也可能因為評價員由于不同的主題、納入標準或者搜索策略而對不同研究進行抽樣造成,此時需要依據研究問題納入研究范圍確定,如果研究范圍狹窄,則需要進行進一步定性評估以解釋低重疊的存在原因[25]。
1.6.3 更新現有系統評價
判斷納入研究是否為最新研究是制作傘狀評價的重要前提,針對納入的系統評價,可以使用Garner等[29]推薦的框架判斷是否需要進行全面更新:首先將新發表的研究按樣本量從大到小進行分類,通過將新發表的研究的效果估計值與原始Meta分析的總體效果估計值依次合并(從最大到最小)來判斷研究是否過時,如果新發表的研究導致統計學意義變化或相對效應大小變化超過50%,則認為原始Meta分析已過時需要進行更新。
值得注意的是,未做Meta分析的研究可以被歸類為:絕對過時、可能過時和仍然有效。一個SRMA如果被判定為過時或可能過時,則考慮優先進行更新。可以依據被確定需要更新的關鍵問題的比例或更新特定結論的緊迫性和過時的程度對(高、中或低)研究需要更新的優先地位進行全面評估[30]。如果SRMA判定為有必要更新,則使用原始方法進行更新(框1)。
1.7 結果呈現
傘狀評價的報告內容可參考系統評價/Meta分析的相關報告指南例如MOOSE(meta-analysis of observational studies in epidemiology)和PRISMA(preferred reporting items for systematic reviews and meta-Analyses)[6]。
結果的呈現可包含以下5個方面:① 報告研究選擇的細節,例如研究篩選、檢索、納入和排除的研究數量、排除理由以及文獻篩選流程圖;② 納入研究的基本特征,例如作者、發表年份、研究設計類型、研究人群、干預或暴露措施、健康結局、納入的原始研究和參與者的數量、單個SRMA的結果等;③ 納入研究的方法學質量和證據確信度評估結果;④ 研究間異質性、發表偏倚、敏感性分析結果等;此外,通過文字和圖表相結合,將數據進行可視化呈現能夠將研究結果更直觀的展示給讀者。
在匯報基本特征時需要注意以下幾點:① 說明納入研究是否按照SRMA指南匯報了結局;如果制作傘狀評價中提取了原始研究的數據也需單獨列出說明;② 在進行結局匯報時應匯報詳盡全面,解釋清晰明了。如果有亞組應在結局處匯報每個亞組的結局,并解釋亞組間結局的差異和聯系;結局匯報需要考慮多個方面的應用,如臨床相關性和流行病學相關性等,可在總結后進行綜合匯報[6]。③ 在報告偏倚時不僅要考慮絕對風險降低、反向因果關系、選擇偏差和信息偏差等傳統考慮因素,也需要從納入文獻中分析研究問題是否有因果關系,以進行因果關系的判斷;④ 匯報可能導致結局的其他原因,并且根據研究所得的結局在研究問題涉及的領域對研究結論進行適當地外推,最好可以為該研究問題未來的研究提供指導意見,最后需要公布研究的資助來源[31]
2 討論
傘狀評價和SRMAs屬性相同,但其證據層次更高[3],與SRMA相比存在一定優勢:第一,綜合性:傘狀評價將特定研究主題中的所有SRMAs篩選納入并進行分析和總結,將一個研究問題中的眾多綜述性結局相互連接起來,給讀者展示某一特定研究主題的總體概括并將不同方面相互聯系起來從而構成整體的框架,也通過對領域內已發表的研究進行篩選并評估其更新程度,從而為某一研究領域提供方向和指導。第二,高效率:傘狀評價是基于篩選已發表的SRMAs進行綜述,減少了對一個研究問題的原始研究進行分析的步驟,從而提高了研究效率。第三,指導性:傘狀評價納入大量的研究進行分析,在制作同時評估了不同研究方法之間的差距,比較了不同干預方法之間的優劣,為之后類似研究進行綜述分析時提供方法上的參考。
同時傘狀評價也存在一定的局限性:第一,傘狀評價的有效性和廣度受納入研究的限制,納入研究質量高則傘狀評價質量高,納入研究涉及領域范圍廣則傘狀評價對于研究問題的覆蓋較全面。第二,傘狀評價難以納入全部的特定研究領域的相關研究,不能檢索到未發表在目標數據庫里的研究、小語種研究等。第三,傘狀評價難以修正原始研究和SRMAs中存在的偏倚,在制作傘狀評價本身也會出現偏倚。第四,傘狀評價在制作之前需要評估研究問題的適用性,包括SRMAs更新程度等。第五,傘狀評價在納入SRMAs后不可能逐一回歸原始研究中評估正確性,在發現數據有明顯問題時需要回歸原始數據進行分析評估。第六,SRMAs可能包括不同類型的研究(觀察性研究、隨機對照研究等),其中可能有研究不符合傘狀評價的要求而對傘狀評價的制作產生阻礙。
傘狀評價的制訂仍存在一些挑戰:① 現階段沒有專門適用于傘狀評價的質量評價工具。如在BMJ中檢索傘狀評價,多數研究使用AMSTAR 2作為納入SRMA方法學質量評價工具,其中往往因為SRMA選擇不合適的研究設計、未評估發表偏倚、未匯報利益沖突、未評估納入原始研究的質量或者沒有使用合適的方法分析數據、科學的研究方法形成結論等原因得到低或者極低評分從而最后產生低質量評價,而大量低質量SRMAs也會造成制作的傘狀評價質量降低。② 傘狀評價的制作過程易受原始研究和SRMAs的影響。如,觀察性研究的SRMA易產生混雜;傘狀評價的證據如果來自一項研究或匯總研究,則可能由于研究證據來源過少導致結果不準確;如果證據來自橫斷面研究,則這些研究可能難以確定時間關聯[27]。因此,未來的研究可繼續探討或開發更適用于傘狀評價的方法學質量評價工具,以提高傘狀評價制作嚴謹性。
3 小結
傘狀評價的研究范圍更廣,對某一研究領域的認識更為全面,制作高質量的傘狀評價可以將生物醫學專業中已發表的證據進行總結概括,提供廣泛的高概括綜述證據,證據不僅可以用于臨床治療決策方面,也可以用于某特定研究領域的發展評估以及對未來研究方向指導。研究者需要把握傘狀評價的制作要點以保證制作過程的嚴謹性,從而達到制作高質量傘狀評價的目的。
聲明 本研究不存在任何利益沖突。
系統評價和Meta分析(systematic reviews and meta-analysis,SRMAs)作為“證據金字塔”中最高等級的證據,在過去20年間發表的數量顯著增加[1]。研究表明,每天約有11篇SRMAs發表,大量的研究導致衛生政策制定者和衛生服務提供者無法選擇最佳證據作出決策[1]。傘狀評價(umbrella review)的出現提供了這一問題的解決方法。傘狀評價,又稱為傘形綜述、系統評價的系統評價或綜述概述等,是一種更廣泛的證據綜合方法,其通過明確定義的研究問題、系統的文獻檢索、嚴格的質量評價,整合現有SRMAs結局,為衛生政策制定者和衛生服務提供者提供了針對特定研究問題的高質量證據綜合體[2]。截止2023年6月,Web of Science數據庫中有超過2 500篇傘狀評價發表,其中英國醫學期刊(British Medical Journal,BMJ)中發表17篇,而美國醫學會雜志(The Journal of the American Medical Association,JAMA)中發表了5篇。傘狀評價的研究在近兩年發表數目顯著增加,為由循證證據向實踐的轉化提供了充足的證據來源。然而,隨著此項研究設計的發展,制作時出現了一些方法學挑戰,其中主要的挑戰為評估系統評價之間主要研究的重疊,可能對定性分析或統計權重產生較大影響而導致誤導性結局。國內已發表兩篇關于傘狀評價的方法學研究[2-3],但沒有詳細描述納入SRMAs重疊的處理,系統評價的更新以及傘狀評價數據分析和結果呈現等步驟。因此,本文將對傘狀評價的制作方法進行詳細介紹,以期為國內學者制作傘狀評價提供參考。
1 傘狀評價制作流程
傘狀評價以系統評價為基礎,其制作流程與系統評價基本相似,主要包括確定研究主題、確定納排標準、文獻檢索、文獻篩選、提取數據、方法學質量評價和證據確信度評估、數據分析和匯報研究結果(圖1)。

1.1 選題和納入排除標準
選題是否合理、明確和恰當關系到傘狀評價制作的必要性和可行性,并影響著傘狀評價計劃書的制訂。在確定研究主題時,通常需考慮以下因素:① 是否對臨床實踐有指導意義或有助于臨床實踐指南的制訂/修訂;② 是否存在高度爭議的結論或者沒有對潛在偏倚進行系統性研究,例如:針對同一PICOS(participants、interventions、comparison、outcomes和study design)問題的多篇系統評價結論不一致[3];③ 是否有足夠數量的SRMAs以及方法學質量和證據確信度是否滿足讀者需要。基于確定的選題,可以通過PICOS要素或SPIDER(sample、phenomenon of interest、design、evaluation和research type)工具來定義研究問題[4]。
納排標準的確定取決于研究問題和研究特征,同時納排標準也是對研究問題最好的回答[5],納排標準的確定可參考PICOS原則:① 研究特征,包括研究設計、發表日期和地理位置;② 研究人群的特征,包括年齡、性別、是否患病等;③ 暴露和對照的特征以及所使用的研究方法,如數據類型、混雜因素、關聯度等。
1.2 文獻檢索和研究注冊
在確定納入和排除標準后需制定檢索策略。檢索策略可包含2個部分:① 納入研究的類型,即應包含系統評價和Meta分析的檢索詞[3],也可以借鑒SIGN(Scottish Intercollegiate Guidelines Network)網站發布的專業檢索詞;② 研究主題的所有相關專業詞匯。通常采用醫學主題詞(MeSH)與自由詞相結合方式進行檢索。
檢索策略與數據庫是否全面與查全率息息相關,因此,可通過以下方式來提高查全率:① 目標數據庫可包括EMbase、MEDLINE、CBM、PubMed、CINAHL、WanFang Data、CNKI等生物醫學數據庫,以及JBI Database of Systematic Reviews and Implementation Reports、Cochrane Database of Systematic Review、Database of Abstracts of Reviews of Effects等系統評價數據庫[6];② 補充檢索灰色文獻,比如追蹤納入SRMAs的參考文獻列表,聯系作者或通過Google學術等搜索灰色文獻[7];③ 關注非英語文章以擴大檢索范圍[8]。
上述步驟完成之后,就可以考慮在注冊平臺進行注冊,目前最常用的綜述注冊平臺包括兩個:Cochrane Library和PROSPERO注冊平臺。
1.3 文獻篩選
文獻篩選時,評價員首先需去除重復記錄,并在根據納入和排除標準對標題和摘要進行初篩,評價員可通過Covidence或Rayyan等在線軟件提高效率[9-10],之后進一步閱讀全文以確定文獻是否納入。文獻篩選應至少由2名經過嚴格培訓的評價員獨立進行交叉核對以降低誤排率、提升可靠性,若有意見分歧可討論解決,也可以通過與第三位評價員協商確定。
1.4 數據提取
評價員根據預先設計好的數據表,獨立地提取納入研究的相關數據,包括:題目、第一作者、發表年份、總樣本量、納入原始研究數量、研究對象及例數、年齡、性別、種族、地區、合并癥、納入標準和排除標準、采用的Meta分析方法、暴露因素/干預措施、主要測量指標/結果、效應量及其置信區間、異質性、發表偏倚等。同時,數據提取需要考慮以下要點:① 如果一個Meta分析中提及兩個結局,應對結局進行分別提取;② 若納入研究質量不高或者數量不足,則應提取一定數量的高質量原始數據進行分析,保證傘狀評價的質量[6]。
1.5 方法學質量評價和證據確信度評估
納入研究的質量高低是傘狀評價質量的重要影響因素。在制作傘狀評價時,研究人員應從方法學質量和證據確信度兩個方面對納入文獻的質量進行評估。
方法學質量通常使用AMSTAR 2(A MeaSurement Tool to Assess systematic Reviews)來評估,該工具由16項條目組成,覆蓋納入研究的關鍵問題、計劃書、文獻檢索、文獻篩選、數據提取、納入原始研究的基本特征、數據分析和利益沖突等方面,其中包括7個關鍵領域[11]。通過評估研究與每個標準條目的符合情況可得知系統評價總體質量[12],總體質量可分為“高”(不超過1個非關鍵領域存在缺陷:系統評價提供了準確和全面的結局匯總)、“中”(超過1個非關鍵領域存在缺陷:系統評價提供了較為準確和全面的結局匯總)、“低”(1個關鍵領域加或不加非關鍵領域存在缺陷:系統評價不能提供了準確和全面的結局匯總)或“極低”(超過1個重要領域加或不加非重要領域存在缺陷:系統評價不可能基于獲得的數據提供準確和全面的結局匯總)4個等級[13]。
證據確信度可使用推薦的分級、評估、制定與評價(Grade of Recommendations Assessment, Development and Evaluation,GRADE)來評估[14]。GRADE詳細描述了影響證據質量的因素并給出了分級的標準,其中GRADE證據質量分級通過效應值、效應估計值、真實值和估計將證據分為高級,中級,低級和極低級證據四個等級,值得注意的是對于納入RCT的SRMA從高級證據開始降級,而納入觀察性研究的SRMA則從低級證據開始降級。GRADE系統通過五個可能降低質量等級的因素(偏倚風險、不一致性、間接性、不精確性和發表偏倚)和三個可能增加質量等級的因素(劑量-反應關系、大效應量和負偏倚評估每個結局證據體的確信度)判斷升高或降低證據確信度。
1.6 數據分析
在傘狀評價中,由于納入SRMAs采用的效應值不同(例如一篇傘狀評價中干預措施采用的效應值包括OR、RR、HR等),因此,在比較干預措施的效果時,需對不同類型的效應值進行轉化[15]。可采用比值比(odds ratio,OR)作為一個統一的效應值進行轉化,不同效應量的轉換公式見表1[15]。在一篇關注精神病發生風險與其影響因素的傘狀評價中,作者將所有影響因素的效應值轉化為OR值,包括發病率比值(incidence rate ratio,IRR)、風險比(risk ratio,RR)和標準化均數差(standardized mean differenc,SDM),這使研究者可以直接比較不同影響因素的風險大小并得出結論[16]。若已發表的SRMAs使用了不一致且不恰當的方法(例如在納入的SRMA中不同類型的原始研究使用相同的分析方法)來合成數據,則需要對納入SRMAs中的原始研究重新進行數據提取和數據分析[17]。此外,原始研究的數據也可以為傘狀評價的結果提供進一步解釋[18]。

一篇針對納入Meta分析的傘狀評價數據分析的研究[19],介紹了如何通過R軟件中的MetaUmbrella包分析提取的數據集,實現數據格式檢查(檢查數據是否有錯誤)和數據分析的自動化(Meta分析中的一般信息,效應量、合并值、置信區間、P值等主要結果,Egger’s檢驗等附加計算),以及根據各種分類標準對證據進行分層,同時能夠進行結果可視化的呈現(總效應量的森林圖等)。此種方式可以高效率進行數據分析,但是需要研究人員掌握R軟件的應用。
1.6.1 異質性、偏倚評估和敏感性分析
研究間異質性通常使用I2統計量、Q統計量(Cochrane’s Q檢驗)和H統計量(Kruskal-Wallis H檢驗)評估[17, 20](表2)。其中H統計量同I2統計量相似,利用自由度矯正了納入研究數對Q值的影響,其值大小不會隨研究數變化而變化,異質性檢驗結局也更穩健可靠。而Q檢驗法受納入研究數量的影響,僅考慮了樣本大小的貢獻性而沒有考慮研究質量的作用[21]。

研究的偏倚風險通常使用紐卡斯爾-渥太華量表(The Newcastle-Ottawa scale,NOS)、科克倫工具(Cochrane)或喬安娜布里格斯研究所(JBI)工具評價;研究的發表偏倚使用Egger’s檢驗衡量(P<0.1認為發表偏倚有統計學意義)[22]。如果SRMAs已報告偏倚則單獨列出,并且注意單獨提取的數據或者納入的原始研究(隨機臨床試驗)的設計和實施中的潛在偏倚以及普遍性問題。
通過敏感度分析評估結局的穩定性,在通過敏感性分析后觀察證據的排序是否與之前證據分級相同,如果不同重新進行調整[6]。
1.6.2 SRMAs間重疊的處理
系統評價之間的重疊是指針對同一PICO問題的2個及以上的SRMAs包含了相同的原始研究。如果2個及以上的SRMAs評估了相同的暴露和結局并產生較大的重疊,則在傘狀評價制作中就有可能納入有重疊關聯的結局或者重復的人群,導致傘狀評價最終結局的偏倚。
處理重疊的方法分如下:① 兩篇或者兩篇以上的Cochrane Library的文獻發生重疊,可以選擇最新的發表時間[8]或者原始研究數量最多[6, 23]或者與研究問題相關性最高的文章[24];② 兩篇或兩篇以上非Cochrane Library文獻之間存在高度重疊,使用校正覆蓋面積(corrected covered area,CCA)[25]進行計算,通過比較結果進行選擇。
CCA作為一種重疊程度的衡量標準[26],通過創建圖形交叉表(引文矩陣)計算CCA,提供主要研究重疊的百分比來評價它們之間的重疊程度[25]。研究中可以使用CCA作為初始診斷工具,通過CCA的計算得出更細致的結論。其中重疊度分為四個等級:極高重疊(CCA>15%)、高重疊(CCA=11%~15%)、中等重疊(CCA=5%~10%)、低重疊(CCA=0~5%)[26]。CCA計算公式如下:
![]() |
CCA以百分比表示,其中N為證據合成中納入的出版物總數(包括重復的研究)(即引文矩陣中已選方框的數量);r為行數(檢索到發布原始研究的數量);c是列數(需要比較的綜述的數量)。
CCA是一種有效可以量化兩個或更多研究之間的重疊程度的方法,并有助于決定如何處理重疊。表3和表4展示了以3篇SRMAs為例制作引文矩陣和計算CCA的過程;圖2顯示了使用CCA發現和處理文獻重疊的流程圖,對系統評價之間的重疊進行了如下管理:


通常CCA≥10%提示高重疊和極高重疊,CCA值較高提示需要進一步對SRMAs質量進行評估,檢查納入文章使用的綜述方法避免有文章存在潛在局限性,高重疊按照以下方法進行優先級排序:① 使用AMSTAR 2質量評估工具(維度)評估評分最高,至少被評為中等質量;② 出版時間最近的;③ 提供了綜合效應估計或進行了Meta分析;④ 有最多數量的研究或參與者。
通常CCA≤10%[27]提示輕微或者中等重疊,需要保留兩篇文章并對結局進行比較選擇。低CCA值也可能因為評價員由于不同的主題、納入標準或者搜索策略而對不同研究進行抽樣造成,此時需要依據研究問題納入研究范圍確定,如果研究范圍狹窄,則需要進行進一步定性評估以解釋低重疊的存在原因[25]。
1.6.3 更新現有系統評價
判斷納入研究是否為最新研究是制作傘狀評價的重要前提,針對納入的系統評價,可以使用Garner等[29]推薦的框架判斷是否需要進行全面更新:首先將新發表的研究按樣本量從大到小進行分類,通過將新發表的研究的效果估計值與原始Meta分析的總體效果估計值依次合并(從最大到最小)來判斷研究是否過時,如果新發表的研究導致統計學意義變化或相對效應大小變化超過50%,則認為原始Meta分析已過時需要進行更新。
值得注意的是,未做Meta分析的研究可以被歸類為:絕對過時、可能過時和仍然有效。一個SRMA如果被判定為過時或可能過時,則考慮優先進行更新。可以依據被確定需要更新的關鍵問題的比例或更新特定結論的緊迫性和過時的程度對(高、中或低)研究需要更新的優先地位進行全面評估[30]。如果SRMA判定為有必要更新,則使用原始方法進行更新(框1)。
1.7 結果呈現
傘狀評價的報告內容可參考系統評價/Meta分析的相關報告指南例如MOOSE(meta-analysis of observational studies in epidemiology)和PRISMA(preferred reporting items for systematic reviews and meta-Analyses)[6]。
結果的呈現可包含以下5個方面:① 報告研究選擇的細節,例如研究篩選、檢索、納入和排除的研究數量、排除理由以及文獻篩選流程圖;② 納入研究的基本特征,例如作者、發表年份、研究設計類型、研究人群、干預或暴露措施、健康結局、納入的原始研究和參與者的數量、單個SRMA的結果等;③ 納入研究的方法學質量和證據確信度評估結果;④ 研究間異質性、發表偏倚、敏感性分析結果等;此外,通過文字和圖表相結合,將數據進行可視化呈現能夠將研究結果更直觀的展示給讀者。
在匯報基本特征時需要注意以下幾點:① 說明納入研究是否按照SRMA指南匯報了結局;如果制作傘狀評價中提取了原始研究的數據也需單獨列出說明;② 在進行結局匯報時應匯報詳盡全面,解釋清晰明了。如果有亞組應在結局處匯報每個亞組的結局,并解釋亞組間結局的差異和聯系;結局匯報需要考慮多個方面的應用,如臨床相關性和流行病學相關性等,可在總結后進行綜合匯報[6]。③ 在報告偏倚時不僅要考慮絕對風險降低、反向因果關系、選擇偏差和信息偏差等傳統考慮因素,也需要從納入文獻中分析研究問題是否有因果關系,以進行因果關系的判斷;④ 匯報可能導致結局的其他原因,并且根據研究所得的結局在研究問題涉及的領域對研究結論進行適當地外推,最好可以為該研究問題未來的研究提供指導意見,最后需要公布研究的資助來源[31]
2 討論
傘狀評價和SRMAs屬性相同,但其證據層次更高[3],與SRMA相比存在一定優勢:第一,綜合性:傘狀評價將特定研究主題中的所有SRMAs篩選納入并進行分析和總結,將一個研究問題中的眾多綜述性結局相互連接起來,給讀者展示某一特定研究主題的總體概括并將不同方面相互聯系起來從而構成整體的框架,也通過對領域內已發表的研究進行篩選并評估其更新程度,從而為某一研究領域提供方向和指導。第二,高效率:傘狀評價是基于篩選已發表的SRMAs進行綜述,減少了對一個研究問題的原始研究進行分析的步驟,從而提高了研究效率。第三,指導性:傘狀評價納入大量的研究進行分析,在制作同時評估了不同研究方法之間的差距,比較了不同干預方法之間的優劣,為之后類似研究進行綜述分析時提供方法上的參考。
同時傘狀評價也存在一定的局限性:第一,傘狀評價的有效性和廣度受納入研究的限制,納入研究質量高則傘狀評價質量高,納入研究涉及領域范圍廣則傘狀評價對于研究問題的覆蓋較全面。第二,傘狀評價難以納入全部的特定研究領域的相關研究,不能檢索到未發表在目標數據庫里的研究、小語種研究等。第三,傘狀評價難以修正原始研究和SRMAs中存在的偏倚,在制作傘狀評價本身也會出現偏倚。第四,傘狀評價在制作之前需要評估研究問題的適用性,包括SRMAs更新程度等。第五,傘狀評價在納入SRMAs后不可能逐一回歸原始研究中評估正確性,在發現數據有明顯問題時需要回歸原始數據進行分析評估。第六,SRMAs可能包括不同類型的研究(觀察性研究、隨機對照研究等),其中可能有研究不符合傘狀評價的要求而對傘狀評價的制作產生阻礙。
傘狀評價的制訂仍存在一些挑戰:① 現階段沒有專門適用于傘狀評價的質量評價工具。如在BMJ中檢索傘狀評價,多數研究使用AMSTAR 2作為納入SRMA方法學質量評價工具,其中往往因為SRMA選擇不合適的研究設計、未評估發表偏倚、未匯報利益沖突、未評估納入原始研究的質量或者沒有使用合適的方法分析數據、科學的研究方法形成結論等原因得到低或者極低評分從而最后產生低質量評價,而大量低質量SRMAs也會造成制作的傘狀評價質量降低。② 傘狀評價的制作過程易受原始研究和SRMAs的影響。如,觀察性研究的SRMA易產生混雜;傘狀評價的證據如果來自一項研究或匯總研究,則可能由于研究證據來源過少導致結果不準確;如果證據來自橫斷面研究,則這些研究可能難以確定時間關聯[27]。因此,未來的研究可繼續探討或開發更適用于傘狀評價的方法學質量評價工具,以提高傘狀評價制作嚴謹性。
3 小結
傘狀評價的研究范圍更廣,對某一研究領域的認識更為全面,制作高質量的傘狀評價可以將生物醫學專業中已發表的證據進行總結概括,提供廣泛的高概括綜述證據,證據不僅可以用于臨床治療決策方面,也可以用于某特定研究領域的發展評估以及對未來研究方向指導。研究者需要把握傘狀評價的制作要點以保證制作過程的嚴謹性,從而達到制作高質量傘狀評價的目的。
聲明 本研究不存在任何利益沖突。