系統評價通過全面收集符合納入與排除標準的證據來回答某個研究問題,并使用減少偏倚和隨機誤差的方法來提供可靠的研究結果、得出結論,幫助使用者做出決定[1]。通常可以將醫療衛生領域系統評價的研究問題解析為人群(population,P),干預(intervention,I),對照(comparison,C)和結果(outcome,O)。基于高質量隨機對照試驗進行系統評價是一種重要的循證醫學方法[2]。Cochrane系統評價為促進醫療衛生領域系統評價發展發揮重要作用,是醫療衛生系統評價的最高制訂標準[1,3-4]。隨著全球每年發表的系統評價快速增加,開始出現了大量研究問題重復甚至結論相互矛盾的系統評價或Meta分析[5-6]。這一現象在中國發表的研究中同樣存在,2016年的一項研究表明,中國學者發表的系統評價中有相當部分系統評價是缺乏創新的重復性工作[7]。同一科學問題重復開展低質量系統評價在一定程度上已經嚴重偏離了探索創新的科學研究本質,背離了面向世界科技前沿、面向經濟主戰場、面向國家重大需求、面向人民生命健康的科技發展方向,造成了我國寶貴研究資源的巨大浪費。
WHO對2000—2019年全球死亡原因的研究結果表明,心血管疾病在全球死亡原因(按死亡總人數排序)包括心血管疾病、呼吸系統疾病和新生兒疾病三大主題中排名第一,而腦卒中是心血管疾病的主要原因之一[8]。腦卒中不僅是造成我國城鄉居民死亡的最主要原因之一,并且在全球腦卒中造成的疾病負擔下降的同時我國仍然呈現增長趨勢,因此,腦卒中成為我國重大公共衛生問題[9-10]。對截至2015年我國發表的醫療衛生領域系統評價或Meta分析所涉及的科學問題進行分析,發現腦卒中這一科學問題發表的相關系統評價數量最多,高達235篇(235/2460,9.6%)[11],可以預料在腦卒中領域發表重復性研究的可能性比較高。目前,國內尚無研究關注系統評價的重復性問題,特別是中文系統評價與Cochrane系統評價之間的重復性問題。因此,本文選擇腦卒中這一重大公共衛生問題,同時也是重復性系統評價問題可能較為集中領域,圍繞中文系統評價與Cochrane系統評價重復評價問題開展深入研究。
1 資料與方法
1.1 納入與排除標準
納入標準:① 研究主題:腦卒中或卒中后功能障礙性疾病;② 研究類型:干預性系統評價。
排除標準:① 無法獲取全文的研究;② 重復發表文獻;③ 未進行系統檢索的Meta分析;④ 研究主題為腦卒中診斷、預后等不相關文獻(無法提取PICO信息);⑤ 計劃書、會議摘要、新聞、社論、評論、書籍等類型的研究;⑥ 非同行評審期刊發表的研究。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM和Cochrane Library數據庫,檢索時限均為2012年3月17日至2022年3月17日。Cochrane Library的文獻檢索限制在“heart & circulation”主題下的“stroke”,納入該板塊的所有文獻進行篩選。中文數據庫的檢索詞包括:腦卒中、腦血管栓塞、腦出血、卒中、腦血栓、腦血栓癥、腦血栓形成、中風、顱內血栓形成、系統評價、系統綜述、Meta分析、薈萃分析、網絡Meta分析等,使用主題詞與自由詞結合的形式檢索。具體檢索策略見附件1。
1.3 文獻篩選與資料提取
使用EndNote X9軟件剔除重復文獻,兩名研究人員為一組按照納入與排除標準獨立篩選文獻,通過閱讀文章標題和摘要進行初篩,再閱讀全文進行復篩,如有分歧,通過討論協商或咨詢質量控制人員解決。信息提取分兩輪進行。第一輪信息提取:兩名研究人員一組對納入的腦卒中干預性系統評價或Meta分析提取標題,發表期刊和PICO,由一名研究人員對第一輪提取的信息根據PICO進行重復性分析,當PICO均重復時認為研究是重復的,此部分研究主題重復的系統評價納入第二輪信息提取以進一步分析中、英文重復性系統評價的特點及發表時間的先后次序。需要說明的是,若研究關注一個人群的多個I、C或O,則兩篇研究有一組及以上相同的PICO可以認為是重復的。Cochrane系統評價通常關注多個P、I、C或O,因此,一篇Cochrane系統評價可能有多篇中文系統評價與之重復。第二輪信息提取正式開始之前,本文根據預先確定的信息提取表,選取3篇研究進行預實驗,當研究者之間的一致性良好時開始正式試驗。第二輪信息提取僅針對第一輪分析發現的重復的系統評價,本文提取了以下信息:① 基本信息包括:第一作者、第一作者單位、第一作者單位類型,發表期刊類型[中國科學引文數據庫(Chinese Science Citation Database,CSCD),北大核心期刊,既是CSCD也是北大核心期刊,兩者都不是],是否為更新版及第一版本發表時間;② 研究相關信息包括:是否撰寫計劃書、是否注冊、是否根據PRISMA(preferred reporting items for systematic reviews and meta analysis)報告研究、檢索的數據庫數量和種類、干預類型、是否進行Meta分析、Meta分析效應值名稱、Meta分析的具體結果、納入的原始研究類型、納入總體研究數量、納入的總體樣本含量。信息提取由6名研究人員分為3組獨立進行,每組分配等量的系統評價或Meta分析,如有分歧,通過討論協商或咨詢質量控制人員解決。
1.4 統計分析
采用Excel 2019軟件建立最終納入文獻的數據庫,以Cochrane系統評價為標準,按照研究的PICO分析中文系統評價與Cochrane系統評價重復的數量,計算重復性。并對重復性系統評價的研究信息進行描述性分析,計數資料采用絕對數和構成比描述。
2 結果
2.1 文獻篩選流程及結果
中文數據庫共檢索到中文系統評價4 664篇,包括CNKI(n=1 712),WanFang Data(n=1 200)和CBM(n=1 752),排除重復文獻2 334篇,閱讀標題和摘要排除649篇,納入中文系統評價1 681篇。Cochrane Library數據庫獲得Cochrane系統評價129篇,排除與腦卒中無關研究1篇、非干預性系統評價17篇,納入111篇Cochrane系統評價。提取1 792篇系統評價的PICO信息,在信息提取過程中閱讀全文排除非系統評價或與腦卒中無關的系統評價248篇、非干預性系統評價241篇。最終納入中文系統評價和Cochrane系統評價1 303篇,其中中文系統評價1 192篇,Cochrane系統評價111篇。
2.2 中文系統評價與Cochrane系統評價的重復性分析
對比1 192篇中文系統評價和111篇Cochrane系統評價的PICO,發現有128篇中文系統評價與29篇Cochrane系統評價重復(26.1%)。重復性中文系統評價和Cochrane系統評價的數量隨發表年份呈上升趨勢(圖1)。

2.3 重復性系統評價的基本特征
128篇中文系統評價,從發表期刊類型來看,多為非CSCD和非北大核心期刊(64篇,50.0%)。從報告的檢索時間看,有97篇(75.8%)未限制檢索時間,即檢索了建庫以來至研究開始的所有文獻。從作者數量來看,作者數量范圍在1~11位之間,中位數為5位。從作者所在單位來看,三級醫院的最多有64家(50.0%)。作者單位數量范圍為1~6,中位數為2。大多數研究有資金資助(70篇,54.7%),基本特征具體信息見表1。

29篇Cochrane系統評價,大部分研究未限制檢索時間(27篇,93.1%),檢索時段為建庫至研究開展時間。從作者所在單位來看,高校作者發表的最多(18篇,62.1%),作者單位數量在1~7位之間。從作者數量看,一篇Cochrane系統評價的作者數量在2~9位之間。大多數研究有資金資助(23篇,79.3%),基本特征具體信息見表1。
2.4 重復性系統評價的研究信息
128篇中文系統評價均未在文中報告注冊或撰寫計劃書。系統評價報告按照PRISMA要求開展研究的數量較少,僅有3篇(2.3%)。檢索所使用的數據庫數量最多為13個,最少為2個。檢索來源共涉及49個數據庫或網站,最常用的數據庫分別是CNKI、WanFang Data和PubMed,檢索所涉數據庫的具體情況見附件圖1。研究主題方面,關注“藥物(西藥)/生物制品”的最多(45篇,35.2%),關注“灸法/電刺激”和“中醫藥”主題的最少(1篇,0.8%)。125篇研究開展了Meta分析。系統評價納入研究類型數量為1~3個,納入研究類型最多的為隨機對照試驗(n=119)。納入研究數量區間為3~49,中位數為12,納入樣本量區間為60~68 924,中位數為936。結局指標數量范圍為1~38,中位數為4。中文系統評價的研究信息具體見表2。

29篇Cochrane系統評價中,22篇(75.9%)研究報告使用了PRISMA。有3篇研究關注了3個研究主題,1篇研究關注了2個主題,其余25篇研究只關注一個主題。關注研究主題最多的為“藥物(西藥)/生物制品”(11篇,37.9%)。在研究結果的匯總方面,28篇研究進行了Meta分析(96.6%)。從納入研究類型來看,24篇研究僅納入隨機對照試驗。納入研究數量范圍為1~72,中位數為20。納入樣本量范圍為66~42 226,中位數為1 889。結局指標數量范圍為1~186,中位數為10。Cochrane系統評價的研究信息具體見表2。
2.5 重復性系統評價的發表時間和結果指標
以Cochrane系統評價為標準,29篇Cochrane系統評價對應重復的中文系統評價有128篇,即有29組系統評價的PICO是重復的。對29組重復性系統評價的發表時間進行分析,發現大部分Cochrane系統評價發表時間晚于同一主題的中文系統評價(19/29,65.5%)。在Cochrane Library進一步檢索Cochrane系統評價的歷史版本確定更新版以及第一版發表時間,根據文中報告確定中文系統評價更新版以及第一版發表時間,29篇(100%)Cochrane系統評價均為更新版,然而,僅1篇中文系統評價為更新版,其第一版發表時間早于重復的Cochrane系統評價。因此,在29組不同研究問題的系統評價中,28篇(96.6%)Cochrane系統評價的第一版發表時間早于127篇中文系統評價。
大部分重復性系統評價的結論是相同的(24/29,82.8%),但是仍然有17.2%(5/29)的中文系統評價與Cochrane系統評價的結論相反,其中結論相反的系統評價發生數最多(2篇中文系統評價)的PICO為P:腦卒中后空間忽視,I:認知康復治療(視覺治療、心理治療、運動治療、身體意識治療、非侵入性腦刺激或電刺激),C:假刺激或不治療,O:身體意識、忽視改善情況、日常生活活動(Barthel指數評分)。分析29組中同一組內中文系統評價的結局指標數值,發現同一組內的中文系統評價結論均相同,5組中文系統評價與Cochrane系統評價結論相反的具體信息見表3。

2.6 重復性系統評價的研究主題
判斷系統評價重復性研究的主要依據是PICO是否重復,在29篇系統評價中,一篇Cochrane系統評價最少有1篇中文系統評價(9/29,31.0%)與其重復,最多有34篇中文系統評價(1/29,3.4%)與其重復。分析有34篇中文系統評價重復的Cochrane系統評價,該研究關注的PICO較多,分別關注了7個干預措施和12個結局指標,分別為P:中風后吞咽困難,I:吞咽治療(針灸、行為干預、藥物治療、神經肌電刺激、咽部電刺激、經顱直流電刺激、經顱磁刺激),C:安慰劑,O:死亡、殘疾、改良Rankin量表、Barthel指數、病死率、住院時間、受試者存在吞咽困難的比例、吞咽能力、滲透誤吸評分/肺炎、吞咽時間、營養、不良事件。重復的中文系統評價的中位數為3,大部分Cochrane系統評價(21/29,72.4%)有1~3篇對應重復的中文系統評價。
系統評價研究主題中重復最多的主題為“藥物(西藥)/生物制品”(56/157,35.7%)。總共有11組系統評價在“藥物(西藥)/生物制品”研究主題重復,關注了不同藥物的療效和安全性,每組研究對應的PICO情況具體見附件表1。對重復最多的研究主題進行分析,在“藥物(西藥)/生物制品”研究主題中,重復最多的PICO(16篇中文系統評價重復)為P:急性缺血性腦卒中,I:溶栓藥物(重組組織型纖溶酶原激活物靜脈溶栓、阿替普酶、蚓激酶),C:安慰劑或其他常規治療,O:死亡、獨立生活能力(改良Rankin評分)、顱內出血、水腫、全因死亡率、日常生活活動能力(Barthel指數)、神經功能缺損改善情況(美國國立衛生院卒中量表),其次(11篇中文系統評價重復)為P:腦卒中后抑郁,I:藥物治療(選擇性5-羥色胺再攝取抑制劑、鹽酸氟西汀、舍曲林、西酞普蘭、文拉法辛),C:安慰劑或常規治療,O:失訪、日常生活活動(簡易精神狀態檢查表、Barthel指數或改良的Barthel指數)、漢密爾頓抑郁量表評分、美國國立衛生研究院卒中量表、不良事件、死亡;再次(3篇中文系統評價重復)為P:缺血性腦卒中,I:胰島素,C:安慰劑、不治療或常規胰島素治療,O:死亡、病死率、感染率、血糖水平、神經功能缺損評分。
3 討論
研究發現,腦卒中干預性系統評價中至少26.1%的Cochrane系統評價研究主題存在中文系統評價與之重復,大部分(127/128,99.2%)中文系統評價的發表時間晚于Cochrane系統評價,重復性系統評價仍然呈現逐年增長趨勢。Cochrane系統評價檢索的數據庫、納入的研究數量、樣本量和關注的結局指標數量要明顯多于中文系統評價,中文系統評價中普遍存在未報告注冊、撰寫計劃書、檢索灰色文獻、聯系專家獲取文獻和手工檢索期刊等情況。
重復研究問題廣泛存在于醫療衛生領域系統評價研究中,本研究結果與既往研究結果一致。Naudet等[5]分析了醫學領域15個不同主題的Meta分析的重復研究,發現已發表的系統評價存在大量的重復情況,納入的88篇研究中有77%的研究至少有1篇研究與之重復。美國的一項研究對2010年發表的系統評價的重復性進行了調查,發現有67%的系統評價和往年發表的系統評價至少有1篇重復[6]。2021年日本的一項研究納入了涵蓋48個研究主題的57篇外科手術系統評價,發現60.4%(29/48)的研究主題存在重復性研究現象[12]。目前我國尚無研究機構/組織像Cochrane協作網一樣對系統評價的制作進行統一且嚴格的規范和引導,可能制約了我國系統評價的規范化和高質量發展。中國已成為全球發表系統評價數量最多的國家[7],我們應該重視到系統評價的重復研究問題,加強統一、嚴格的培訓,實現系統評價在我國的高質量發展。
中文重復性系統評價普遍存在未注冊、未撰寫計劃書等問題,Cochrane系統評價明確規定系統評價制訂過程中必須首先注冊和撰寫計劃書。這對于確保擬開展的研究主題適合進行Cochrane系統評價以及防止或減少重復性評價至關重要[1]。但是,我國無研究機構或學術組織專門對此做出明確強制性要求。盡管國內外學者在PROSPERO平臺系統評價注冊數量快速增加,但依舊存在注冊數量總體相對較小、檢索數據庫分布不均衡且數量相對較少、發表狀態滯后等問題,大部分國家或地區的學者對注冊和撰寫計劃書的認識普遍不夠,我國的學者依然存在這方面的問題[13]。從循證醫學的發展來看,注冊系統評價和撰寫計劃書可以幫助相關領域研究人員實時了解行業研究趨勢,強化研究過程的規范性、透明度和研究結果的可信度,最大程度減少研究資源的無謂浪費以及系統評價的發表偏倚[14-15]。因此,我國研究者應該進一步加強系統評價注冊和計劃書撰寫。
大部分重復性系統評價的結論方向是相同的,這種重復的驗證造成了研究資源的極大浪費。但也存在結論相反的情況,在29組重復的系統評價中有17.2%的系統評價結論方向相反,提供了不同證據結論。造成研究結論相反的原因可能是由于中文系統評價與Cochrane系統評價之間檢索數據庫和納入研究證據不同。我國的重復性系統評價與Cochrane系統評價相比,檢索不全面,使用數據庫數量普遍較少,未考慮納入灰色文獻,導致發表偏倚,使研究結果存在差異。既往研究發現我國系統評價研究普遍未檢索灰色文獻,2021年的一項研究發現僅有7%的系統評價的檢索策略是全面的,檢索了灰色文獻[16]。2016年對《中華急診醫學雜志》發表的系統評價進行文獻質量評價,發現64.5%的研究沒有采用補充檢索手段,并且83.95%的研究未考慮研究的發表狀態,即沒有考慮非公開發表的灰色文獻[17]。2015年一項使用AMSTAR評價系統評價的研究,發現僅有40.9%的系統評價提供了檢索詞,大多數文獻僅提供幾個關鍵詞或主題詞,使得文獻漏檢率大大提高,結果的可信度大幅降低,僅54.5%的系統評價提及電子數據庫檢索,但是未提供手工檢索及檢索灰色文獻[18]。2020年和2015年的2篇研究比較了Cochrane系統評價和非Cochrane系統評價,發現系統評價作者由于對納入文獻的判斷,實施文獻檢索、篩選等差異將導致同一臨床問題的系統評價納入資料之間存在顯著差異,導致結果效應值有差異[19-20]。在系統評價中納入未發表的數據至關重要,發表狀態與研究結果具有相關性,在系統評價中納入未發表的研究將對研究結果產生一定的影響[21]。以上研究結果與本研究結果一致,中文系統評價不注重檢索灰色文獻和補充檢索,檢索的數據庫數量尚不全面,這些都可能導致納入證據存在不足,得出結論與Cochrane系統評價結論存在差異。因此,我國研究者在制訂系統評價時需要注重檢索灰色文獻,而不只是關注期刊發表文獻。在29組研究中,同一組內研究問題相同的中文系統評價之間的結論方向是相同的,這一現象勢必會造成研究資源的浪費,但是我們也不能忽視這些結論方向相同的重復性中文系統評價關注的結局指標數量之間存在差異。因此,研究者需要比以往的系統評價以更廣泛的視角、納入更全面的證據來回答研究問題,避免就同一研究問題發表多篇系統評價。
大部分中文系統評價發表時間晚于Cochrane系統評價(第一版)發表時間,并且Cochrane系統評價均為更新版,僅一篇中文系統評價為更新版,其第一版發表時間早于Cochrane系統評價。Cochrane協作網對Cochrane系統評價的更新有明確的要求[22]。因此,本研究納入的Cochrane系統評價均為更新版。但是,對中文系統評價來說,無研究機構/學術組織對更新提出明確要求。中文系統評價研究者針對同一主題發表多篇系統評價,其原因不排除參考Cochrane協作網的更新原則,更新系統評價。系統評價研究者如果發現某一研究問題的已發表系統評價在檢索數據庫、納入研究、關注結局指標或檢索時間上可以進一步優化,更新系統評價不失為制作系統評價的一種方式[23]。需要注意的是,我國系統評價研究者在采用更新系統評價方式的同時也需要注重研究的創新性和提升研究質量,而不是低質量的重復。接近三分之一的Cochrane系統評價只有1篇中文系統評價與之重復,以中文為語種發表了該問題的研究,可以考慮研究者為了在中國推廣該研究問題的結果,方便中文語言研究者、政策制定者或醫療從業人員等使用。但是,中文系統評價研究者在制訂系統評價的各環節時應向最高質量的Cochrane系統評價看齊,保證研究質量,達到推廣目的。
本研究的局限性:首先,本研究以Cochrane系統評價為標準,以我國一項重大公共衛生問題—腦卒中為例,無法全面反應我國醫療衛生領域系統評價的重復發表情況。其次,中文系統評價只有一篇研究報告為更新版,但是不排除有些系統評價參考既往已發表系統評價的研究問題,對該研究問題進行了證據和結論的更新,彌補了既往研究的缺點,這部分研究雖然與此前系統評價的研究問題重復,但在一定程度上是有意義的更新,而不是簡單的重復,可能導致本研究忽視此類更新系統評價在重復性研究中的積極影響。
基于本研究的發現,對未來我國的系統評價研究工作提出以下三點建議:首先,建議系統評價制作者在制訂系統評價之前進行注冊并撰寫研究的計劃書,以發現已發表的或正在進行的相同或類似主題的系統評價,避免重復制作。其次,建議系統評價制作者檢索數據庫時盡可能全面,注意檢索灰色文獻作為補充,降低發表偏倚的可能性。最后,建議在醫療衛生領域廣泛宣傳和普及系統評價的概念和制訂流程,提高系統評價的認知和實施能力。通過以上三點建議,盡可能減少低質量重復性研究。
綜上所述,我國學者開展的系統評價工作存在不容忽視的重復性研究問題,在注冊、計劃書撰寫、文獻檢索、系統評價整體認知等方面缺少嚴格的規范和引導,造成極大的資源浪費,需要進一步加強規范約束和引導,堅持問題導向和質量意識,強化系統評價培訓,降低重復性研究。
聲明 本研究不存在任何利益沖突。
系統評價通過全面收集符合納入與排除標準的證據來回答某個研究問題,并使用減少偏倚和隨機誤差的方法來提供可靠的研究結果、得出結論,幫助使用者做出決定[1]。通常可以將醫療衛生領域系統評價的研究問題解析為人群(population,P),干預(intervention,I),對照(comparison,C)和結果(outcome,O)。基于高質量隨機對照試驗進行系統評價是一種重要的循證醫學方法[2]。Cochrane系統評價為促進醫療衛生領域系統評價發展發揮重要作用,是醫療衛生系統評價的最高制訂標準[1,3-4]。隨著全球每年發表的系統評價快速增加,開始出現了大量研究問題重復甚至結論相互矛盾的系統評價或Meta分析[5-6]。這一現象在中國發表的研究中同樣存在,2016年的一項研究表明,中國學者發表的系統評價中有相當部分系統評價是缺乏創新的重復性工作[7]。同一科學問題重復開展低質量系統評價在一定程度上已經嚴重偏離了探索創新的科學研究本質,背離了面向世界科技前沿、面向經濟主戰場、面向國家重大需求、面向人民生命健康的科技發展方向,造成了我國寶貴研究資源的巨大浪費。
WHO對2000—2019年全球死亡原因的研究結果表明,心血管疾病在全球死亡原因(按死亡總人數排序)包括心血管疾病、呼吸系統疾病和新生兒疾病三大主題中排名第一,而腦卒中是心血管疾病的主要原因之一[8]。腦卒中不僅是造成我國城鄉居民死亡的最主要原因之一,并且在全球腦卒中造成的疾病負擔下降的同時我國仍然呈現增長趨勢,因此,腦卒中成為我國重大公共衛生問題[9-10]。對截至2015年我國發表的醫療衛生領域系統評價或Meta分析所涉及的科學問題進行分析,發現腦卒中這一科學問題發表的相關系統評價數量最多,高達235篇(235/2460,9.6%)[11],可以預料在腦卒中領域發表重復性研究的可能性比較高。目前,國內尚無研究關注系統評價的重復性問題,特別是中文系統評價與Cochrane系統評價之間的重復性問題。因此,本文選擇腦卒中這一重大公共衛生問題,同時也是重復性系統評價問題可能較為集中領域,圍繞中文系統評價與Cochrane系統評價重復評價問題開展深入研究。
1 資料與方法
1.1 納入與排除標準
納入標準:① 研究主題:腦卒中或卒中后功能障礙性疾病;② 研究類型:干預性系統評價。
排除標準:① 無法獲取全文的研究;② 重復發表文獻;③ 未進行系統檢索的Meta分析;④ 研究主題為腦卒中診斷、預后等不相關文獻(無法提取PICO信息);⑤ 計劃書、會議摘要、新聞、社論、評論、書籍等類型的研究;⑥ 非同行評審期刊發表的研究。
1.2 文獻檢索策略
計算機檢索CNKI、WanFang Data、CBM和Cochrane Library數據庫,檢索時限均為2012年3月17日至2022年3月17日。Cochrane Library的文獻檢索限制在“heart & circulation”主題下的“stroke”,納入該板塊的所有文獻進行篩選。中文數據庫的檢索詞包括:腦卒中、腦血管栓塞、腦出血、卒中、腦血栓、腦血栓癥、腦血栓形成、中風、顱內血栓形成、系統評價、系統綜述、Meta分析、薈萃分析、網絡Meta分析等,使用主題詞與自由詞結合的形式檢索。具體檢索策略見附件1。
1.3 文獻篩選與資料提取
使用EndNote X9軟件剔除重復文獻,兩名研究人員為一組按照納入與排除標準獨立篩選文獻,通過閱讀文章標題和摘要進行初篩,再閱讀全文進行復篩,如有分歧,通過討論協商或咨詢質量控制人員解決。信息提取分兩輪進行。第一輪信息提取:兩名研究人員一組對納入的腦卒中干預性系統評價或Meta分析提取標題,發表期刊和PICO,由一名研究人員對第一輪提取的信息根據PICO進行重復性分析,當PICO均重復時認為研究是重復的,此部分研究主題重復的系統評價納入第二輪信息提取以進一步分析中、英文重復性系統評價的特點及發表時間的先后次序。需要說明的是,若研究關注一個人群的多個I、C或O,則兩篇研究有一組及以上相同的PICO可以認為是重復的。Cochrane系統評價通常關注多個P、I、C或O,因此,一篇Cochrane系統評價可能有多篇中文系統評價與之重復。第二輪信息提取正式開始之前,本文根據預先確定的信息提取表,選取3篇研究進行預實驗,當研究者之間的一致性良好時開始正式試驗。第二輪信息提取僅針對第一輪分析發現的重復的系統評價,本文提取了以下信息:① 基本信息包括:第一作者、第一作者單位、第一作者單位類型,發表期刊類型[中國科學引文數據庫(Chinese Science Citation Database,CSCD),北大核心期刊,既是CSCD也是北大核心期刊,兩者都不是],是否為更新版及第一版本發表時間;② 研究相關信息包括:是否撰寫計劃書、是否注冊、是否根據PRISMA(preferred reporting items for systematic reviews and meta analysis)報告研究、檢索的數據庫數量和種類、干預類型、是否進行Meta分析、Meta分析效應值名稱、Meta分析的具體結果、納入的原始研究類型、納入總體研究數量、納入的總體樣本含量。信息提取由6名研究人員分為3組獨立進行,每組分配等量的系統評價或Meta分析,如有分歧,通過討論協商或咨詢質量控制人員解決。
1.4 統計分析
采用Excel 2019軟件建立最終納入文獻的數據庫,以Cochrane系統評價為標準,按照研究的PICO分析中文系統評價與Cochrane系統評價重復的數量,計算重復性。并對重復性系統評價的研究信息進行描述性分析,計數資料采用絕對數和構成比描述。
2 結果
2.1 文獻篩選流程及結果
中文數據庫共檢索到中文系統評價4 664篇,包括CNKI(n=1 712),WanFang Data(n=1 200)和CBM(n=1 752),排除重復文獻2 334篇,閱讀標題和摘要排除649篇,納入中文系統評價1 681篇。Cochrane Library數據庫獲得Cochrane系統評價129篇,排除與腦卒中無關研究1篇、非干預性系統評價17篇,納入111篇Cochrane系統評價。提取1 792篇系統評價的PICO信息,在信息提取過程中閱讀全文排除非系統評價或與腦卒中無關的系統評價248篇、非干預性系統評價241篇。最終納入中文系統評價和Cochrane系統評價1 303篇,其中中文系統評價1 192篇,Cochrane系統評價111篇。
2.2 中文系統評價與Cochrane系統評價的重復性分析
對比1 192篇中文系統評價和111篇Cochrane系統評價的PICO,發現有128篇中文系統評價與29篇Cochrane系統評價重復(26.1%)。重復性中文系統評價和Cochrane系統評價的數量隨發表年份呈上升趨勢(圖1)。

2.3 重復性系統評價的基本特征
128篇中文系統評價,從發表期刊類型來看,多為非CSCD和非北大核心期刊(64篇,50.0%)。從報告的檢索時間看,有97篇(75.8%)未限制檢索時間,即檢索了建庫以來至研究開始的所有文獻。從作者數量來看,作者數量范圍在1~11位之間,中位數為5位。從作者所在單位來看,三級醫院的最多有64家(50.0%)。作者單位數量范圍為1~6,中位數為2。大多數研究有資金資助(70篇,54.7%),基本特征具體信息見表1。

29篇Cochrane系統評價,大部分研究未限制檢索時間(27篇,93.1%),檢索時段為建庫至研究開展時間。從作者所在單位來看,高校作者發表的最多(18篇,62.1%),作者單位數量在1~7位之間。從作者數量看,一篇Cochrane系統評價的作者數量在2~9位之間。大多數研究有資金資助(23篇,79.3%),基本特征具體信息見表1。
2.4 重復性系統評價的研究信息
128篇中文系統評價均未在文中報告注冊或撰寫計劃書。系統評價報告按照PRISMA要求開展研究的數量較少,僅有3篇(2.3%)。檢索所使用的數據庫數量最多為13個,最少為2個。檢索來源共涉及49個數據庫或網站,最常用的數據庫分別是CNKI、WanFang Data和PubMed,檢索所涉數據庫的具體情況見附件圖1。研究主題方面,關注“藥物(西藥)/生物制品”的最多(45篇,35.2%),關注“灸法/電刺激”和“中醫藥”主題的最少(1篇,0.8%)。125篇研究開展了Meta分析。系統評價納入研究類型數量為1~3個,納入研究類型最多的為隨機對照試驗(n=119)。納入研究數量區間為3~49,中位數為12,納入樣本量區間為60~68 924,中位數為936。結局指標數量范圍為1~38,中位數為4。中文系統評價的研究信息具體見表2。

29篇Cochrane系統評價中,22篇(75.9%)研究報告使用了PRISMA。有3篇研究關注了3個研究主題,1篇研究關注了2個主題,其余25篇研究只關注一個主題。關注研究主題最多的為“藥物(西藥)/生物制品”(11篇,37.9%)。在研究結果的匯總方面,28篇研究進行了Meta分析(96.6%)。從納入研究類型來看,24篇研究僅納入隨機對照試驗。納入研究數量范圍為1~72,中位數為20。納入樣本量范圍為66~42 226,中位數為1 889。結局指標數量范圍為1~186,中位數為10。Cochrane系統評價的研究信息具體見表2。
2.5 重復性系統評價的發表時間和結果指標
以Cochrane系統評價為標準,29篇Cochrane系統評價對應重復的中文系統評價有128篇,即有29組系統評價的PICO是重復的。對29組重復性系統評價的發表時間進行分析,發現大部分Cochrane系統評價發表時間晚于同一主題的中文系統評價(19/29,65.5%)。在Cochrane Library進一步檢索Cochrane系統評價的歷史版本確定更新版以及第一版發表時間,根據文中報告確定中文系統評價更新版以及第一版發表時間,29篇(100%)Cochrane系統評價均為更新版,然而,僅1篇中文系統評價為更新版,其第一版發表時間早于重復的Cochrane系統評價。因此,在29組不同研究問題的系統評價中,28篇(96.6%)Cochrane系統評價的第一版發表時間早于127篇中文系統評價。
大部分重復性系統評價的結論是相同的(24/29,82.8%),但是仍然有17.2%(5/29)的中文系統評價與Cochrane系統評價的結論相反,其中結論相反的系統評價發生數最多(2篇中文系統評價)的PICO為P:腦卒中后空間忽視,I:認知康復治療(視覺治療、心理治療、運動治療、身體意識治療、非侵入性腦刺激或電刺激),C:假刺激或不治療,O:身體意識、忽視改善情況、日常生活活動(Barthel指數評分)。分析29組中同一組內中文系統評價的結局指標數值,發現同一組內的中文系統評價結論均相同,5組中文系統評價與Cochrane系統評價結論相反的具體信息見表3。

2.6 重復性系統評價的研究主題
判斷系統評價重復性研究的主要依據是PICO是否重復,在29篇系統評價中,一篇Cochrane系統評價最少有1篇中文系統評價(9/29,31.0%)與其重復,最多有34篇中文系統評價(1/29,3.4%)與其重復。分析有34篇中文系統評價重復的Cochrane系統評價,該研究關注的PICO較多,分別關注了7個干預措施和12個結局指標,分別為P:中風后吞咽困難,I:吞咽治療(針灸、行為干預、藥物治療、神經肌電刺激、咽部電刺激、經顱直流電刺激、經顱磁刺激),C:安慰劑,O:死亡、殘疾、改良Rankin量表、Barthel指數、病死率、住院時間、受試者存在吞咽困難的比例、吞咽能力、滲透誤吸評分/肺炎、吞咽時間、營養、不良事件。重復的中文系統評價的中位數為3,大部分Cochrane系統評價(21/29,72.4%)有1~3篇對應重復的中文系統評價。
系統評價研究主題中重復最多的主題為“藥物(西藥)/生物制品”(56/157,35.7%)。總共有11組系統評價在“藥物(西藥)/生物制品”研究主題重復,關注了不同藥物的療效和安全性,每組研究對應的PICO情況具體見附件表1。對重復最多的研究主題進行分析,在“藥物(西藥)/生物制品”研究主題中,重復最多的PICO(16篇中文系統評價重復)為P:急性缺血性腦卒中,I:溶栓藥物(重組組織型纖溶酶原激活物靜脈溶栓、阿替普酶、蚓激酶),C:安慰劑或其他常規治療,O:死亡、獨立生活能力(改良Rankin評分)、顱內出血、水腫、全因死亡率、日常生活活動能力(Barthel指數)、神經功能缺損改善情況(美國國立衛生院卒中量表),其次(11篇中文系統評價重復)為P:腦卒中后抑郁,I:藥物治療(選擇性5-羥色胺再攝取抑制劑、鹽酸氟西汀、舍曲林、西酞普蘭、文拉法辛),C:安慰劑或常規治療,O:失訪、日常生活活動(簡易精神狀態檢查表、Barthel指數或改良的Barthel指數)、漢密爾頓抑郁量表評分、美國國立衛生研究院卒中量表、不良事件、死亡;再次(3篇中文系統評價重復)為P:缺血性腦卒中,I:胰島素,C:安慰劑、不治療或常規胰島素治療,O:死亡、病死率、感染率、血糖水平、神經功能缺損評分。
3 討論
研究發現,腦卒中干預性系統評價中至少26.1%的Cochrane系統評價研究主題存在中文系統評價與之重復,大部分(127/128,99.2%)中文系統評價的發表時間晚于Cochrane系統評價,重復性系統評價仍然呈現逐年增長趨勢。Cochrane系統評價檢索的數據庫、納入的研究數量、樣本量和關注的結局指標數量要明顯多于中文系統評價,中文系統評價中普遍存在未報告注冊、撰寫計劃書、檢索灰色文獻、聯系專家獲取文獻和手工檢索期刊等情況。
重復研究問題廣泛存在于醫療衛生領域系統評價研究中,本研究結果與既往研究結果一致。Naudet等[5]分析了醫學領域15個不同主題的Meta分析的重復研究,發現已發表的系統評價存在大量的重復情況,納入的88篇研究中有77%的研究至少有1篇研究與之重復。美國的一項研究對2010年發表的系統評價的重復性進行了調查,發現有67%的系統評價和往年發表的系統評價至少有1篇重復[6]。2021年日本的一項研究納入了涵蓋48個研究主題的57篇外科手術系統評價,發現60.4%(29/48)的研究主題存在重復性研究現象[12]。目前我國尚無研究機構/組織像Cochrane協作網一樣對系統評價的制作進行統一且嚴格的規范和引導,可能制約了我國系統評價的規范化和高質量發展。中國已成為全球發表系統評價數量最多的國家[7],我們應該重視到系統評價的重復研究問題,加強統一、嚴格的培訓,實現系統評價在我國的高質量發展。
中文重復性系統評價普遍存在未注冊、未撰寫計劃書等問題,Cochrane系統評價明確規定系統評價制訂過程中必須首先注冊和撰寫計劃書。這對于確保擬開展的研究主題適合進行Cochrane系統評價以及防止或減少重復性評價至關重要[1]。但是,我國無研究機構或學術組織專門對此做出明確強制性要求。盡管國內外學者在PROSPERO平臺系統評價注冊數量快速增加,但依舊存在注冊數量總體相對較小、檢索數據庫分布不均衡且數量相對較少、發表狀態滯后等問題,大部分國家或地區的學者對注冊和撰寫計劃書的認識普遍不夠,我國的學者依然存在這方面的問題[13]。從循證醫學的發展來看,注冊系統評價和撰寫計劃書可以幫助相關領域研究人員實時了解行業研究趨勢,強化研究過程的規范性、透明度和研究結果的可信度,最大程度減少研究資源的無謂浪費以及系統評價的發表偏倚[14-15]。因此,我國研究者應該進一步加強系統評價注冊和計劃書撰寫。
大部分重復性系統評價的結論方向是相同的,這種重復的驗證造成了研究資源的極大浪費。但也存在結論相反的情況,在29組重復的系統評價中有17.2%的系統評價結論方向相反,提供了不同證據結論。造成研究結論相反的原因可能是由于中文系統評價與Cochrane系統評價之間檢索數據庫和納入研究證據不同。我國的重復性系統評價與Cochrane系統評價相比,檢索不全面,使用數據庫數量普遍較少,未考慮納入灰色文獻,導致發表偏倚,使研究結果存在差異。既往研究發現我國系統評價研究普遍未檢索灰色文獻,2021年的一項研究發現僅有7%的系統評價的檢索策略是全面的,檢索了灰色文獻[16]。2016年對《中華急診醫學雜志》發表的系統評價進行文獻質量評價,發現64.5%的研究沒有采用補充檢索手段,并且83.95%的研究未考慮研究的發表狀態,即沒有考慮非公開發表的灰色文獻[17]。2015年一項使用AMSTAR評價系統評價的研究,發現僅有40.9%的系統評價提供了檢索詞,大多數文獻僅提供幾個關鍵詞或主題詞,使得文獻漏檢率大大提高,結果的可信度大幅降低,僅54.5%的系統評價提及電子數據庫檢索,但是未提供手工檢索及檢索灰色文獻[18]。2020年和2015年的2篇研究比較了Cochrane系統評價和非Cochrane系統評價,發現系統評價作者由于對納入文獻的判斷,實施文獻檢索、篩選等差異將導致同一臨床問題的系統評價納入資料之間存在顯著差異,導致結果效應值有差異[19-20]。在系統評價中納入未發表的數據至關重要,發表狀態與研究結果具有相關性,在系統評價中納入未發表的研究將對研究結果產生一定的影響[21]。以上研究結果與本研究結果一致,中文系統評價不注重檢索灰色文獻和補充檢索,檢索的數據庫數量尚不全面,這些都可能導致納入證據存在不足,得出結論與Cochrane系統評價結論存在差異。因此,我國研究者在制訂系統評價時需要注重檢索灰色文獻,而不只是關注期刊發表文獻。在29組研究中,同一組內研究問題相同的中文系統評價之間的結論方向是相同的,這一現象勢必會造成研究資源的浪費,但是我們也不能忽視這些結論方向相同的重復性中文系統評價關注的結局指標數量之間存在差異。因此,研究者需要比以往的系統評價以更廣泛的視角、納入更全面的證據來回答研究問題,避免就同一研究問題發表多篇系統評價。
大部分中文系統評價發表時間晚于Cochrane系統評價(第一版)發表時間,并且Cochrane系統評價均為更新版,僅一篇中文系統評價為更新版,其第一版發表時間早于Cochrane系統評價。Cochrane協作網對Cochrane系統評價的更新有明確的要求[22]。因此,本研究納入的Cochrane系統評價均為更新版。但是,對中文系統評價來說,無研究機構/學術組織對更新提出明確要求。中文系統評價研究者針對同一主題發表多篇系統評價,其原因不排除參考Cochrane協作網的更新原則,更新系統評價。系統評價研究者如果發現某一研究問題的已發表系統評價在檢索數據庫、納入研究、關注結局指標或檢索時間上可以進一步優化,更新系統評價不失為制作系統評價的一種方式[23]。需要注意的是,我國系統評價研究者在采用更新系統評價方式的同時也需要注重研究的創新性和提升研究質量,而不是低質量的重復。接近三分之一的Cochrane系統評價只有1篇中文系統評價與之重復,以中文為語種發表了該問題的研究,可以考慮研究者為了在中國推廣該研究問題的結果,方便中文語言研究者、政策制定者或醫療從業人員等使用。但是,中文系統評價研究者在制訂系統評價的各環節時應向最高質量的Cochrane系統評價看齊,保證研究質量,達到推廣目的。
本研究的局限性:首先,本研究以Cochrane系統評價為標準,以我國一項重大公共衛生問題—腦卒中為例,無法全面反應我國醫療衛生領域系統評價的重復發表情況。其次,中文系統評價只有一篇研究報告為更新版,但是不排除有些系統評價參考既往已發表系統評價的研究問題,對該研究問題進行了證據和結論的更新,彌補了既往研究的缺點,這部分研究雖然與此前系統評價的研究問題重復,但在一定程度上是有意義的更新,而不是簡單的重復,可能導致本研究忽視此類更新系統評價在重復性研究中的積極影響。
基于本研究的發現,對未來我國的系統評價研究工作提出以下三點建議:首先,建議系統評價制作者在制訂系統評價之前進行注冊并撰寫研究的計劃書,以發現已發表的或正在進行的相同或類似主題的系統評價,避免重復制作。其次,建議系統評價制作者檢索數據庫時盡可能全面,注意檢索灰色文獻作為補充,降低發表偏倚的可能性。最后,建議在醫療衛生領域廣泛宣傳和普及系統評價的概念和制訂流程,提高系統評價的認知和實施能力。通過以上三點建議,盡可能減少低質量重復性研究。
綜上所述,我國學者開展的系統評價工作存在不容忽視的重復性研究問題,在注冊、計劃書撰寫、文獻檢索、系統評價整體認知等方面缺少嚴格的規范和引導,造成極大的資源浪費,需要進一步加強規范約束和引導,堅持問題導向和質量意識,強化系統評價培訓,降低重復性研究。
聲明 本研究不存在任何利益沖突。