時間:2021年04月29日 分類:農業論文 次數:
摘要:[目的/意義]隨著數據技術的進步,圍繞科學數據集進行的管理和研究工作均受到廣泛關注?茖W數據集復用可以使科學數據資源得到有效地開發和利用,實現科學數據集價值最大化。本文著眼于科研人員數據集復用行為,探索其特征和偏好,以期為科研人員復用數據集、科研機構進行科學數據管理和數據服務提供參考。[方法/過程]文章運用文獻計量方法從多個維度統計分析PubMedCentral的OpenAccess文獻中科學數據集復用行為的特征規律,并對高頻復用的科學數據集和文獻的被引情況進行解析。[結果/結論]研究結果表明:生物醫學領域科研人員數據集復用現象較為普遍;相對于沒有數據集復用的文獻,有數據集復用的文獻被引量更高;數據集的復用頻率和論文影響力之間存在顯著的正向相關關系,說明復用已廣泛使用的科學數據集除了能夠減輕其數據獲取的負擔,還能夠在一定程度上擴大研究成果的影響力。此外,共享科學數據集也可以為數據集提供者帶來相應的引文和學術聲譽收益。
關鍵詞:數據復用;科學數據集;生物醫學;文獻計量;信息抽取
2009年微軟曾在《Science:科學研究的第四種范式》論文集中提出,在諸多學科中,科學研究范式已經由基于假設的研究(實驗、理論、仿真)向基于探索的研究——數據密集型計算(ataIntensive)進行演變[1]。在此之后,通過探索和挖掘數據以獲取所需信息逐漸成為科學研究的趨勢。
生物方向評職知識:生物醫學工程研究是什么期刊
越來越多的科研人員開始意識到研究數據能夠為后期的科研工作提供原始資料,而且成為科研活動的重要產出之一。作為科學文獻中使用的數據集合,科學數據集是當今時代學術資源開放存取的重要組成部分,也是數據公開共享的重要內容。合理利用開放的科學數據集將會為個人和社會帶來巨大的效益和回報,包括數據重復搜集過程的減少、科研效率的提高以及科研產出的增加[2]。
工程學[3]、社會科學[47]、健康科學[8]、生物學[9]等領域科研人員的科學數據集復用實踐均有較為長遠的歷史,關于科研人員數據集復用行為的研究成果日益豐富。近年來,相關學者主要從以下視角對科學數據的復用展開研究。①數據復用的影響因素。文靜等[10]、李佳潞[11]和魏銀珍等[12]對不同研究領域的科研人員數據復用意愿的影響因素進行了探究。Kim等[13]結合制度理論和計劃行為理論制定了一個綜合的理論框架,探索了影響科學家數據復用行為的因素。
Yoon等[14]從復用者的角度出發,采用定量方法探討了數據復用中的正向影響因素。②數據復用的使用意愿和感受。Renata等[15]結合理性行為理論,使用DataONE的全球科學家調查報告,從科學家自我評估的角度研究其復用數據的信念、態度與復用行為之間的關系。Fanie等[16]利用信息系統和信息科學領域的文獻構建了一個模型來探討數據質量和數據復用者滿意度之間的關系。③數據復用的政策研究。孫浩和陳美[17]從政策法規的角度調查了荷蘭政府開放數據的政策支持和法律保障,為我國政府開放數據提供參考。鄧靈斌[18]運用文獻調研和綜合分析等方法,闡述《數據安全法(草案)》的制訂歷程、主要內容、亮點與特色以及有待完善之處,并對我國圖書情報界提出對策和建議。④數據復用的標準制定。
《醫學圖書館協會雜志》(JapanMedicalLibraryAssociation,JMLA)制定并從2019年10月日起開始實施了一項數據共享政策,該政策有利于提高已發表研究的嚴謹性和可重復性,實現數據復用并促進開放科學[19]。RoaMartinez等[20]提出一種基于數據集元數據的元素定義通用結構,為各種角色的專家學者識別、共享和評估數據復用提供服務。Abella[21]結合BernersLee的星級模型和其他因素評估了巴塞羅那開放數據門戶網站上數據集的質量。圖書情報機構也制定了一系列標準和方案,如數據類型和格式標準(如PRONOM1,ResearchDataAlliance2)、元數據方案(如schema.org)[22]。
其他學者從數據集復用行為的模型和框架[23]、道德準則[24]、復用收益[25]等方面為數據集復用提供了相應的理論與實踐支持,以保證數據集的完整性、真實性、合理性和有效性,實現數據的可持續使用。鑒于目前國內外關于科學數據集復用識別及復用特征探究的研究較少,為進一步補充現有研究,本文首先基于規則自動識別出生物醫學領域科學文獻中的科學數據集,然后根據科研人員復用數據集的行為特征和偏好,探索數據集的可靠性以及學術影響,以期為科研人員復用數據以及科研機構進行科學數據管理和數據服務提供參考。
1數據收集與處理
1.1數據來源
本文從NCBI中的PubMedCentral(PMC)開放獲取子集(OpenAccess)采集文獻全文并識別其中的科學數據集。NCBI(NationalCenterforBiotechnologyInformation)是美國國家生物技術信息中心,隸屬于美國國立衛生研究院下設的國家醫學圖書館,不僅擁有大約40個在線文獻和分子生物學數據庫,也提供在線生物醫學信息和生物信息學工具。PMC是包含了生物醫學和生命科學期刊文獻的數字信息中心,其中的開放獲取子集允許用戶通過服務接口批量檢索并下載文獻集合進行文本挖掘。本文通過PMC提供的FTP服務接口批量下載了2020年之前的文件包,根據索引文件獲取文獻的基本信息,然后提取本地文件包中NXML格式的全文文獻,獲得2687283篇文獻。
1.2基于規則的科學數據集識別
在2687283篇文獻的基礎上,本文選擇具有代表性且格式規范的GeneExpressionOmnibus(GEO)、RefSeq、Assembly和ClinVar數據庫,獲取文獻并識別出文獻中的數據集。CBI已為這個數據庫中的科學數據集分配唯一標識符——登錄號,并允許通過登錄號的整數擴展跟蹤記錄的更改版本。
在科學數據集識別結果的基礎上,根據規則深入解讀NISOJATS1.2期刊文獻標簽集,挖掘并獲取存在科學數據集利用行為的文獻信息,包括文獻所在期刊名稱、文獻類型、作者、出版年份等。為獲取復用的數據集以及所在文獻的相關信息,本文統計了同一數據集在有數據集利用行為的文獻中出現的次數,并按照數量降序排列,去除數量為的數據集及相關記錄,余下11242個復用的數據集、77189篇有數據集復用行為的文獻,以此作為后續數據集復用特征研究的基礎。
2科學數據集復用特征分析
2.1數據集復用時間特征分析
分析生物醫學領域有科學數據集復用行為的文獻及文獻中復用的科學數據集,其時間分布特征展示如下:①數據集復用最早可追溯至1999年D.MEckley等的研究,該研究參考了最早由M.D.Welch等[26]提及的NP_005712肌動蛋白相關蛋白同源物的序列,使用生化、超微結構和分子克隆技術分解了強肌動蛋白,獲取其蛋白結構和序列組成,并將實驗數據集提交至NCBI;②200年,只有%的數據集得到了復用,而在20年,這一比例達到了51%。
、劢陙,數據集的數量和論文數量都在迅速增長,得到復用的數據集增長速度更快,說明單篇文獻中數據集數量增加;④2006年以后,生物醫學領域科學數據集復用呈線性高速增長趨勢,這與近10余年來從知識范式到數據范式的數據科學發展時間歷程基本吻合,一定程度上反映出開放科學環境下數據集復用的蓬勃發展之勢。具體如圖所示。
2.2期刊的研究領域分析
本文以中科院文獻情報中心2019年期刊分區表(簡稱中科院分區表)為基準了解期刊的研究領域并評估其影響力。中科院分區表是在各學科內依據年平均影響因子對湯森路透每年度發布的SCI期刊劃分分區。它包括大類分區(及Top期刊)和小類分區:大類是參考國內高校依據國務院學位辦分類體系,結合SCI覆蓋內容設計形成;小類則借用JCR學科分類體系,并對JCR中期刊刊名更名合并的情況進行了規范處理。
經過統計發現,存在數據集復用的文獻共發表在2314種期刊上。按期刊發文量降序排列,排名前100的期刊占論文總數的72%,其中包含89本SCI期刊。使用中科院分區表對89本SCI期刊的研究領域進行統計,期刊大類包含工程技術、化學、環境科學與生態學、農林科學、生物、醫學和綜合性期刊。其中環境科學與生態學、生物、醫學、綜合性期刊都包含Top期刊。生物區的Top期刊數量最多,為數據集復用提供了較大的平臺,而環境科學與生態學、綜合性Top期刊出現在統計結果中,說明了生物醫學領域數據集復用的跨學科性。
3結論
本文首先通過規則自動識別PMC開放獲取子集文獻中帶有利用頻次的數據集,去除利用次數為的數據集,以余下311242條復用的數據集、7718篇文獻為研究樣本,運用文獻計量方法從多個維度揭示科研人員數據集利用行為的特征規律,并對高頻復用的科學數據集和文獻被引情況進行了解析,得出以下結論:
1)生物醫學領域復用數據集的現象逐漸頻繁。數據集復用行為最早可追溯至1999年,數據集復用高度集中分布于2006—2019年,2017年以后PMC數據集復用數量高速增長。相對于發表年限較長的文獻,在近期發表的文獻中科研人員更愿意公開、清晰地展示相關數據集,以提供測試樣本的數據來源。
2)存在數據集復用行為的文獻呈現出一定的學科特征,復用數據集的類別較為集中。遺傳學和腫瘤學研究受到的關注度更高,且研究內容和研究方法的學科交叉性較為明顯。得到復用的數據集大多是基因組、轉錄本和蛋白序列記錄的集合。
3)數據復用有助于擴大研究的影響力?蒲腥藛T利用復用頻率較高的科學數據集可能會增加文獻的被引頻次,從而在一定程度上擴大文獻的影響力,同時也可以為數據集提供者帶來更高的數據集利用收益和引文收益。
本文作為生物醫學領域數據復用探索性研究的一步,其結論不僅可以為數據管理和服務提供依據,還可以為后續的研究提供素材,但難免存在一些不足:僅以生物醫學領域為例,使用文獻計量方法進行研究,無法深入分析數據集的內容信息,在以后的工作中將會從其他角度繼續挖掘科研人員復用數據集的行為規律。
參考文獻
[1]Thefourthparadigm:dataintensivescientificdiscovery[EB/OL][20200926]. http://research.Microsoft.com/enus/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf
[2]涂志芳.科學數據出版的基礎問題綜述與關鍵問題識別[J].圖書館,2018,285(6):9096,104.
[3]JOOYK,KIMY,BLOECHLEM.Engineeringresearchers’datareusebehaviours:astructuralequationmodellingapproach[J].ElectronicLibrary,2017,35(6):11411161.
[4]YOONA,KIMY.Socialscientists’datareusebehaviors:Exploringtherolesofattitudinalbeliefs,attitudes,norms,anddatarepositories[J].Library&InformationScienceResearch,2017,39(3):224233.
[5]FANIELIM,FRANKRD,YAKELE.Contextfromthedatareuser’spointofview[J].JournalofDocumentation,2019,75(6):12741297.
作者:焦紅,楊波,周琪