數(shù)據(jù)庫研究 | 社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫
- 2019-05-07
- 萌泰科技 洪丹丹
研究數(shù)據(jù)的重要性
隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,研究數(shù)據(jù)的發(fā)布、傳播變得越來越容易。以往科學(xué)出版中,只重視科研過程的最終產(chǎn)出——科學(xué)論文,忽視了支撐科學(xué)結(jié)論的研究數(shù)據(jù)。然而研究數(shù)據(jù)的利用不僅能夠?qū)υ撐恼擖c(diǎn)做真?zhèn)舞b定,更重要的是它能夠促進(jìn)更多科學(xué)產(chǎn)出,如芝加哥大學(xué)的綜合社會調(diào)查( General Social Survey,GSS) 數(shù)據(jù)被超過14 000個研究項(xiàng)目使用。為了促進(jìn)研究數(shù)據(jù)的利用,《科學(xué)》雜志要求論文相關(guān)的數(shù)據(jù)和材料可以被讀者獲取;自然出版集團(tuán)也于2014年推出了 Scientific Data,幫助研究者出版、發(fā)現(xiàn)、重用研究數(shù)據(jù)。因此,越來越多的研究數(shù)據(jù)倉儲被建立起來,如美國哈佛大學(xué)的 Dataverse、密歇根大學(xué)的 ICPSR、約翰·霍普金斯大學(xué)的 Data Conservancy,英國開放知識基金會構(gòu)建的CKAN和Datahub,國內(nèi)復(fù)旦大學(xué)的社會科學(xué)數(shù)據(jù)平臺、中國科學(xué)院的科學(xué)數(shù)據(jù)云、商業(yè)性數(shù)據(jù)共享交易平臺——數(shù)據(jù)堂。截至目前,在國際研究數(shù)據(jù)倉儲注冊系統(tǒng) re3data.org中注冊的倉儲數(shù)量達(dá)2000個分布于全球60多個國家。
Dataverse
Dataverse為哈佛大學(xué)定量社會科學(xué)研究所(IQSS) 數(shù)據(jù)科學(xué)團(tuán)隊(duì)研發(fā)的研究數(shù)據(jù)管理系統(tǒng)。該系統(tǒng)的開發(fā)始于2006年,最初主要聚焦于社會科學(xué)數(shù)據(jù)管理,后引入了天文學(xué)、天體物理、生物醫(yī)學(xué)等學(xué)科數(shù)據(jù),目前已經(jīng)支持人文與社會科學(xué)、地理空間、天文與天體物理、生命科學(xué)、政治學(xué)等 12 種元數(shù)據(jù)方案。2012年,IQSS將Dataverse開源,隨后許多機(jī)構(gòu),如復(fù)旦大學(xué)、約翰·霍普金斯大學(xué)、挪威大學(xué)、海德堡大學(xué)等采用 Dataverse作為數(shù)據(jù)管理服務(wù)系統(tǒng)。
(1)數(shù)據(jù)管理 Dataverse
數(shù)據(jù)管理中定義了3個重要實(shí)體: 數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件。數(shù)據(jù)空間是一個虛擬容器實(shí)體,支持嵌套,整個數(shù)據(jù)空間可形成一棵倒立樹形結(jié)構(gòu)。數(shù)據(jù)空間可以對應(yīng)著組織機(jī)構(gòu)、研究項(xiàng)目、研究者、期刊、教學(xué)課程等,與機(jī)構(gòu)的組織架構(gòu)接近,便于將數(shù)據(jù)集按機(jī)構(gòu)部門、研究項(xiàng)目分門別類地組織。數(shù)據(jù)集是一個完整的、不可分隔的資源集合,研究者可以依據(jù)數(shù)據(jù)集提供的信息做出分析判斷,它依存于一個數(shù)據(jù)空間,在數(shù)據(jù)空間中可以包含0個或者多個數(shù)據(jù)集。數(shù)據(jù)文件是數(shù)據(jù)集的組成部分,是Dataverse中管理的最小粒度實(shí)體對象,它可以是說明文檔、Excel文件、調(diào)查問卷等任何格式的文件。數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件的結(jié)構(gòu)見圖。圖 1 Dataverse 數(shù)據(jù)組織結(jié)構(gòu)
(2)用戶管理
在數(shù)據(jù)管理過程中,需要為不同用戶群體提供不同服務(wù),因此 Dataverse 引入了用戶組概念——可以根據(jù)用戶的來源、管理員的控制對用戶分組管理。用戶組由組管理器管理,其中包含多個實(shí)現(xiàn)了Group Provider 的組提供者。在Dataverse中包含的用戶組有: 所有用戶、認(rèn)證用戶組、Shibboleth 用戶組 、IP 用戶組、自定義用戶組。(3)權(quán)限管理
數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件的創(chuàng)建、完善和分享是一個協(xié)作過程,不同的成員應(yīng)具有不同操作權(quán)限,Dataverse對數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件定義了13種訪問控制權(quán)限,可分為4類,包括:創(chuàng)建權(quán)限、讀取權(quán)限、更新權(quán)限、刪除權(quán)限。一個用戶可具有多種操作權(quán)限,在Dataverse中,多種權(quán)限的組合定義為角色。當(dāng)用戶被賦予了角色時,則具有了角色所包含的權(quán)限。(4)檢索服務(wù)
Dataverse 使用Solr對數(shù)據(jù)進(jìn)行索引,索引對象包括數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件。Dataverse能夠?qū)SV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件進(jìn)行處理,提取其中的變量名和變量標(biāo)簽,因此它們也將作為數(shù)據(jù)文件的元數(shù)據(jù)信息而被索引。檢索服務(wù)可分為簡單檢索和高級檢索。簡單檢索將搜索所有字段,并返回匹配的數(shù)據(jù)空間、數(shù)據(jù)集和數(shù)據(jù)文件; 高級檢索將對指定字段進(jìn)行搜索,相同數(shù)據(jù)對象的搜索字段采用 AND關(guān)系連接,不同數(shù)據(jù)對象的搜索字段采用OR關(guān)系連接。(5)API接口
Dataverse 提供多種 API 接口,包括SWORD API、Native API、Search API、Data Access API。SWORD是一個輕量級的內(nèi)容存放協(xié)議,使用 SWORD協(xié)議可以使得非 Dataverse系統(tǒng)將數(shù)據(jù)存放至 Dataverse 中。Dataverse 實(shí)現(xiàn)了SWORDv2的絕大多數(shù)功能,可以使用SWORD API創(chuàng)建、刪除、查看、發(fā)布數(shù)據(jù)集,添加、刪除文件。SWORD協(xié)議的開放性,使得Dataverse可以與其他系統(tǒng)具有較好的交互能力。(6)在線分析
社會科學(xué)領(lǐng)域有大量的調(diào)查統(tǒng)計(jì)數(shù)據(jù),并以標(biāo)準(zhǔn)的格式(如Excel、Stata、SPSS等)存儲,對這些數(shù)據(jù)進(jìn)行在線分析是研究數(shù)據(jù)管理系統(tǒng)的一個重要功能。諸如IPSR和Nesstar 等系統(tǒng)均有在線分析功能,Dataverse 起源于社會科學(xué)數(shù)據(jù)管理,因此也有很強(qiáng)的在線分析功能IQSS數(shù)據(jù)科學(xué)團(tuán)隊(duì)除了開發(fā)Dataverse系統(tǒng)外,還開發(fā)了Zelig和Two Ravens 兩個產(chǎn)品。Zelig是一個R語言統(tǒng)計(jì)框架,用于為大量R語言編寫的模型提供一個公共接口。Two Ravens是一個數(shù)據(jù)探索、統(tǒng)計(jì)分析、模型構(gòu)建、元數(shù)據(jù)分析的Web應(yīng)用工具。Dataverse使用Two Ravens和Zelig 對數(shù)據(jù)集進(jìn)行在線分析,Dataverse 中的數(shù)據(jù)傳入到 Two Ravens 中Two Ravens 再利用Zelig等R語言包對數(shù)據(jù)進(jìn)行分析,建模。
社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫
國內(nèi)對研究數(shù)據(jù)管理服務(wù)做了許多積極探索。在倉儲建設(shè)方面,從20世紀(jì)80年代開始,中國科學(xué)院便對科學(xué)數(shù)據(jù)管理進(jìn)行了探索,目前已經(jīng)建成了具有分布式海量存儲環(huán)境的科學(xué)數(shù)據(jù)云;武漢大學(xué)圖書館于2011年基于DSpace嘗試在校內(nèi)開展科學(xué)數(shù)據(jù)管理服務(wù);中國科學(xué)院文獻(xiàn)情報中心基于機(jī)構(gòu)知識庫探索對非文本信息的管理;復(fù)旦大學(xué)基于Dataverse 3.3開展社會科學(xué)數(shù)據(jù)的管理服務(wù)。為了支持科學(xué)研究,促進(jìn)學(xué)術(shù)交流,推動開放獲取,實(shí)現(xiàn)研究數(shù)據(jù)的有效管理,萌泰科技積極探索建設(shè)社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫,社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫是來自于國家統(tǒng)計(jì)局、各級統(tǒng)計(jì)機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)、商業(yè)機(jī)構(gòu)公開的統(tǒng)計(jì)調(diào)查數(shù)據(jù)的集合。數(shù)據(jù)庫包括中國人口、就業(yè)、生活、社會服務(wù)、文化、公共管理、環(huán)境等多個與社會科學(xué)緊密聯(lián)系的相關(guān)數(shù)據(jù),并提供靈活方便的數(shù)據(jù)檢索服務(wù)。
社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫為學(xué)者提供更具競爭力的研究條件和數(shù)據(jù)服務(wù),為學(xué)生提供更加堅(jiān)實(shí)的社會科學(xué)調(diào)查方法和應(yīng)用訓(xùn)練,鼓勵跨學(xué)科的研究,建設(shè)有中國特色的社會科學(xué)數(shù)據(jù)平臺。
- 上海萌泰數(shù)據(jù)科技助力湘南學(xué)院教育創(chuàng)新,李軍博士主講《作為研究方法的人工智能》
- 上海市社會工作研究會2024年學(xué)術(shù)年會暨第二屆長三角金融社會工作論壇在滬舉行
- 人工智能如何改變社會科學(xué)的面貌?——AI與社會科學(xué)的學(xué)術(shù)對話紀(jì)實(shí)(下)
- 人工智能如何改變社會科學(xué)的面貌?——AI與社會科學(xué)的學(xué)術(shù)對話紀(jì)實(shí)(上)
- 校企協(xié)同 | 浙江越秀外國語學(xué)院到訪上海萌泰數(shù)據(jù)
- 2024年(第十六屆)國際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計(jì)研究會年會在哈爾濱商業(yè)大學(xué)成功舉辦
- 全面深化改革與中國社會學(xué)新征程:中國社會學(xué)會2024年學(xué)術(shù)年會在哈爾濱工程大學(xué)舉行