精品精品国产理论在线 - 全国亚洲最大的av网站久久久 - 国产不卡视频一区二区三区四区 - 亚洲一区二区观看播放

數(shù)據(jù)庫研究 | 社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫

2019-05-07
萌泰科技 洪丹丹
摘要:社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫是來自于國家統(tǒng)計(jì)局、各級統(tǒng)計(jì)機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)、商業(yè)機(jī)構(gòu)公開的統(tǒng)計(jì)調(diào)查數(shù)據(jù)的集合。數(shù)據(jù)庫包括中國人口、就業(yè)、生活、社會服務(wù)、文化、公共管理、環(huán)境等與社會科學(xué)緊密聯(lián)系的相關(guān)的數(shù)據(jù),并提供靈活方便的數(shù)據(jù)檢索服務(wù)
社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫是來自于國家統(tǒng)計(jì)局、各級統(tǒng)計(jì)機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)、商業(yè)機(jī)構(gòu)公開的統(tǒng)計(jì)調(diào)查數(shù)據(jù)的集合。數(shù)據(jù)庫包括中國人口、就業(yè)、生活、社會服務(wù)、文化、公共管理、環(huán)境等與社會科學(xué)緊密聯(lián)系的相關(guān)的數(shù)據(jù),并提供靈活方便的數(shù)據(jù)檢索服務(wù)

研究數(shù)據(jù)的重要性

隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,研究數(shù)據(jù)的發(fā)布、傳播變得越來越容易。以往科學(xué)出版中,只重視科研過程的最終產(chǎn)出——科學(xué)論文,忽視了支撐科學(xué)結(jié)論的研究數(shù)據(jù)。然而研究數(shù)據(jù)的利用不僅能夠?qū)υ撐恼擖c(diǎn)做真?zhèn)舞b定,更重要的是它能夠促進(jìn)更多科學(xué)產(chǎn)出,如芝加哥大學(xué)的綜合社會調(diào)查( General Social Survey,GSS) 數(shù)據(jù)被超過14 000個研究項(xiàng)目使用。為了促進(jìn)研究數(shù)據(jù)的利用,《科學(xué)》雜志要求論文相關(guān)的數(shù)據(jù)和材料可以被讀者獲取;自然出版集團(tuán)也于2014年推出了 Scientific Data,幫助研究者出版、發(fā)現(xiàn)、重用研究數(shù)據(jù)。
因此,越來越多的研究數(shù)據(jù)倉儲被建立起來,如美國哈佛大學(xué)的 Dataverse、密歇根大學(xué)的 ICPSR、約翰·霍普金斯大學(xué)的 Data Conservancy,英國開放知識基金會構(gòu)建的CKAN和Datahub,國內(nèi)復(fù)旦大學(xué)的社會科學(xué)數(shù)據(jù)平臺、中國科學(xué)院的科學(xué)數(shù)據(jù)云、商業(yè)性數(shù)據(jù)共享交易平臺——數(shù)據(jù)堂。截至目前,在國際研究數(shù)據(jù)倉儲注冊系統(tǒng) re3data.org中注冊的倉儲數(shù)量達(dá)2000個分布于全球60多個國家。

Dataverse

Dataverse為哈佛大學(xué)定量社會科學(xué)研究所(IQSS) 數(shù)據(jù)科學(xué)團(tuán)隊(duì)研發(fā)的研究數(shù)據(jù)管理系統(tǒng)。該系統(tǒng)的開發(fā)始于2006年,最初主要聚焦于社會科學(xué)數(shù)據(jù)管理,后引入了天文學(xué)、天體物理、生物醫(yī)學(xué)等學(xué)科數(shù)據(jù),目前已經(jīng)支持人文與社會科學(xué)、地理空間、天文與天體物理、生命科學(xué)、政治學(xué)等 12 種元數(shù)據(jù)方案。2012年,IQSS將Dataverse開源,隨后許多機(jī)構(gòu),如復(fù)旦大學(xué)、約翰·霍普金斯大學(xué)、挪威大學(xué)、海德堡大學(xué)等采用 Dataverse作為數(shù)據(jù)管理服務(wù)系統(tǒng)。


(1)數(shù)據(jù)管理 Dataverse 

數(shù)據(jù)管理中定義了3個重要實(shí)體: 數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件。數(shù)據(jù)空間是一個虛擬容器實(shí)體,支持嵌套,整個數(shù)據(jù)空間可形成一棵倒立樹形結(jié)構(gòu)。數(shù)據(jù)空間可以對應(yīng)著組織機(jī)構(gòu)、研究項(xiàng)目、研究者、期刊、教學(xué)課程等,與機(jī)構(gòu)的組織架構(gòu)接近,便于將數(shù)據(jù)集按機(jī)構(gòu)部門、研究項(xiàng)目分門別類地組織。數(shù)據(jù)集是一個完整的、不可分隔的資源集合,研究者可以依據(jù)數(shù)據(jù)集提供的信息做出分析判斷,它依存于一個數(shù)據(jù)空間,在數(shù)據(jù)空間中可以包含0個或者多個數(shù)據(jù)集。數(shù)據(jù)文件是數(shù)據(jù)集的組成部分,是Dataverse中管理的最小粒度實(shí)體對象,它可以是說明文檔、Excel文件、調(diào)查問卷等任何格式的文件。數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件的結(jié)構(gòu)見圖。
圖 1 Dataverse 數(shù)據(jù)組織結(jié)構(gòu)

(2)用戶管理 

在數(shù)據(jù)管理過程中,需要為不同用戶群體提供不同服務(wù),因此 Dataverse 引入了用戶組概念——可以根據(jù)用戶的來源、管理員的控制對用戶分組管理。用戶組由組管理器管理,其中包含多個實(shí)現(xiàn)了Group Provider 的組提供者。在Dataverse中包含的用戶組有: 所有用戶、認(rèn)證用戶組、Shibboleth 用戶組 、IP 用戶組、自定義用戶組。

(3)權(quán)限管理 

數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件的創(chuàng)建、完善和分享是一個協(xié)作過程,不同的成員應(yīng)具有不同操作權(quán)限,Dataverse對數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件定義了13種訪問控制權(quán)限,可分為4類,包括:創(chuàng)建權(quán)限、讀取權(quán)限、更新權(quán)限、刪除權(quán)限。一個用戶可具有多種操作權(quán)限,在Dataverse中,多種權(quán)限的組合定義為角色。當(dāng)用戶被賦予了角色時,則具有了角色所包含的權(quán)限。

(4)檢索服務(wù) 

Dataverse 使用Solr對數(shù)據(jù)進(jìn)行索引,索引對象包括數(shù)據(jù)空間、數(shù)據(jù)集、數(shù)據(jù)文件。Dataverse能夠?qū)SV、Stata DTA、SPSS POR、SPSS SAV、Data、Excel XLSX 文件進(jìn)行處理,提取其中的變量名和變量標(biāo)簽,因此它們也將作為數(shù)據(jù)文件的元數(shù)據(jù)信息而被索引。檢索服務(wù)可分為簡單檢索和高級檢索。簡單檢索將搜索所有字段,并返回匹配的數(shù)據(jù)空間、數(shù)據(jù)集和數(shù)據(jù)文件; 高級檢索將對指定字段進(jìn)行搜索,相同數(shù)據(jù)對象的搜索字段采用 AND關(guān)系連接,不同數(shù)據(jù)對象的搜索字段采用OR關(guān)系連接。

(5)API接口 

Dataverse 提供多種 API 接口,包括SWORD API、Native API、Search API、Data Access API。SWORD是一個輕量級的內(nèi)容存放協(xié)議,使用 SWORD協(xié)議可以使得非 Dataverse系統(tǒng)將數(shù)據(jù)存放至 Dataverse 中。Dataverse 實(shí)現(xiàn)了SWORDv2的絕大多數(shù)功能,可以使用SWORD API創(chuàng)建、刪除、查看、發(fā)布數(shù)據(jù)集,添加、刪除文件。SWORD協(xié)議的開放性,使得Dataverse可以與其他系統(tǒng)具有較好的交互能力。

(6)在線分析 

社會科學(xué)領(lǐng)域有大量的調(diào)查統(tǒng)計(jì)數(shù)據(jù),并以標(biāo)準(zhǔn)的格式(如Excel、Stata、SPSS等)存儲,對這些數(shù)據(jù)進(jìn)行在線分析是研究數(shù)據(jù)管理系統(tǒng)的一個重要功能。諸如IPSR和Nesstar 等系統(tǒng)均有在線分析功能,Dataverse 起源于社會科學(xué)數(shù)據(jù)管理,因此也有很強(qiáng)的在線分析功能IQSS數(shù)據(jù)科學(xué)團(tuán)隊(duì)除了開發(fā)Dataverse系統(tǒng)外,還開發(fā)了Zelig和Two Ravens 兩個產(chǎn)品。Zelig是一個R語言統(tǒng)計(jì)框架,用于為大量R語言編寫的模型提供一個公共接口。Two Ravens是一個數(shù)據(jù)探索、統(tǒng)計(jì)分析、模型構(gòu)建、元數(shù)據(jù)分析的Web應(yīng)用工具。Dataverse使用Two Ravens和Zelig 對數(shù)據(jù)集進(jìn)行在線分析,Dataverse 中的數(shù)據(jù)傳入到 Two Ravens 中Two Ravens 再利用Zelig等R語言包對數(shù)據(jù)進(jìn)行分析,建模。


社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫

國內(nèi)對研究數(shù)據(jù)管理服務(wù)做了許多積極探索。在倉儲建設(shè)方面,從20世紀(jì)80年代開始,中國科學(xué)院便對科學(xué)數(shù)據(jù)管理進(jìn)行了探索,目前已經(jīng)建成了具有分布式海量存儲環(huán)境的科學(xué)數(shù)據(jù)云;武漢大學(xué)圖書館于2011年基于DSpace嘗試在校內(nèi)開展科學(xué)數(shù)據(jù)管理服務(wù);中國科學(xué)院文獻(xiàn)情報中心基于機(jī)構(gòu)知識庫探索對非文本信息的管理;復(fù)旦大學(xué)基于Dataverse 3.3開展社會科學(xué)數(shù)據(jù)的管理服務(wù)。

為了支持科學(xué)研究,促進(jìn)學(xué)術(shù)交流,推動開放獲取,實(shí)現(xiàn)研究數(shù)據(jù)的有效管理,萌泰科技積極探索建設(shè)社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫,社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫是來自于國家統(tǒng)計(jì)局、各級統(tǒng)計(jì)機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)、商業(yè)機(jī)構(gòu)公開的統(tǒng)計(jì)調(diào)查數(shù)據(jù)的集合。數(shù)據(jù)庫包括中國人口、就業(yè)、生活、社會服務(wù)、文化、公共管理、環(huán)境等多個與社會科學(xué)緊密聯(lián)系的相關(guān)數(shù)據(jù),并提供靈活方便的數(shù)據(jù)檢索服務(wù)。


數(shù)據(jù)庫的中心使命是收集、整理和開發(fā)中國社會科學(xué)數(shù)據(jù),社會科學(xué)數(shù)據(jù)主要集中在社會、經(jīng)濟(jì)領(lǐng)域,主要包括兩類數(shù)據(jù): 一是國家統(tǒng)計(jì)部門發(fā)布的統(tǒng)計(jì)數(shù)據(jù);二是為社會科學(xué)研究和政策制定而專門進(jìn)行的調(diào)查的數(shù)據(jù)。社會科學(xué)的研究成果很大程度上影響著政府關(guān)于教育、工資、健康和養(yǎng)老金的政策,而每一項(xiàng)研究成果均一定程度上依賴于研究人員所采集的大集合、高質(zhì)量的數(shù)據(jù)。高校社會科學(xué)數(shù)據(jù)主要包括學(xué)者研究實(shí)踐過程中的統(tǒng)計(jì)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、派生或匯編數(shù)據(jù)、專項(xiàng)調(diào)查數(shù)據(jù)及報告、論文、衍生出版物等。

社會統(tǒng)計(jì)調(diào)查數(shù)據(jù)庫為學(xué)者提供更具競爭力的研究條件和數(shù)據(jù)服務(wù),為學(xué)生提供更加堅(jiān)實(shí)的社會科學(xué)調(diào)查方法和應(yīng)用訓(xùn)練,鼓勵跨學(xué)科的研究,建設(shè)有中國特色的社會科學(xué)數(shù)據(jù)平臺。


參考文獻(xiàn):羅鵬程,朱玲,崔海媛,聶華.基于Dataverse的北京大學(xué)開放研究數(shù)據(jù)平臺建設(shè)[J].圖書情報工作,2016,60(03):52-58.
    發(fā)表評論
    評論通過審核后顯示。
      銳研中國
    移動訪問