摘 要:國家農業基礎性長期性科技工作在全國構建工作體系匯聚了10個不同領域的農業觀測數據,為我國農業科學數據建設奠定了長期堅實的基礎,該工作與研究對于促進農業科技創新、支撐農業生產的重要意義重大。通過系統布局國家農業科學試驗站、觀測站,加強農業數據的觀測、監測、搜集、分析、整理、挖掘與共享利用,為農業科研和科技推廣、農業科技體制改革、農業政策制定提供重要的基礎支撐。開展農業觀測數據共享元數據的標準研究,對農業生產要素及其動態變化進行科學觀察、觀測和分析,闡明內在聯系及其發展規律,是管當前、利長遠的研究,是把握農業生產要素發展變化的基本途徑,是推動農業科學技術發展的必要基礎,是制定農業政策的重要參考農業觀測數據共享是國家農業數據共享、科技創新體系的重要組成部分,通過數據的整理分析不難發現,農業觀測數據涉及范圍廣、種類多、語義多、共享難度大,農業野外觀測數據又具有不可重復性的典型特征。本文以共享數據科學研究為基礎,在分析農業觀測數據元數據的標準、結構、管理體系以及元數據的互操作性的基礎上,探討農業觀測數據元數據的特點及管理應用體系,為促進我國農業科技創新發展與國際合作交流提出可借鑒的參考建議。
本文源自農業大數據學報2020-12-30《農業大數據學報》(CN10-1555/G2,ISSN 2096-6369)是我國農業領域首個綜合報道大數據領域相關的理論方法、技術應用、產業發展、實體數據等的專業學術期刊。
1 引言
國家農業科學觀測工作,包括對土壤、水、肥、氣象等農業生產關鍵要素及農業生物多樣性、病蟲害等的長期系統動態監測,為推動農業科技創新提供數據支撐,為農業科學研究、生產管理、災害預警和糧食安全生產提供科學依據。農業農村部從2017年構建了以 11 個數據中心為“塔尖”、456 個觀測實驗站為“中堅”、4萬多個生態環境國控監測點為“塔基”的“金字塔”式觀測監測網絡[1] ,形成了實驗觀測和定點監測相結合的網絡體系[2] 。農業基礎性長期性科技工作的實施是對農業生產要素及其動態變化進行科學觀察研究,明確其內在聯系,及其發展規律的重大開創性舉措,為農業基礎性長期性科學數據監測體系的建成健全了機制并提供了組織保障。
國內外野外觀測網絡對元數據的建設進行了深入全面的實踐研究:美國國家生態觀測網絡(NEON)重點在監測系統中規范了設施設置與指標規定,著力在應對關鍵科學問題的有效回答[3] ;全球陸地監測系統(GTOS)歸定了對象的屬性[3] ;英國的環境變化研究監測網絡(ECH)[4] 對數據傳輸和共享制定了規范方法。中國生態系統研究網絡(CERN)研討制訂了數據分類分級的管理辦法,并通過共享系統平臺實踐這一標準。中國農業科學院農業信息研究所承擔觀測數據匯聚系統的建設工作,通過近幾年的實踐不斷滿足農業不同學科多領域的需求,數據匯交總量穩定上升。農業觀測數據如何更好服務科研創新、解決國家重大需求,實現農業基礎性長期性科技工作的初衷,共享元數據標準的研制成為下一步亟待開展的工作內容。
2 需求分析
2018 年國家《科學數據管理辦法》的頒布,促進農業基礎性長期性科學數據的全速發展,在現有農業基礎性長期性科技工作門戶基礎上,形成“數據總中心—數據中心—科學觀測試驗站”三級網絡工作門戶。在規范化整理、數字化、質量控制和產品開發的基礎上,將已經形成的數據產品對全社會開放共享,實現農業觀測數據非涉密數據分級分類的共享服務,提升農業基礎性長期性觀測工作的影響力。
在基礎性長期性科技工作中,數據采集者本身承擔著復雜繁重的科研任務,通過表 1 不難看出,農業觀測數據采集是需要符合專業行業工作標準的科研人員才能完成,很多觀測數據尤其是野外臺站數據的產生具有不可重復性,為保證他們不被誤用并長期保持可用,尤其需要在共享環節相應地說明數據產生的方法和條件,特別是數據采集人員在采集過程中,能夠有意識的注意到,觀測數據不僅僅是為了完成科研任務,更重要的是能夠方便數據使用者了解數據采集的時空環境、數據質量的控制標準、數據采集的方法、數據使用的權益機制,這就對元數據技術有了相當高的要求。
根據元數據標準,在定制期間,會遇到數據顆粒的甄選問題以及延伸到成本計算,不同的用戶類型所側重的數據集不同,關注的數據集范圍也不同。核心元數據針對特定類型或特定范圍數據集的完備性和適用性不是很高;過細的元數據會給著錄者帶來繁重的工作量以及心理影響。農業觀測數據共享元數據應重點考慮元數據格式規范設計和長期維護的復雜性以及國際化環境和互操作的需要,一般選擇復用相關領域現有標準。
3 共享元數據標準研究
3.1 國內外相關元數據標準發展現狀
目前,國際上科學數據元數據標準已經從標準制定階段發展到實際應用階段,我國元數據標準的研究起步較晚,但也已出具規模,國內相對成熟的元數據標準已展開相關應用。上世紀 90 年代以來,影響力較大的通用科學元數據標準有都柏林核心(Dublin Core)、DateCite和Dataverse元數據標準等。
3.1.1 都柏林核心
在 90 年代中期,首屆元數據科學論壇上正式發布都柏林核心(Dublin Core)數據集[5] ,我國與其對應的標準為 GB/T 25100—2010。Dublin Core是應為最為廣泛,最被科學研究界接受的通用元數據標準,科學數據元數據(Dataverse)①是基于此核心數據集誕生的。
3.1.2 DataCite元數據標準
DataCite 國際聯盟(the DataCite Consortium)制定了 Datacite 元數據標準[6] ,該聯盟的主要目標是支持科學數據存儲并將科學數據的地位提升至合法的、可被引用的科學記錄,使科學數據更易在網上獲取。其創建的 DataCite 元數據標準包含一系列核心元數據元素,通過為數據集提供永久性唯一標識符(DOI)以及準確、一致性的描述,輔助科學數據的檢索、共享、重用、應用和關聯。
3.1.3 Dataverse元數據標準
麻省理工學院研發的Dataverse元數據標準是以 DDI(Data Document Initiative)為原始數據集開發的,根據不同的類型分為不同的區塊,包括引用通用元數據區塊和學科專有元數據區塊。其中,引用通用元數據區塊包含引用數據集所需的相關信息,是平臺所有數據集的必備元數據區塊,適用于描述所有類型和所有學科的數據集;學科專有元數據區塊則提供針對某一學科數據的元數據元素,覆蓋生命科學、人文與社會科學、地理空間、天文與天體物理和政治學等多個領域。
在科學數據元數據標準發展過程中,更多的學科領域數據平臺參與到標準的制作當中[7] ,這些平臺有大量的學科專業數據,所以制定的元數據標準更專注于特定的學科領域[8] 。學科領域科學元數據標準有 ISO 19115[9] 、Dryad① 元數據標準[10] 、空間地理元數據內容標準 CSDGM(Content Standard for Digital Geo‐ spatial Metadata)、FGDC 元數據標準、生物多樣性領域的 Darwin Core 元數據標準、氣象學領域元數據標準 CF(Climate Forecast)、社會學科領域元數據標準 DDI(Data Documentation Initiative)等。
近年來,我國科學數據元數據發展迅速,自 2002 年科技部主導實施國家科學數據共享工程啟動。目前,在我國現用的科學數據元數據標準有以下:(1) GB/T 20533—2006《生態科學數據元數據》、(2)GB/ T19710—2005《地理信息元數據》、(3)GB/T 26499.3 —2011《機械科學數據第3部分:元數據》[11] 。在農業領域,主要有農科院提出建立的農業科技信息核心元數據標準框架和農業資源空間信息元數據標準。國家農業科學數據中心成立以來,制定了農業科學數據核心元數據標準,適用于農業科學數據共享、編目、元數據交換和網絡查詢服務。
我國農業領域關于元數據標準的工作尚未全方位展開。農業科學數據包含的種類具有多維度的特征,具有時間性、季節性的顯著特點,依照環境的不用,種類繁雜,而且衍生性能復雜多變[12] 。很多觀測數據尤其是野外臺站數據的產生依據氣候、環境等條件不可復制。如何保障這些數據采集質量并采用合適的方式存儲,建立農業觀測數據的元數據標準勢在必行。
3.2 標準結構研究
國家農業觀測數據共享元數據標準的研制以科技部科學數據共享工程技術標準、國家農業科學數據共享中心制定的《農業科學數據共享標準體系及參考模型》為主要的指導標準[13] ,參考國內外相關良好實踐作為制定依據。從觀測數據的總體結構出發,所有的觀測數據都經歷采集、存儲、匯交、加工整理、應用共享、歸檔等生命周期過程。
如圖 1 所示,觀測數據元數據包括內容結構、句法結構和語義機構。在圖中,每一部分信息都用 UML包來表示。每個包(元數據子集)包括一個或多個類(元數據實體),它們可以是特化的(子類)或泛化的(超類)。類(元數據實體)包含若干屬性(元數據元素)。類(元數據實體)可以與一個或多個其它類(元數據實體)相關。類(元數據實體)可按需要聚集或重復。
3.2.1 元數據內容結構
元數據的基本組成及其元素描述進行了規范定義,可以使按照層級劃分為核心要素以及非核心要素,同時也可以按照屬性分區,例如某些為必選要素,某些為可選擇性要素以及部分根據條件的不同所選取的要素[14] 。主要分為以下幾方面:(1)描述元數據:主要在采集加工時期完成,包括名稱、概述、時間、數據質量描述、觀測環境等。 (2)責任元數據:主要說明觀測數據的來源、產生的具體時間,圖 1 中的觀測信息屬于責任元數據。
(3)權益元數據:主要說明觀測數據的權益屬性,例如權益所有者,權益變更說明、權益申明信息等。
(4)安全元數據:主要說明觀測數據的安全屬性,例如分級信息、法律限制信息等。
(5)服務元數據:用于數據共享服務,并對共享服務相關信息進行描述,主要功能是實現觀測數據的共享。
(6)保存元數據:主要說明的是數據在需要長久儲存時候所需的條件要素,用于存管某些特定的數據,用作信息輸出模型需遵照執行的體系,便于數據在未來的二次使用。
(7)管理元數據:主要貫穿于整個數據的生命周期,涵蓋了數據的保持模式、保存介質、數據的安全、是否合理有效備份,聯系人等具體情況。
3.2.2 元數據句法結構
句法結構是指元數據內容的格式結構及其描述方式,它對元數據的編碼語言和數據格式有直接影響。元數據句法應采用開放的結構,推薦采用較為通用開放的描述句法,如利用 XML、SGML、RDF、HT‐ ML等標記語言進行置標[15]。
3.2.3 擴展與裁剪原則
元數據的使用重點在于其著錄應用中,對于使用者來說理應根據實際情況允許適當的擴展與裁剪。使用者在擴展觀測數據共享元數據之前,必須仔細地查閱本標準以及其他由本標準擴展而成的正式規范或標準中現有的元數據元素,確認合適的元數據元素尚不存在。對于擴展的每一個基本數據類型,應定義其數據類型、內容組成及元數據元素。對于擴展的每一個元數據元素,應定義其名稱、定義、英文名稱、短名、數據類型、值域、約束/條件和最大出現次數,并可以給出適當的例子。
對于著錄者來說,如果元數據標準中的元素過多,導致數據著錄過程過于煩瑣和冗長,勢必影響用戶上傳數據的效率,反而不利于科學數據的共享,因此可以對元數據使用過程中適當裁剪。元數據裁剪的原則應在保障不降低數據資源的揭示程度的前提下,達到減輕著錄負擔的目的。
4 討論
共享元數據標準是農業科學數據信息化的理論研究重要組成部分,其制定過程不是一蹴而就的,特別需要在實踐過程中通過國家農業基礎性長期性科技工作與廣大農業科研領域使用者進行反復實踐才能實現良好的落地應用,以期為我國農業觀測數據共享元數據標準的構建和應用提供理論研究和實踐參考。
論文指導 >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >