|
|
地質(zhì)大數(shù)據(jù)研究進(jìn)展
總體來(lái)看,我國(guó)地質(zhì)大數(shù)據(jù)研究還處于起步階段。一方面,許多人質(zhì)疑大數(shù)據(jù)對(duì)于地球科學(xué)這一門(mén)觀(guān)察學(xué)科的適用性,另一方面,多數(shù)研究人員還未意識(shí)到積累數(shù)據(jù)、共享數(shù)據(jù)的重要性,這在一定程度上阻礙了地質(zhì)大數(shù)據(jù)的發(fā)展。此外,大數(shù)據(jù)研究追求的“相關(guān)性”研究與科學(xué)研究中的“因果性”知識(shí)發(fā)現(xiàn)存在巨大矛盾,這對(duì)科學(xué)家們的思維方式轉(zhuǎn)變提出了挑戰(zhàn)。綜合近年來(lái)的研究成果,國(guó)內(nèi)地質(zhì)大數(shù)據(jù)研究現(xiàn)狀可以歸結(jié)為以下?3?點(diǎn)。
地質(zhì)大數(shù)據(jù)的存儲(chǔ)管理
地質(zhì)學(xué)發(fā)展至今積累了大量的地質(zhì)資料數(shù)據(jù),隨著地球信息探測(cè)技術(shù)的迅速發(fā)展,又有源源不斷的新的地質(zhì)數(shù)據(jù)快速產(chǎn)生。地質(zhì)大數(shù)據(jù)不僅有定性、定量數(shù)據(jù),還包括文字說(shuō)明,甚至是地質(zhì)圖件或者是地質(zhì)工作者在工作中留下的視頻、音頻文件等資料,而長(zhǎng)期的目錄文件存儲(chǔ)方式極大地降低了數(shù)據(jù)查詢(xún)、檢索、統(tǒng)計(jì)、更新、挖掘等操作效率,導(dǎo)致數(shù)據(jù)服務(wù)能力低下[3]。因此,構(gòu)建一套能夠有效地實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)一體化、靜態(tài)數(shù)據(jù)與動(dòng)態(tài)數(shù)據(jù)一體化、地質(zhì)數(shù)據(jù)與地質(zhì)模型一體化存儲(chǔ)管理的地質(zhì)信息系統(tǒng),對(duì)于完成海量地質(zhì)資料穩(wěn)定、高效地存放與讀取就顯得十分重要。
目前已有學(xué)者提出進(jìn)利用云平臺(tái)、Hadoop?和?NoSQL等技術(shù),借鑒實(shí)時(shí)?GIS?時(shí)空數(shù)據(jù)模型,實(shí)現(xiàn)對(duì)地質(zhì)時(shí)空大數(shù)據(jù)模型的動(dòng)態(tài)管理。Hadoop?是目前大數(shù)據(jù)存儲(chǔ)與處理的標(biāo)準(zhǔn)平臺(tái),可以通過(guò)?MapReduce?支持大規(guī)模數(shù)據(jù)的并行處理。而?NoSQL?數(shù)據(jù)庫(kù)使用分布式節(jié)點(diǎn)集動(dòng)態(tài)處理負(fù)載。采用分布式文件系統(tǒng)技術(shù)可以對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行存儲(chǔ)并提高數(shù)據(jù)的容錯(cuò)能力與可靠性。例如中國(guó)地質(zhì)調(diào)查局發(fā)展研究中心國(guó)土資源部地質(zhì)信息技術(shù)重點(diǎn)實(shí)驗(yàn)室研發(fā)的中國(guó)地質(zhì)調(diào)查云平臺(tái),就是在這種框架下建立的非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)存儲(chǔ)組織模式,通過(guò)改變非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、閱讀、搜索和應(yīng)用模式,為智能地質(zhì)調(diào)查提供精確、快速服務(wù)奠定了基礎(chǔ)。
地質(zhì)大數(shù)據(jù)的挖掘分析
大數(shù)據(jù)時(shí)代下的?3?個(gè)重要技術(shù)取向是:要全體不要抽樣;要效率不要絕對(duì)精確;要關(guān)聯(lián)不要因果。這迫使我們從數(shù)據(jù)的類(lèi)型、數(shù)據(jù)運(yùn)維以及大數(shù)據(jù)帶來(lái)的挑戰(zhàn)性這?3?個(gè)維度重新思考數(shù)據(jù)分析。周永章等認(rèn)為大數(shù)據(jù)與數(shù)學(xué)地球科學(xué)的核心應(yīng)用技術(shù)應(yīng)該包括高維數(shù)據(jù)降維、圖像數(shù)據(jù)處理、無(wú)限數(shù)據(jù)流挖掘、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則算法與推薦系統(tǒng)算法等。
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中通過(guò)算法搜索其隱藏信息的過(guò)程。相較于數(shù)據(jù)檢索和信息提取,數(shù)據(jù)挖掘需要基于大數(shù)據(jù)和知識(shí)庫(kù)的智能推理的理論和技術(shù)支撐。地質(zhì)大數(shù)據(jù)挖掘就是從數(shù)據(jù)倉(cāng)庫(kù)中找尋隱含的特征和規(guī)律,并應(yīng)用在地質(zhì)規(guī)律研究、成礦預(yù)測(cè)、資源評(píng)價(jià)、環(huán)境保護(hù)和地災(zāi)防治領(lǐng)域的過(guò)程。該過(guò)程需要利用涉及到人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、歸納推理、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、高性能計(jì)算、數(shù)據(jù)可視化等相關(guān)方法和技術(shù)手段,在多主題、多模態(tài)的地質(zhì)數(shù)據(jù)中自動(dòng)或半自動(dòng)地獲取新的可被理解的知識(shí),從而為地質(zhì)專(zhuān)題研究和應(yīng)用提供決策。
目前,數(shù)字地質(zhì)的任務(wù)就是大力推動(dòng)地質(zhì)科學(xué)的數(shù)據(jù)挖掘和數(shù)據(jù)分析方法的更新。如何從規(guī)模巨量,但價(jià)值密度偏低的大數(shù)據(jù)中有效地挖掘提取信息是當(dāng)下地質(zhì)大數(shù)據(jù)研究中擬解決的關(guān)鍵問(wèn)題。地質(zhì)大數(shù)據(jù)分析的關(guān)鍵技術(shù)主要是對(duì)多源(元)異構(gòu)的地質(zhì)數(shù)據(jù)進(jìn)行綜合分析。其中包括對(duì)結(jié)構(gòu)化數(shù)據(jù)的相關(guān)性分析,對(duì)半結(jié)構(gòu)化數(shù)據(jù)的信息提取和結(jié)合非結(jié)構(gòu)化數(shù)據(jù)作為以上數(shù)據(jù)處理結(jié)果的驗(yàn)證分析。此外,物聯(lián)網(wǎng)、虛擬現(xiàn)實(shí)、云計(jì)算等技術(shù)興起,使得基于互聯(lián)網(wǎng)的地質(zhì)數(shù)據(jù)資源共享平臺(tái)的研制成為可能,也為復(fù)雜地學(xué)計(jì)算提供了條件。將云計(jì)算、人工智能融入地質(zhì)大數(shù)據(jù)挖掘與分析已經(jīng)成為新的發(fā)展趨勢(shì)。例如,有學(xué)者借鑒了大數(shù)據(jù)思維,利用貝葉斯網(wǎng)絡(luò)探尋礦床的成因機(jī)制,從而構(gòu)建大數(shù)據(jù)-智能礦床成礦與找礦模型,推動(dòng)從“數(shù)字地質(zhì)”到“智能地質(zhì)”的革命。