<fieldset id="ogssy"><del id="ogssy"></del></fieldset>
  • <tbody id="ogssy"></tbody>
  • 色狠狠久久Av五月综合,在线观看日本三级,国产精品一区视频,欧美日本在线一区二区三区

    Cinque Terre

    成果資源

    首頁 - 科研成果 - 成果資源 - 正文

    【成果推介】Data Torch——暗數(shù)據(jù)存儲、點亮與價值評估系統(tǒng)

    來源:    作者:    發(fā)布時間:2024-03-15    閱讀量:


    【所屬領(lǐng)域】

    軟件服務(wù)


    痛點問題

    暗數(shù)據(jù)是指機(jī)構(gòu)在常規(guī)業(yè)務(wù)活動中采集、處理和存儲的信息資產(chǎn),但通常不能用于其他目的(例如分析、業(yè)務(wù)關(guān)系和直接貨幣化)。對于暗數(shù)據(jù),用戶不知道其存在,或不知道其如何獲取,亦或不知道如何釋放其價值。


    IDC的調(diào)研報告顯示:暗數(shù)據(jù)占數(shù)據(jù)總量的68%以上,且占比在逐年攀升。根據(jù)行業(yè)的不同,企業(yè)的暗數(shù)據(jù)在其數(shù)據(jù)總量中的占比從40%到90%不等。充分利用暗數(shù)據(jù)將為企業(yè)帶來巨大的利潤,但現(xiàn)階段,暗數(shù)據(jù)如同不能丟棄的垃圾,會加劇數(shù)據(jù)ROT(冗余,過時和瑣碎),降低數(shù)據(jù)發(fā)揮價值的效率與能力,不僅會給企業(yè)帶來巨大的維護(hù)開銷,同時會對企業(yè)造成潛在的風(fēng)險和損失。根據(jù)Veritas公司的數(shù)據(jù)顯示,平均每家公司每年要花費4650萬美元來存儲從未使用過或使用頻率極低的數(shù)據(jù),但卻無法按需使用這些數(shù)據(jù)。目前,國內(nèi)的大部分相關(guān)部門和企業(yè)并未意識到暗數(shù)據(jù)的存在,也不了解處理暗數(shù)據(jù)的意義和價值。想要做好暗數(shù)據(jù)處理,面臨三個行業(yè)痛點:

    ·檢索難 缺乏針對暗數(shù)據(jù)的檢索技術(shù);

    ·評估難 缺乏一套針對暗數(shù)據(jù)的價值量化標(biāo)準(zhǔn)和價值評估技術(shù);

    ·挖掘難 缺乏針對暗數(shù)據(jù)的存儲技術(shù)。


    【解決方案】

    針對暗數(shù)據(jù)處理,提出了如下方案:

    (1) 基于內(nèi)容哈希的暗數(shù)據(jù)點亮技術(shù)

    本系統(tǒng)通過解析暗數(shù)據(jù)的內(nèi)容語義生成哈希碼,再通過漢明距離計算哈希碼之間的距離度量,利用哈希碼作為元數(shù)據(jù),利用距離度量作為組織標(biāo)準(zhǔn),對所有數(shù)據(jù)進(jìn)行圖結(jié)構(gòu)化組織,實現(xiàn)暗數(shù)據(jù)的點亮。首先訓(xùn)練自學(xué)習(xí)哈希模型DDCH,其中包括對比學(xué)習(xí)和無監(jiān)督哈希函數(shù)學(xué)習(xí)階段。利用預(yù)訓(xùn)練好的模型對暗數(shù)據(jù)集中的文件進(jìn)行重構(gòu)編碼,每一個文件都生成一個哈希碼與之對應(yīng)。哈希模型的輸入在語義上越相近,生成的哈希碼的漢明距離也越相近。暗數(shù)據(jù)點亮?xí)r,通過DDCH模型將所有的暗數(shù)據(jù)生成為哈希碼,然后使用圖結(jié)構(gòu)對所有的哈希碼進(jìn)行倒排索引管理。

     

    圖1 基于內(nèi)容的自學(xué)習(xí)哈希模型框架示意圖

    (2) 基于語義漢明圖的暗數(shù)據(jù)價值評估技術(shù)

    管理哈希碼的圖組織,即漢明圖。語義越接近的數(shù)據(jù)在圖中的距離也越接近。在漢明圖中,可以看到一些分布比較集中的子圖,即一組語義相似的元素。在實際應(yīng)用中,數(shù)據(jù)集的數(shù)目和密度無法統(tǒng)一,例如,部分?jǐn)?shù)據(jù)集的圖像總量大,而有些數(shù)據(jù)集中與檢索需求相關(guān)的圖像數(shù)量多,為了精確評估各數(shù)據(jù)集的價值,提出綜合考量密度和數(shù)量的暗數(shù)據(jù)價值評估技術(shù)。通過計算各個數(shù)據(jù)在數(shù)據(jù)集中的重要性分?jǐn)?shù),再將需求轉(zhuǎn)換為數(shù)據(jù)對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行檢索,檢索出的數(shù)據(jù)分?jǐn)?shù)即可代表數(shù)據(jù)集對需求的重要性依賴,即價值。對于重要性分?jǐn)?shù),子圖越密集,即元素越多,漢明距離越短,該子圖的重要性越高,越具備挖掘價值。為了評估每個子圖的重要性,首先給每個子圖打一個“重要性分?jǐn)?shù)”,然后根據(jù)重要性分?jǐn)?shù)給子圖排序,排序后得到排名表(Score list)。

    圖2 基于語義漢明圖的按數(shù)據(jù)價值評估技術(shù)示意圖

    (3) 基于元數(shù)據(jù)圖譜的暗數(shù)據(jù)存儲技術(shù)

    暗數(shù)據(jù)存儲系統(tǒng)利用哈希技術(shù)與語義漢明圖技術(shù)生成并組織元數(shù)據(jù),在不影響傳統(tǒng)元數(shù)據(jù)組織的基礎(chǔ)上,提供使語義相似的文件在邏輯結(jié)構(gòu)上更接近的查找目標(biāo)。該設(shè)計能夠以外掛索引的方式單獨管理生成的內(nèi)容元數(shù)據(jù)。當(dāng)需要查找某一類型的數(shù)據(jù)時,暗數(shù)據(jù)存儲系統(tǒng)能夠通過聚類來召回語義相似區(qū)域的數(shù)據(jù),輔以雙IO路徑的設(shè)計,讓系統(tǒng)既保留了現(xiàn)有存儲系統(tǒng)的讀寫路徑,又能夠通過內(nèi)容語義來查詢并召回相應(yīng)的文件,使得暗數(shù)據(jù)查詢和檢索更加高效和方便。

    圖3 基于元數(shù)據(jù)圖譜的暗數(shù)據(jù)存儲技術(shù)示意圖


    【性能指標(biāo)】

    在QQ相冊真實數(shù)據(jù)上的測試表明,核心技術(shù)均取得了較大的性能突破:

    【競爭優(yōu)勢】

    目前,市場上已經(jīng)出現(xiàn)利用暗數(shù)據(jù)的公司及產(chǎn)品。部分公司利用暗數(shù)據(jù)進(jìn)行數(shù)據(jù)風(fēng)險預(yù)測,降低數(shù)據(jù)泄露造成的損失以及抵抗網(wǎng)絡(luò)攻擊,包括但不限于Splunk的SIEM工具、BigID的云平臺、Imperva的風(fēng)險檢測工具。另一部分公司能夠?qū)文B(tài)暗數(shù)據(jù)價值進(jìn)行初步的內(nèi)容提取和開發(fā),包括IBM用于處理文檔暗數(shù)據(jù)的Datacap和專門處理視頻暗數(shù)據(jù)的Dark vision。


    本項目與國外產(chǎn)品比較,能夠從內(nèi)容角度管理暗數(shù)據(jù),并根據(jù)價值評估技術(shù)有的放矢的推薦暗數(shù)據(jù)進(jìn)行價值挖掘并釋放價值,具有國外同等類型產(chǎn)品尚不能企及的科技水平。本項目不僅能夠通過暗數(shù)據(jù)的價值評估來判斷并降低暗數(shù)據(jù)的數(shù)據(jù)風(fēng)險,并且哈希技術(shù)和暗數(shù)據(jù)存儲系統(tǒng)具備處理多模態(tài)數(shù)據(jù)的通用性。本項目具有獨立的知識產(chǎn)權(quán),有著顯著的技術(shù)優(yōu)勢,也具有持續(xù)研發(fā)的可能性,能充分滿足潛在市場需求。


    【技術(shù)熟化度】

    試驗階段


    【資質(zhì)榮譽(yù)】

    ·國家技術(shù)發(fā)明二等獎1項

    ·湖北省技術(shù)發(fā)明一等獎1項

    ·湖北省技術(shù)進(jìn)步1等獎1項

    ·SC‘06存儲挑戰(zhàn)賽finalist award1項

    ·中國電子學(xué)會科學(xué)技術(shù)獎科技進(jìn)步一等獎1項

    ·中國電子學(xué)會科學(xué)技術(shù)獎科技進(jìn)步二等獎1項

    ·相關(guān)論文《A Framework for Image Dark Data Assessment》在APWeB-WAIM 2019會議上榮獲best paper runner up


    【產(chǎn)業(yè)化應(yīng)用】

    在EB級多模態(tài)數(shù)據(jù)集中,利用暗數(shù)據(jù)的點亮、價值評估和存儲技術(shù),解決當(dāng)前“檢索難”、“評估難”、“挖掘難”等難題,實現(xiàn)暗數(shù)據(jù)的高效檢索、精準(zhǔn)評估和便捷挖掘。


    市場前景

    主要面向信息技術(shù)服務(wù)行業(yè),通過釋放暗數(shù)據(jù)的潛在價值,助推各行各業(yè)激發(fā)數(shù)字要素潛能。應(yīng)用群體分為個人用戶及企業(yè)用戶,對于個人用戶,提供暗數(shù)據(jù)處理解決方案,提高日常工作效率;對于企業(yè)用戶,通過對企業(yè)內(nèi)部暗數(shù)據(jù)進(jìn)行分析處理,提升存儲性價比,推動信創(chuàng)產(chǎn)業(yè)發(fā)展及信息化建設(shè)。麥肯錫公司在2015年的報告中指出:暗數(shù)據(jù)的潛在價值高達(dá)11.1萬億美元。2022年我國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)1.57萬億,暗數(shù)據(jù)占據(jù)了數(shù)據(jù)總量的68%以上,因此,暗數(shù)據(jù)處理具備相當(dāng)大的經(jīng)濟(jì)潛力,是數(shù)據(jù)治理環(huán)節(jié)的重要一環(huán)。


    應(yīng)用案例

    案例一:達(dá)夢數(shù)據(jù)庫——“啟智”文本暗數(shù)據(jù)管理系統(tǒng)

    用戶向服務(wù)器上傳的文本數(shù)據(jù)達(dá)PB級,這些數(shù)據(jù)長期堆積、缺乏管理成為暗數(shù)據(jù),影響數(shù)據(jù)庫的維護(hù)成本及性能。Data Torch哈希模型可以為數(shù)據(jù)生成二進(jìn)制索引,成為暗數(shù)據(jù)處理環(huán)節(jié)的關(guān)鍵技術(shù),并在達(dá)夢的向量數(shù)據(jù)庫進(jìn)行工程化落地,檢索速度提高了6倍,準(zhǔn)確率提高了3倍,以數(shù)據(jù)安全為解決方案守護(hù)信創(chuàng)產(chǎn)業(yè)發(fā)展。


    案例二:航天海鷹——遙感氣象暗數(shù)據(jù)管理平臺

    氣象衛(wèi)星單日收集數(shù)百GB數(shù)據(jù),這些數(shù)據(jù)長期存儲、使用不及時成為暗數(shù)據(jù)。Data Torch相似匹配模型提取暗數(shù)據(jù)內(nèi)容,對比出過去氣象數(shù)據(jù)與當(dāng)前氣象數(shù)據(jù)之間的相似性,從而輔助洪水預(yù)警過程,使得洪水預(yù)警計算時間由過去的小時級縮短到現(xiàn)在的分鐘級,利用暗數(shù)據(jù)推動公共安全治理。


    案例三:航天網(wǎng)信——軍事多模態(tài)暗數(shù)據(jù)分析系統(tǒng)

    軍事數(shù)據(jù)包括視頻、音頻、圖片、文本等多模態(tài)數(shù)據(jù),不同模態(tài)之間難以交互形成暗數(shù)據(jù)。Data Torch多模態(tài)分析模型實現(xiàn)了軍事多模態(tài)暗數(shù)據(jù)的交互,從而利用軍事暗數(shù)據(jù)輔助戰(zhàn)場決策,并將百萬級數(shù)據(jù)集查詢延時由分鐘級縮短到秒級,利用暗數(shù)據(jù)推動軍隊信息化建設(shè)。


    發(fā)展規(guī)劃

    2024年:深入對接騰訊,部署暗數(shù)據(jù)服務(wù)接口。預(yù)計為航天科工集團(tuán)、達(dá)夢數(shù)據(jù)庫等企業(yè)交付10余臺服務(wù)器一體機(jī)設(shè)備,滿足訂單需求

    2025年:拓展市場份額,將暗數(shù)據(jù)服務(wù)授權(quán)至華為、阿里等,積極推動與政府部門的合作。

    2026年:進(jìn)一步提高市場占有率,改進(jìn)業(yè)務(wù)流程,優(yōu)化資源管理,承擔(dān)社會責(zé)任。


    知識產(chǎn)權(quán)

    該成果已申請/授權(quán)多項中國發(fā)明專利。


    合作方式

    專利許可、專利轉(zhuǎn)讓、作價入股、技術(shù)開發(fā)、面談等。


    【聯(lián)系方式】

    CG24008


    ?版權(quán)所有:華中科技大學(xué)科學(xué)技術(shù)發(fā)展院

    地址: 湖北省武漢市洪山區(qū)珞喻路1037號南三樓109、110,南一樓西樓102,東一樓340 郵政編碼:430074 Tel:027-87543315 027-87558732 027-87559760 mail:iat@hust.edu.cn