使用AI和機器學習增強數據指紋識別能力

  • 簡介
  • 成功部署數據目錄的第一個挑戰
  • 使用AI和機器學習進行數據標記和指紋識別

在大數據時代,數據目錄對於組織使用戶訪問所需數據至關重要。 但是,如果填充目錄需要大量的手動工作,則可能很難部署此重要工具。 成功實施數據目錄的關鍵是快速填充數據目錄,以便可以快速使用它。

部署數據目錄的最大挑戰之一是為它填充有用的信息。

這可以通過自動數據指紋識別過程來實現,該過程使用結合了人工學習,評分和評論的增強的機器學習技術。

成功部署數據目錄的第一個挑戰

部署數據目錄的最大挑戰之一是為它填充有用的信息。 儘管許多組織都有定義了術語和定義的業務詞彙表,但是將這種業務元數據連接到技術元數據卻是一個挑戰,其中技術元數據包含統計人口統計信息和數據所處的實際位置。

在數據目錄空間中,人們將引用“標記”數據的功能。 這是將數據列的物理實例與關聯的業務詞彙表術語相連接的行為。 在大多數組織中,一個業務術語將在整個組織中部署數十個(如果不是數百個)該術語的物理實例。

例如,“名字”是位於各種系統中的商業術語。 問題在於,定位“名”的所有實例是一項非常繁瑣的任務。 這變得更加困難,因為很多時候數據不一定總是被很好地標記。 因此,列的名稱可以是“名字”,“ fname”,“ fn”,“給定名稱”,甚至是“ C01”,並且所有這些列都可以包含名字。

這轉化為實現數據目錄的一個大問題。 您如何將所有業務術語與與該術語相關的數據的實際實現聯繫起來? 儘管某些目錄試圖通過眾包採購來做到這一點,但實踐經驗表明,這是行不通的,因為這種方法無法擴展以應對組織中不斷增長的數據量。

至關重要的是,眾包不處理所謂的“暗數據”或沒人熟悉的數據。 由於創建新數據集的速度令人難以置信,因此無法跟踪組織中的所有實例。 之所以會發生這種情況,是因為該數據對於組織而言是新的(例如,如果您從外部供應商那裡購買數據),或者是因為很長時間以來沒有人接觸過它。

這就是自動化對於解決數據標記問題至關重要的原因。

使用AI和機器學習進行數據標記和指紋識別

指紋基於以下概念進行操作:一列數據具有簽名或指紋,並且通過檢查一列數據中的數據值,我們可以識別該數據是什麼並確定兩件事。

Waterline Data通過使用人工智能和機器學習來分析數據並進行我們所謂的“數據指紋識別”來解決上述挑戰。

指紋識別基於這樣的概念:一列數據具有簽名或指紋,並且通過檢查一列數據中的數據值,我們可以識別出該數據是什麼並確定兩件事:哪些其他列共享相同的指紋,以及可以與該數據關聯的商業術語或標籤。

在第二點上(將業務術語連接到未標記或標籤錯誤的數據列),Waterline數據指紋識別可以針對許多業務術語執行此操作,但不能對所有現成的功能執行此操作。 在某些方面,它必須經過培訓。 例如,它知道什麼是名字或姓氏,或者什麼是信用卡號。

但它不知道ACME保險的“索賠編號”是什麼,因為索賠編號的格式對於ACME而言是唯一的。 但是,一旦知識淵博的業務用戶或數據管家僅將一列標記為“索賠編號”,系統便會知道索賠編號是什麼。 此業務術語的標籤會自動傳播到具有相同指紋的所有其他未標記數據列。

它功能強大的原因是,您只需標記一次唯一屬性,計算機便會自動學習並傳播標記。 策展甚至可以轉移到全新的數據源。 假設一個具有TB級新數據的新s3存儲桶剛剛上線。 您如何手動篩選呢? 使用“水線數據”,可以使用現有指紋來自動匹配新的數據主體。

閱讀完整的下載白皮書:

每次$ 1美元

在這裡提交廣告

網絡安全媒體

訪問最新的信息技術白皮書,研究,案例研究以及涵蓋諸如IT管理,企業管理,信息管理和物聯網(IOT)等廣泛主題的更多內容。
https://websecuremedia.com/

發表評論