以“元”爲始--淺談元數據管理實踐
高等教育信息化過程中(zhōng)所選型系統和設備的生(shēng)産廠商(shāng)不盡相同,不同系統之間沒有相互關聯和互通 。随着系統逐步建設,其基礎數據分(fēn)布雜(zá)亂分(fēn)散、數據邏輯無序割裂。不同設備不同系統間相互堆疊,彼此形成相對封閉和繁雜(zá)的管理方式,逐漸形成了衆多的“信息孤島”。數據資(zī)源散落在多個業務系統中(zhōng),數據從生(shēng)産到使用中(zhōng)間流程不清晰,學校管理人員(yuán)無法及時感知(zhī)數據分(fēn)布與更新情況,無法進行數據可視化及全局數據查看。
現有的數據處理過程是這樣的:當業務場景中(zhōng)的應用數據出現問題時,往往需要由故障現象定位故障數據,進而通過技術分(fēn)析找到底層邏輯,經過一(yī)系列“順藤摸瓜”之後才能鎖定故障源。如此往複,工(gōng)作量巨大(dà)繁瑣,且難以形成标準化解決思路和方法,如遇到底層數據和邏輯發生(shēng)變動,其故障判斷口徑會失效,需要進行新的“順藤摸瓜”式摸索和判斷。
現有情況下(xià),彙報管理和規劃管理工(gōng)作往往受數據信息時效性限制,無法精确管理業務發展和建設狀态,無法分(fēn)辨和标識已有系統的建設狀态、待建設狀态和中(zhōng)止狀态,造成資(zī)源利用的浪費(fèi)。更爲嚴重的是,模糊的數據基礎無法爲整體(tǐ)業務規劃和業務建設提供真實有效的信息支持,進而影響工(gōng)作進度,甚至帶來一(yī)定的工(gōng)作風險,造成業務主體(tǐ)信息化整體(tǐ)建設進度的落後。
信息中(zhōng)心歸集彙總的系統數據缺乏全面的屬性說明,且數據命名标準不一(yī),難以理解其業務含義,帶來使用上的不便,不具備有效的數據價值。
高校的業務數據類型繁多,包括傳統數據庫信息、線下(xià)數據、半結構化數據等,各種數據散落到各業務系統,難以産生(shēng)有效的關聯。基于教育工(gōng)作的發展曆史悠久,部分(fēn)數據關系和接口信息維護已經缺失,無法建立有效的對應關系和關聯組合。
元數據模塊功能架構圖
針對以上數據管理難題,時彙高校數據治理“元數據”模塊可以很好地對多元異構數據源進行統一(yī)管理,“元數據”模塊具有以下(xià)功能:
◆元數據采集:具備不同類型元數據自動化采集的功能,可以通過業務規則進行數據過濾和數據采集,可以覆蓋傳統數據庫、ETL工(gōng)具、excel、非結構化數據等類型。
◆元數據總覽:基于元數據統計各業務部門的元數據情況,包括變更情況、分(fēn)布統計等内容。
◆元模型管理:用戶可以進行元模型的設計、管理、導入導出等操作,從業務層面對元模型進行核查維護、功能升級或者自定義擴展。
◆元數據變更分(fēn)析:提供各類元數據的修改、變更等基礎維護功能,并形成版本管理,進而對不同版本之間的差異進行分(fēn)析。
◆數據血緣分(fēn)析:可基于ETL集成工(gōng)具和數據模型的關聯自動生(shēng)成血緣分(fēn)析,進而追溯到相關聯的表格和字段。通過對數據間血緣關系的可視化應用分(fēn)析,可以查看數據的上下(xià)遊邏輯關系,以便進行分(fēn)析判斷和問題定位。
◆數據地圖:對數據進行全生(shēng)命周期展示,展示從源、數倉到應用的全鏈路關系數據字典管理:能夠基于系統、部門和數據庫維度展示其數據字典,能夠基于平台維護其業務信息,增強業務理解。
在實際工(gōng)作中(zhōng),我(wǒ)們以全域采集爲工(gōng)作中(zhōng)心,基于數據中(zhōng)心對數據進行分(fēn)類管理,按全生(shēng)命周期進行拆分(fēn),分(fēn)爲:調研、采集、整合和運維。在此過程中(zhōng),元數據是業務系統和數據資(zī)産的核心點,連通業務部門和信息中(zhōng)心的紐帶。元數據的管理包括:技術元數據、業務元數據和管理元數據。其中(zhōng),技術元數據即爲常見的實體(tǐ)表,數據字典等信息;業務元數據即爲一(yī)些涉及報表的業務指标,業務标準等内容;管理元數據即爲高校内部人員(yuán)、組織架構信息等。
在這個階段中(zhōng),需要對現有高校的數據資(zī)産情況進行統籌,了解具體(tǐ)業務系統的運行情況,梳理不同系統在高校整體(tǐ)業務中(zhōng)的結構和功能,通過梳理以明确各系統的業務優先級,往往可以以某一(yī)兩個系統爲切入點進行定點梳理。在梳理工(gōng)作的同時,還需要實現一(yī)系列準備工(gōng)作:梳理系統信息的調研收集、新增數據庫訪問用戶權限、網絡權限的開(kāi)通等。調研收集是此階段的工(gōng)作重點,需要重點獲取以下(xià)内容:
➊ 系統運行在什麽數據庫環境下(xià)?系統對應的數據表有多少個?(範圍确認)
➋ 系統目前能通過什麽途徑/方法可以篩選出核心的表?(業務确認)
➌ 是否擁有一(yī)個獨立的數據管控組織,負責對數據資(zī)産進行維護?(組織架構)
➍ 系統内部之間的數據流關系是怎樣的?是否都具備文檔或者數據模型說明?(數據交換)
➎ 數據流關系展示下(xià)鑽到什麽程度?是否需要到字段級别?(數據地圖展示)
采集階段可以将高校資(zī)産數據進行統一(yī)采集,并形成相應的核心表記錄。核心表包括主數據和參考數據兩部分(fēn),主數據是高校“黃金數據”,參考數據能夠爲業務部門提供數據分(fēn)析基礎。通過核心表的梳理和建立,可以進一(yī)步梳理和細化數據的核心字段,這部分(fēn)工(gōng)作可以加強業務部門的數據溝通和交流,共同完成治理工(gōng)作,在整個過程中(zhōng),通過關聯業務之前的條件過濾和條件組合,可以從數據源頭進行數據質量提升,加強業務預防工(gōng)作能力。
本階段的工(gōng)作重點在于系統梳理過程彙總涉及龐雜(zá)的文檔梳理和系統對接,需要對工(gōng)作内容進行整理和梳理,并對相應的文檔進行規範化管理,根據經驗,可按需excel文檔記錄、數據庫關聯分(fēn)析等方法來推動工(gōng)作的快速開(kāi)展。
整合階段的工(gōng)作重心在于梳理表與表之間、系統與系統之間的關聯,除了業務部門之間的協同配合外(wài),還需梳理大(dà)量的接口文檔,包括非規範性文檔和信息。整合工(gōng)作可以對高校整體(tǐ)資(zī)産數據進行統一(yī)管理,形成數據之間的流向記錄,起到對業務工(gōng)作的全面核心支撐。
本階段的工(gōng)作重點在于同步開(kāi)展數據治理和業務開(kāi)展工(gōng)作,在工(gōng)作中(zhōng)逐步完成數據收集和确認,同時根據實際業務需求對元數據進行調整和修正。
完善的元數據運維機制能更好地維護元數據完整性和業務權威性。業務系統中(zhōng)發生(shēng)業務變更,需要修改、新增、删除數據庫信息時,業務系統需在元數據管理平台提交變更計劃申請,變更申請通過審核後才能執行變更計劃,如:增加表、修改表的腳本。變更完成後,應立即使用元數據管理平台對應采集庫表元數據,并進行數據信息的更新管理。
基于以上方案,高校業務系統将建成如下(xià)數據治理效果,以下(xià)爲部分(fēn)效果展示圖,數據來源爲虛拟業務,僅供參考:
元數據血緣追溯
元數據應用2
我(wǒ)們在高校數據治理摸索過程中(zhōng),不同的主體(tǐ)面臨不同的情況和困難,需持續參考和借鑒已有的成功經驗和最佳實踐,結合自身的實際情況,探索出符合各自校情特色的“智慧數據高校”發展之路。
如有更多建議和咨詢請聯系我(wǒ)們,我(wǒ)們将竭誠爲您服務。