數據清洗

數據清洗

發現并糾正數據文件中可識别的錯誤
數據清洗(Datacleaning)–對數據進行重新審查和校驗的過程,目的在于删除重複信息、糾正存在的錯誤,并提供數據一緻性。[1]與問卷審核不同,錄入後的數據清理一般是由計算機而不是人工完成。數據清洗需要注意的是不要将有用的數據過濾掉,對于每個過濾規則認真進行驗證,并要用戶确認。數據清洗從名字上也看的出就是把“髒”的“洗掉”,指發現并糾正數據文件中可識别的錯誤的最後一道程序,包括檢查數據一緻性,處理無效值和缺失值等。數據清洗是一個反複的過程,不可能在幾天内完成,隻有不斷的發現問題,解決問題。
    中文名:數據清洗 外文名:Data cleaning 适用領域: 所屬學科: 對 象:數據 目 的:發現并糾正數據文件

基本概念

數據清洗從名字上也看的出就是把“髒”的“洗掉”,指發現并糾正數據文件中可識别的錯誤的最後一道程序,包括檢查數據一緻性,處理無效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的集合。

這些數據從多個業務系統中抽取而來而且包含曆史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“髒數據”。

我們要按照一定的規則把“髒數據”“洗掉”,這就是數據清洗。而數據清洗的任務是過濾那些不符合要求的數據,将過濾的結果交給業務主管部門,确認是否過濾掉還是由業務單位修正之後再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重複的數據三大類。數據清洗是與問卷審核不同,錄入後的數據清理一般是由計算機而不是人工完成。

主要類型

殘缺

這一類數據主要是一些應該有的信息缺失,如供應商的名稱、分公司的名稱、客戶的區域信息缺失、業務系統中主表與明細表不能匹配等。對于這一類數據過濾出來,按缺失的内容分别寫入不同Excel文件向客戶提交,要求在規定的時間内補全。補全後才寫入數據倉庫。

錯誤

這一類錯誤産生的原因是業務系統不夠健全,在接收輸入後沒有進行判斷直接寫入後台數據庫造成的,比如數值數據輸成全角數字字符、字符串數據後面有一個回車操作、日期格式不正确、日期越界等。這一類數據也要分類,對于類似于全角字符、數據前後有不可見字符的問題,隻能通過寫SQL語句的方式找出來,然後要求客戶在業務系統修正之後抽取。

日期格式不正确的或者是日期越界的這一類錯誤會導緻ETL運行失敗,這一類錯誤需要去業務系統數據庫用SQL的方式挑出來,交給業務主管部門要求限期修正,修正之後再抽取。

重複

對于這一類數據——特别是維表中會出現這種情況——将重複數據記錄的所有字段導出來,讓客戶确認并整理。數據清洗是一個反複的過程,不可能在幾天内完成,隻有不斷的發現問題,解決問題。

對于是否過濾,是否修正一般要求客戶确認,對于過濾掉的數據,寫入Excel文件或者将過濾數據寫入數據表,在ETL開發的初期可以每天向業務單位發送過濾數據的郵件,促使他們盡快地修正錯誤,同時也可以做為将來驗證數據的依據。數據清洗需要注意的是不要将有用的數據過濾掉,對于每個過濾規則認真進行驗證,并要用戶确認。

上一篇:玄武岩纖維

下一篇:研究性學習

相關詞條

相關搜索

其它詞條