隨著物聯網、云計算、數據技術的快速發展,迎來了大數據時代。大數據技術改變了
傳統的數據收集、處理與應用模式,為大量行業的跨越式發展帶來了新的機遇。從字面上
理解,數據清洗( Data Cleaning( leaning)就是把“臟”的數據進行“清洗”,也就是發現并
糾正數據文件中可能岀現的錯誤,包括檢査數據一致性、處理無效值和缺失值等。通常在
數據倉庫中的數據都是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來
而且包含歷史數據,這樣就避免不了有的數據是錯誤數據,有的數據相互之間有沖突,這
些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。我們要按照一定的規則
把“臟數據”洗掉,這就是數據清洗。數據清洗的任務是過濾那些不符合要求的數據,將
過濾的結果交給業務主管部門,確認是否過濾掉那些“臟數據”還是由業務單位修正之后
再進行抽取。