數(shù)據(jù)是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ),是推動社會經(jīng)濟發(fā)展的新型生產(chǎn)要素。作為數(shù)字經(jīng)濟的重要組成部分,數(shù)據(jù)在推動社會生產(chǎn)力發(fā)展中的作用日趨顯著,已深度融入生產(chǎn)、分配、流通、消費和社會服務(wù)管理等各個環(huán)節(jié)。中共中央、國務(wù)院印發(fā)的《數(shù)字中國建設(shè)整體布局規(guī)劃》提出了“數(shù)據(jù)資源規(guī)模和質(zhì)量加快提升,數(shù)據(jù)要素價值有效釋放”的目標,強調(diào)要夯實數(shù)字中國建設(shè)基礎(chǔ),全面賦能經(jīng)濟社會發(fā)展。
數(shù)據(jù)質(zhì)量是數(shù)據(jù)管理和數(shù)據(jù)分析的基礎(chǔ),決定了各行業(yè)的運營效率、服務(wù)品質(zhì)以及決策能力等。高質(zhì)量數(shù)據(jù)有助于優(yōu)化業(yè)務(wù)流程、提升服務(wù)品質(zhì)、提高決策精準度,對于推動信息化和智能化進程,實現(xiàn)數(shù)據(jù)驅(qū)動的創(chuàng)新發(fā)展具有深遠意義。然而,在工業(yè)數(shù)據(jù)采集過程中,數(shù)據(jù)質(zhì)量往往受多種因素影響:由于傳感器故障或讀數(shù)誤差、操作人員失誤、環(huán)境變化等原因,致使數(shù)據(jù)存在離群值和缺失值;由于環(huán)境干擾或設(shè)備老化等原因,造成數(shù)據(jù)包含噪聲、干擾等信息;由于設(shè)備不同步、采集頻率差異、數(shù)據(jù)延遲或傳輸錯誤等原因,導致數(shù)據(jù)存在時間不一致性等。低質(zhì)量數(shù)據(jù)的產(chǎn)生不僅直接影響數(shù)據(jù)的可用性,同時會導致員工操作失誤、決策偏差,企業(yè)運營效率降低和大量資源浪費等。
2022年12月印發(fā)的《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,2024年9月印發(fā)的《中共中央辦公廳國務(wù)院辦公廳關(guān)于加快公共數(shù)據(jù)資源開發(fā)利用的意見》,提出加強數(shù)據(jù)管理和利用的具體措施,包括建立健全數(shù)據(jù)質(zhì)量管理體系、推動數(shù)據(jù)標準化、加強數(shù)據(jù)安全保護等。工信部發(fā)布的《“十四五”大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃》也明確了大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展方向,強調(diào)優(yōu)化數(shù)據(jù)資源配置,激發(fā)數(shù)據(jù)要素潛能,推動大數(shù)據(jù)產(chǎn)業(yè)高質(zhì)量發(fā)展。國家系列文件的發(fā)布,為數(shù)據(jù)質(zhì)量管理明確了發(fā)展方向與發(fā)展路徑。
選擇可靠有效的數(shù)據(jù)處理方法
系統(tǒng)化的數(shù)據(jù)質(zhì)量提升流程是維護和提高數(shù)據(jù)質(zhì)量的堅固防線。獲取準確性高、一致性強的高質(zhì)量數(shù)據(jù),首先要有一套行之有效的數(shù)據(jù)處理方法,主要包括:異常數(shù)據(jù)檢測、數(shù)據(jù)去噪以及數(shù)據(jù)同步對齊等。
異常數(shù)據(jù)檢測是確保數(shù)據(jù)準確性的首要環(huán)節(jié)。及時、準確識別異常數(shù)據(jù)是數(shù)據(jù)分析中的關(guān)鍵一環(huán)。通過對異常數(shù)據(jù)的檢測可以增強數(shù)據(jù)集的完整性與可靠性,為后續(xù)數(shù)據(jù)分析和模型建立提供堅實的數(shù)據(jù)基礎(chǔ),是維護整個決策鏈準確性的重要措施。異常數(shù)據(jù)通常分為偏差數(shù)據(jù)、離群值和缺失值等。其中,離群值的產(chǎn)生是由于測量誤差或設(shè)備故障引起。比如,以特定的距離函數(shù)計算數(shù)據(jù)對象之間的距離來確定離群點,一般認為離其他數(shù)據(jù)更遠的數(shù)據(jù)點可能是離群點。該方法可以簡單直觀地檢測出異常數(shù)據(jù),但需謹慎選擇合適的距離度量標準。再比如,通過數(shù)據(jù)驅(qū)動方式學習數(shù)據(jù)中的模式或結(jié)構(gòu)來區(qū)分正常數(shù)據(jù)或異常數(shù)據(jù),該方法能夠適應(yīng)復(fù)雜的數(shù)據(jù)分布。異常數(shù)據(jù)還包括在監(jiān)測過程中出現(xiàn)的數(shù)據(jù)缺失,通常通過直接空值法、統(tǒng)計分析法和時間序列法等檢測來辨識異常數(shù)據(jù)。直接空值法通過簡單操作就能夠發(fā)現(xiàn)明顯的數(shù)據(jù)缺失。統(tǒng)計分析法是通過分析數(shù)據(jù)的分布特征實現(xiàn)數(shù)據(jù)的缺失值檢測,該方法有標準的流程,易于操作和復(fù)制。時間序列法是通過數(shù)據(jù)在時間維度上的連續(xù)性和趨勢性的分析來檢測數(shù)據(jù)的缺失值。
數(shù)據(jù)去噪處理是提升數(shù)據(jù)質(zhì)量的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)去噪處理是確保數(shù)據(jù)質(zhì)量的核心步驟,能夠有效提升數(shù)據(jù)集的純凈度和可信度,為后續(xù)數(shù)據(jù)分析和模型建立提供穩(wěn)定的數(shù)據(jù)平臺,是保障決策鏈精確性的重要基石。數(shù)據(jù)去噪的方法分為基于濾波器的數(shù)據(jù)去噪方法、基于頻域分析的數(shù)據(jù)去噪方法、基于機器學習的數(shù)據(jù)去噪方法等。比如,通過建立特定的濾波器來濾除數(shù)據(jù)中的高頻或低頻噪聲,保留有用的信號,確保數(shù)據(jù)的平滑性和準確性。還有通過將數(shù)據(jù)轉(zhuǎn)換到頻率域,利用信號在頻率特征的差異來消除噪聲。此外,通過訓練模型來學習數(shù)據(jù)的內(nèi)在模式和特征,能夠處理更加復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和噪聲類型。
數(shù)據(jù)同步對齊是提升數(shù)據(jù)質(zhì)量的關(guān)鍵步驟。數(shù)據(jù)同步對齊對保障數(shù)據(jù)的質(zhì)量具有決定性作用,提升數(shù)據(jù)集的一致性,為后續(xù)數(shù)據(jù)分析和模型建立搭建穩(wěn)定的數(shù)據(jù)框架。動態(tài)時間規(guī)整法通過計算兩個時間序列之間最佳規(guī)整路徑實現(xiàn)數(shù)據(jù)的非線性對齊,適用于不同速率的信號對齊以及不同長度的時間序列對齊。時序重采樣法通過改變采樣頻率、填補缺失時間點或合并時間間隔等方式將原始時間序列數(shù)據(jù)轉(zhuǎn)換為新的時間序列以實現(xiàn)數(shù)據(jù)同步,適用于解決由于采樣不一致導致的數(shù)據(jù)對齊問題。
實施嚴格的數(shù)據(jù)驗證與實時監(jiān)控
為了確保數(shù)據(jù)的有效性和準確性,嚴格的數(shù)據(jù)驗證是必不可少的環(huán)節(jié)。數(shù)據(jù)驗證是保障數(shù)據(jù)源可靠性的重要措施,是數(shù)據(jù)質(zhì)量提升的堅實支撐,主要包括格式驗證、范圍驗證和邏輯驗證等方法。格式驗證旨在檢查數(shù)據(jù)是否符合預(yù)定的格式要求,如日期格式、數(shù)值范圍等,確保數(shù)據(jù)的標準化。范圍驗證是確保數(shù)據(jù)在預(yù)定義的合理區(qū)間內(nèi),防止數(shù)據(jù)因操作失誤或采集誤差等偏離正常范圍。邏輯驗證則基于業(yè)務(wù)邏輯關(guān)系檢查數(shù)據(jù)之間的合理性,如數(shù)據(jù)的一致性和關(guān)聯(lián)性。高效的數(shù)據(jù)驗證機制能夠識別并糾正數(shù)據(jù)集中的錯誤、異常和遺漏,提高數(shù)據(jù)集的整體品質(zhì),確保數(shù)據(jù)的有效性和準確性,為后續(xù)分析和決策提供可靠的數(shù)據(jù)保障。
實時數(shù)據(jù)決策的重要性在現(xiàn)代社會各個行業(yè)中日益凸顯,這些決策都需要高效、可靠的實時數(shù)據(jù)監(jiān)控。數(shù)據(jù)監(jiān)控是維護數(shù)據(jù)實時性和連貫性的重要手段,是數(shù)據(jù)質(zhì)量提升的必要保障,主要包括實時數(shù)據(jù)監(jiān)控、閾值監(jiān)控和趨勢分析等方法。實時數(shù)據(jù)監(jiān)控通過建立實時報警機制,迅速識別數(shù)據(jù)異常情況,確保潛在問題被及時發(fā)現(xiàn)并得到有效處理。閾值監(jiān)控通過預(yù)設(shè)的合理范圍對數(shù)據(jù)進行實時跟蹤,一旦超出范圍即發(fā)出警報。趨勢分析通過挖掘歷史數(shù)據(jù),識別數(shù)據(jù)變化的長期趨勢,為未來趨勢預(yù)測提供依據(jù)。有效的數(shù)據(jù)監(jiān)控機制能夠促進數(shù)據(jù)的連續(xù)性和一致性,確保在快速變化的環(huán)境中實現(xiàn)精準的數(shù)據(jù)管理和快速響應(yīng),為各行各業(yè)的穩(wěn)定運行和效率提升提供強有力的支撐。
綜上所述,構(gòu)建完善的數(shù)據(jù)質(zhì)量提升流程是確保數(shù)據(jù)準確性、可靠性和應(yīng)用價值的關(guān)鍵所在。異常數(shù)據(jù)檢測為提升數(shù)據(jù)質(zhì)量奠定了基礎(chǔ),數(shù)據(jù)去噪和數(shù)據(jù)對齊則是提升數(shù)據(jù)質(zhì)量的有效手段。三者有機結(jié)合,能夠直觀地增強數(shù)據(jù)的完整性、純凈度和規(guī)范性,確保數(shù)據(jù)集的高標準和可靠性。數(shù)據(jù)驗證與數(shù)據(jù)監(jiān)控雖然不能直接提升數(shù)據(jù)質(zhì)量,但是能夠確立衡量數(shù)據(jù)質(zhì)量的關(guān)鍵準則,保障數(shù)據(jù)源的可靠性與連貫性,為數(shù)據(jù)質(zhì)量提升提供支撐。上述環(huán)節(jié)相輔相成,共同構(gòu)成了數(shù)據(jù)質(zhì)量閉環(huán)管理,確保數(shù)據(jù)從采集到應(yīng)用的全生命周期遵循高質(zhì)量標準。
構(gòu)建科學規(guī)范的數(shù)據(jù)質(zhì)量管理系統(tǒng)
數(shù)據(jù)質(zhì)量的提升過程是一項復(fù)雜的系統(tǒng)工程,需要精準匹配不同行業(yè)的實際需求,全面考慮特定環(huán)境下的設(shè)備類型、運行狀態(tài)、業(yè)務(wù)流程等獨特因素,采取針對性的方法與措施增強數(shù)據(jù)的準確性和可用性,提升整體的運營效率,優(yōu)化資源分配,促進各行業(yè)的數(shù)字化轉(zhuǎn)型。與此同時,根據(jù)變化的數(shù)據(jù)環(huán)境和業(yè)務(wù)需求,持續(xù)優(yōu)化和迭代數(shù)據(jù)質(zhì)量提升流程,確保數(shù)據(jù)價值最大化。
在數(shù)字化浪潮推動下,數(shù)據(jù)質(zhì)量管理快速邁向智能化階段,數(shù)據(jù)質(zhì)量提升正面臨嚴峻挑戰(zhàn):一方面,數(shù)據(jù)量呈爆炸性增長;另一方面,實時數(shù)據(jù)流的處理、數(shù)據(jù)精確度與一致性的維護等需求標準日益提高。因此,未來數(shù)據(jù)質(zhì)量提升應(yīng)深度聚焦數(shù)據(jù)處理智能技術(shù)開發(fā),實現(xiàn)對大規(guī)模數(shù)據(jù)的深度挖掘、精準分析和快速響應(yīng);全力構(gòu)建自適應(yīng)數(shù)據(jù)驗證系統(tǒng),確保數(shù)據(jù)在動態(tài)變化的環(huán)境中自動調(diào)整,始終符合高質(zhì)量標準;不斷優(yōu)化傳感器技術(shù),提升數(shù)據(jù)的采集效率和準確性;廣泛推廣邊緣計算與分布式存儲技術(shù),增強數(shù)據(jù)處理的能力和靈活性,降低數(shù)據(jù)處理的延遲;精心制定和推廣國際數(shù)據(jù)管理標準,促進數(shù)據(jù)質(zhì)量的全球化統(tǒng)一;確立數(shù)據(jù)質(zhì)量在促進各行業(yè)智能化和數(shù)字化轉(zhuǎn)型中的核心作用,推動數(shù)據(jù)質(zhì)量邁向更高層次。