更新時(shí)間:2022年06月28日09時(shí)56分 來(lái)源:傳智教育 瀏覽次數(shù):
數(shù)據(jù)質(zhì)量的評(píng)價(jià)指標(biāo)主要包括數(shù)據(jù)的準(zhǔn)確性(accuracy)、完整性(completeness)、簡(jiǎn)潔性(concision)及適用性(applicability),其中數(shù)據(jù)的準(zhǔn)確性、完整性和簡(jiǎn)潔性是為了保證數(shù)據(jù)的適用性。下面針對(duì)數(shù)據(jù)質(zhì)量的主要評(píng)價(jià)指標(biāo)進(jìn)行詳細(xì)的介紹。
數(shù)據(jù)的準(zhǔn)確性就是要求數(shù)據(jù)中的噪聲盡可能少。為提高數(shù)據(jù)的準(zhǔn)確性,需對(duì)數(shù)據(jù)集進(jìn)行降噪處理。對(duì)于數(shù)據(jù)中偏離常規(guī)、分散的小樣本數(shù)據(jù),一般可視為噪聲或異常數(shù)據(jù),可通過(guò)最常用的異常值檢測(cè)方法聚類進(jìn)行處理。
完整性指的是數(shù)據(jù)信息是否存在缺失的狀況。數(shù)據(jù)缺失的情況可能是整條數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價(jià)值會(huì)大大降低,也是數(shù)據(jù)質(zhì)量更為基礎(chǔ)的一項(xiàng)評(píng)估標(biāo)準(zhǔn)。數(shù)據(jù)質(zhì)量的完整性比較容易評(píng)估,一般通過(guò)數(shù)據(jù)統(tǒng)計(jì)中的記錄值和唯一值進(jìn)行評(píng)估。
例如,網(wǎng)站日志日訪問(wèn)量就是一個(gè)記錄值,平時(shí)的日訪問(wèn)量在1000左右,突然某天降到100,就需要檢查數(shù)據(jù)是否存在缺失了。
簡(jiǎn)潔性就是要盡量選擇重要的本質(zhì)屬性,并消除冗余。進(jìn)行決策時(shí),決策者往往抓住反映問(wèn)題的主要因素,而不需要把問(wèn)題的細(xì)節(jié)都搞得很清楚。在數(shù)據(jù)挖掘時(shí),特征的個(gè)數(shù)越多,產(chǎn)生噪聲的機(jī)會(huì)就越大。一些不必要的屬性既會(huì)增大數(shù)據(jù)量,又會(huì)影響挖掘數(shù)據(jù)的質(zhì)量。因此,選擇較小的典型特征集不僅符合決策者的心理,而且還容易挖掘到簡(jiǎn)潔有價(jià)值的信息。
適用性是評(píng)價(jià)數(shù)據(jù)質(zhì)量的重要標(biāo)準(zhǔn)。建立數(shù)據(jù)倉(cāng)庫(kù)的目的是進(jìn)行數(shù)據(jù)挖掘、支持決策分析,而在現(xiàn)實(shí)世界中很難挖掘到滿意的數(shù)據(jù),但是我們可以盡量獲取符合要求的數(shù)據(jù)。數(shù)據(jù)的質(zhì)量是否能滿足決策的需要是適用性的關(guān)鍵所在。盡管前面已經(jīng)強(qiáng)調(diào)了數(shù)據(jù)的準(zhǔn)確性、完整性和簡(jiǎn)潔性,但歸根結(jié)底是為了數(shù)據(jù)的實(shí)際效用。從數(shù)據(jù)的實(shí)際效用上講,適用性才是評(píng)價(jià)數(shù)據(jù)質(zhì)量的核心準(zhǔn)則。
北京校區(qū)