Nozioni di base di pulizia dei dati di pulizia Shawn Deny

dati o pulizia è thecorrection dei dati non conforme al formato set del set di database orrecord, che è anche conosciuto come sporcizia o dati grossolani. Questo può essere fatto byeither eliminazione di dati non corretti (o una pulizia rigorosa), o modificare incorrectentries che corrisponde voci corrette (o una pulizia sfocato). In questo modo, thehomogeneity di record nel database viene mantenuto, e gli errori ha fatto whileprocessing i dati sono ridotti al minimo. Pulizia dei dati è diverso da datavalidation, che è anche un metodo di (di solito) respingendo voci non corrette, ma soprattutto si verifica al momento dell'inserimento dei dati. La pulizia viene eseguita su entriesin un database esistente.

pulizia è in genere fatto byremoving errori tipografici, o la convalida contro record corretti. Peresempio, un numero di telefono non può contenere lettere, e se una voce da acustomer su un modulo non contiene il codice di zona, quindi il codice può beadded se la posizione del cliente è noto. Allo stesso modo, i dati pertinenti forse allegate insieme, come i numeri di telefono e indirizzi o rollnumbers universitari con nomi di reparto e gruppi anno.

dati grezzi in una company'sdatabase, come errata indirizzi email o numeri di telefono, può dimostrare di bedetrimental alla performance della società, in quanto può portare a ordini incorrectlyplaced, l'invio di posta con le persone sbagliate, incapacità di contattare acustomer, e molti problemi di inventario, come ordinare la quantityfrom sbagliato fabbrica o miscalculating stipendi dei dipendenti. Allo stesso modo, nei database nationalcitizenship, dati non corretti possono provocare sondaggi accurati, whichwill portano a politiche economiche sbagliate in materia di sanità, istruzione andinfrastructure .

Durante la pulizia dei dati, i parametri thefollowing sono esaminate: .

· validità, che è il grado in cui i datafollows le regole del database, come la lunghezza, tipo di dati, e expressionpatterns

· completezza e l'accuratezza. Dati precisi deve Beas vicino al valore "vero". Mentre 100% esatto difficile da ottenere, esso canbe fatto da rimandi, come l'utilizzo di codici a barre e namestogether prodotto per controllare il prezzo .

· La coerenza e uniformità, che controlla se thesame dati sono rappresentati allo stesso modo tra diversi database. Peresempio, se l'unità di peso è impostato come chili, quindi non dovrebbe essere sterline inanother collegati database.

Naturalmente, ci sono severalproblems con il tentativo di correggere tutti i dati, il più comune dei quali isthe rimozione di dati e perdita di informazioni. Ad esempio, nel tentativo di fitaddresses in un formato prestabilito, tutti i dettagli che sarebbero stati dimostrati morehelpful sono rimossi, risultando in un cliente difficile da localizzare. Buona qualità del software di pulizia dei dati, come quello fromDataTools, devono tenere conto che i dettagli importanti i dati sono notremoved per il bene di trattamento rapido ed efficace .