Hem databaser Vad är smutsiga data? - definition från techopedia

Vad är smutsiga data? - definition från techopedia

Innehållsförteckning:

Anonim

Definition - Vad betyder smutsiga data?

Smutsiga uppgifter avser data som innehåller felaktig information. Det kan också användas när det hänvisas till data som finns i minnet och ännu inte laddats in i en databas. Det fullständiga borttagandet av smutsiga data från en källa är opraktiskt eller praktiskt taget omöjligt.

Följande data kan betraktas som smutsiga data:

  • Vilseledande data
  • Duplicera data
  • Felaktiga data
  • Felaktiga data
  • Icke-integrerad data
  • Uppgifter som bryter mot affärsregler
  • Data utan en generaliserad formatering
  • Felaktiga punkterade eller stavade data

Techopedia förklarar smutsiga data

Förutom felinmatning kan smutsiga data genereras på grund av felaktiga metoder i datahantering och datalagring. Vissa smutsiga datatyper förklaras nedan:

  • Felaktiga data - För att säkerställa att uppgifterna är giltiga eller korrekta, bör det angivna värdet överensstämma med fältets giltiga värden. Till exempel bör värdet som anges i månadsfältet ligga mellan 1 och 12, eller så måste en individs ålder vara mindre än 130. Datavärdets korrekthet kan programmatiskt upprätthållas med hjälp av uppslagstabeller eller med redigeringskontroller.
  • Felaktiga data - Det är möjligt att ett datavärde kan vara korrekt, men inte korrekt. Ibland är det praktiskt att undersöka mot andra filer eller fält för att ta reda på om datavärdet är korrekt baserat på det sammanhang det används. Fortfarande kan noggrannhet ofta endast valideras genom manuell verifiering.
  • Brott mot affärsregel - Data som bryter mot affärsregel är en annan typ av smutsiga uppgifter. Till exempel måste ett effektivt datum alltid komma före ett utgångsdatum. Ett annat exempel på brott mot affärsregel kan vara en patients Medicare-försäkringsanspråk där patienten fortfarande kan vara under pensionsåldern och inte har rätt till Medicare.
  • Inkonsekvent data - Okontrollerad dataredundans leder till datakonsekvenser. Varje organisation påverkas av inkonsekventa och repetitiva data. Detta är särskilt typiskt för kunddata.
  • Ofullständig data - Data med saknade värden är huvudtypen ofullständig data.
  • Duplicerad data - Duplicerad data kan uppstå på grund av upprepade inlämningar, felaktig datainsamling eller användarfel.

För att öka datakvaliteten och förhindra smutsiga data bör organisationer införliva metodologier för att säkerställa datorns fullständighet, giltighet, konsistens och korrekthet.

Vad är smutsiga data? - definition från techopedia