Hadoop-analys: inte så enkelt mellan flera datakällor

2025

Innehållsförteckning:

Data från olika källor svåra att ansluta och kartlägga
Hadoop-experter försöker slå samman data tillsammans

Hadoop är ett bra ställe att ladda ner data för analysbehandling eller för att modellera större volymer av en enda datakälla som inte är möjliga med befintliga system. Men eftersom företag tar med sig data från många källor till Hadoop, finns det en ökande efterfrågan på analys av data över olika källor, vilket kan vara extremt svårt att uppnå. Det här inlägget är det första i en tredelad serie som förklarar de frågor som organisationer står inför, när de försöker analysera olika datakällor och typer inom Hadoop, och hur man löser dessa utmaningar. Dagens inlägg fokuserar på de problem som uppstår när man kombinerar flera interna källor. De nästa två inläggen förklarar varför dessa problem ökar i komplexitet när externa datakällor läggs till och hur nya metoder hjälper till att lösa dem.

Data från olika källor svåra att ansluta och kartlägga

Data från olika källor har olika strukturer som gör det svårt att ansluta och kartlägga datatyper tillsammans, även data från interna källor. Att kombinera data kan vara särskilt svårt om kunder har flera kontonummer eller om en organisation har förvärvat eller fusionerat med andra företag. Under de senaste åren har vissa organisationer försökt använda dataupptäckt eller datavetenskapliga applikationer för att analysera data från flera källor lagrade i Hadoop. Detta tillvägagångssätt är problematiskt eftersom det innebär en hel del gissningar: användarna måste bestämma vilka utländska nycklar som ska användas för att ansluta olika datakällor och göra antaganden när de skapar datamodellöverlägg. Dessa gissningar är svåra att testa och ofta felaktiga när de används i skala, vilket leder till felaktig dataanalys och misstro mot källorna.

Hadoop-experter försöker slå samman data tillsammans

Därför har organisationer som vill analysera data över datakällor använt Hadoop-experter för att skapa anpassade, källspecifika skript för att sammanfoga datauppsättningar. Dessa Hadoop-experter är vanligtvis inte dataintegration eller enhetslösningsexperter, men de gör det bästa de kan för att tillgodose organisationens omedelbara behov. Dessa experter använder vanligtvis Pig eller Java för att skriva hårda och snabba regler som avgör hur man ska kombinera strukturerad data från specifika källor, t.ex. matchning av poster baserade på ett kontonummer. När ett skript för två källor har skrivits, om en tredje källa måste läggas till, måste det första skriptet kastas och ett nytt skript utformas för att kombinera tre specifika källor. Samma sak händer om en annan källa läggs till och så vidare. Denna strategi är inte bara ineffektiv, utan den misslyckas även när den används i skala, hanterar kantfall dåligt, kan resultera i ett stort antal duplikatposter och sammanfogar ofta många poster som inte bör kombineras.