Innehållsförteckning:
- Hur Big Data används
- Var är det verkliga värdet?
- Ibland gör små data en större (och mindre dyr) inverkan
Big data är ett filtord som används för att hänvisa till hanteringen av stora datamängder. Vi förstår alla att ju större datamängd, desto mer komplex blir det. Traditionella databaslösningar klarar ofta inte att hantera stora mängder data korrekt på grund av deras komplexitet och storlek. Därför är det en utmanande uppgift att hantera stora datamängder och utvinna verklig insikt. Samma "värde" -koncept är också tillämpligt på små data.
Hur Big Data används
Konventionella databaslösningar baserade på RDBMS-konceptet kan hantera transaktionsdata mycket bra och används ofta i olika applikationer. Men när det gäller hantering av en stor uppsättning data (data som arkiveras och finns i terabyte eller petabytes) misslyckas ofta dessa databaslösningar. Dessa datamängder är för stora och för det mesta passar de inte in i arkitekturen för traditionella databaser. Idag har big data blivit ett kostnadseffektivt sätt att hantera större uppsättningar av data. Ur organisatorisk synvinkel kan användningen av big data delas in i följande kategorier, där big data: s verkliga värde finns:- Analytisk användning
Analyser av big data har avslöjat många viktiga dolda aspekter av data som är för dyra att bearbeta. Om vi till exempel måste kontrollera studenternas trendintresse för ett visst nytt ämne kan vi göra detta genom att analysera dagliga närvarojournaler och andra sociala och geografiska fakta. Dessa fakta fångas i databasen. Om vi inte kan komma åt dessa data på ett effektivt sätt kan vi inte se resultaten.
- Aktivera nya produkter
På senare tid har många nya webbföretag, till exempel Facebook, börjat använda big data som en lösning för att lansera nya produkter. Vi vet alla hur populär Facebook är - det har framgångsrikt förberett en högpresterande användarupplevelse med big data.
Var är det verkliga värdet?
Olika big data-lösningar skiljer sig åt i det tillvägagångssättet där de lagrar data, men till slut lagrar de alla data i en platt filstruktur. I allmänhet består Hadoop av filsystemet och en del abstraktioner av operativsystemnivå. Detta inkluderar en MapReduce-motor och Hadoop Distribution File System (HDFS). Ett enkelt Hadoop-kluster inkluderar en huvudnod och flera arbetarnoder. Huvudnoden består av följande:- Uppgiftsspårare
- Job Tracker
- Namn Nod
- Datanod
- Uppgiftsspårare
- Datanod
Vissa implementationer har bara datanoden. Datanoden är det faktiska området där data ligger. HDFS lagrar stora filer (inom intervallet terabyte till petabytes) fördelade över flera maskiner. Tillförlitligheten för data på varje nod uppnås genom att replikera data över alla värdar. Således är data tillgängliga även när en av noderna är nere. Detta hjälper till att uppnå snabbare svar mot frågor. Detta koncept är mycket användbart för stora applikationer som Facebook. Som användare får vi ett svar på vår chattbegäran, till exempel nästan omedelbart. Tänk på ett scenario där en användare måste vänta länge medan han chattar. Om meddelandet och det efterföljande svaret inte levereras omedelbart, hur många använder faktiskt dessa chattverktyg?
Återgå till Facebook-implementeringen, om uppgifterna inte replikeras över klustren, kommer det inte att vara möjligt att ha en tilltalande implementering. Hadoop distribuerar data över maskiner i ett större kluster och lagrar filer som en sekvens av block. Dessa block har samma storlek förutom det sista blocket. Storleken på blocket och replikationsfaktorn kan anpassas efter behov. Filer i HDFS följer strikt en gång och kan därför bara skrivas eller redigeras av en användare åt gången. Beslut om replikering av block fattas med namnet nod. Namnnoden får rapporter och pulssvar från var och en av datanoderna. Pulssvaren säkerställer tillgängligheten för motsvarande datanod. Rapporten innehåller detaljerna om blocken i datanoden.
En annan implementering av big data, Cassandra, använder också ett liknande distributionskoncept. Cassandra distribuerar data baserat på geografisk plats. Därför är data i Cassandra segregerade baserat på den geografiska platsen för dataanvändningen.
Ibland gör små data en större (och mindre dyr) inverkan
Enligt Rufus Pollock från Open Knowledge Foundation är det ingen mening att skapa hype kring big data medan små data fortfarande är den plats där det verkliga värdet ligger.
Som namnet antyder är små data en uppsättning data riktade från en större uppsättning data. Små data avser att flytta fokus från dataanvändning och det syftar också till att motverka trenden att gå mot big data. Den små datainriktningen hjälper till att samla in data baserat på specifika krav med mindre ansträngning. Som ett resultat är det den effektivare affärsmetoden när du implementerar affärsinformation.
I sin kärna kretsar begreppet små data kring företag som kräver resultat som kräver ytterligare åtgärder. Dessa resultat måste hämtas snabbt och den efterföljande åtgärden bör också genomföras snabbt. Således kan vi eliminera de typer av system som vanligtvis används i big data-analys.
I allmänhet, om vi överväger några av de specifika system som krävs för stordataförvärv, kan ett företag investera i att sätta upp mycket serverlagring, använda sofistikerade avancerade servrar och de senaste datalagringsapplikationerna för att hantera olika databitar, inklusive datum och tider för användaråtgärder, demografisk information och annan information. Hela datauppsättningen flyttar till ett centralt datalager, där komplexa algoritmer används för att sortera och bearbeta data som ska visas i form av detaljerade rapporter.
Vi vet alla att dessa lösningar har gynnat många företag när det gäller skalbarhet och tillgänglighet; Det finns organisationer som anser att det krävs betydande ansträngningar att använda dessa metoder. Det är också sant att i vissa fall uppnås liknande resultat med hjälp av en mindre robust data mining-strategi.
Små data ger ett sätt för organisationer att backa upp från en besatthet av de senaste och nyaste teknikerna som stöder mer sofistikerade affärsprocesser. Företag som marknadsför små data hävdar att det är viktigt ur affärsmässig synvinkel att använda sina resurser på ett effektivt sätt, så att överutgifter för teknik kan undvikas i viss utsträckning.
Vi har diskuterat mycket om big data och small data realities, men vi måste förstå att att välja rätt plattform (big data eller small data) för rätt användning är den viktigaste delen av hela övningen. Och sanningen är att stordata kan ge många fördelar, men det är inte alltid bäst.