Hem Trends Vad $ @! är hadoop?

Vad $ @! är hadoop?

Innehållsförteckning:

Anonim

Alla pratar om Hadoop, den heta nya tekniken som är mycket uppskattad bland utvecklare och bara kan förändra världen (igen). Men vad är det ändå? Är det ett programmeringsspråk? En databas? Ett bearbetningssystem? En indisk te mysig?


Det breda svaret: Hadoop är alla dessa saker (förutom te mysig) och mer. Det är ett programbibliotek som tillhandahåller ett programmeringsram för billig, användbar bearbetning av ett annat modernt buzzword: big data.

Var kom Hadoop ifrån?

Apache Hadoop är en del av Foundation Project från Apache Software Foundation, en ideell organisation vars uppgift är att "tillhandahålla mjukvara för allmänheten." Som sådant är Hadoop-biblioteket gratis, öppen källkodsprogramvara som är tillgänglig för alla utvecklare.


Den underliggande tekniken som driver Hadoop uppfanns faktiskt av Google. Tidigare tidiga dagar behövde den inte riktigt jätte sökmotorn ett sätt att indexera de enorma mängder data de samlade in från Internet och förvandla den till meningsfulla, relevanta resultat för sina användare. Med inget tillgängligt på marknaden som kunde uppfylla deras krav byggde Google sin egen plattform.


Dessa innovationer släpptes i ett öppen källkodsprojekt som heter Nutch, som Hadoop senare använde som en grund. I själva verket tillämpar Hadoop kraften från Google på big data på ett sätt som är överkomligt för företag i alla storlekar.

Hur fungerar Hadoop?

Som nämnts tidigare är Hadoop inte en sak - det är många saker. Programvarubiblioteket som är Hadoop består av fyra primära delar (moduler) och ett antal tilläggslösningar (som databaser och programmeringsspråk) som förbättrar dess verkliga användning. De fyra modulerna är:

  • Hadoop Common: Detta är samlingen av gemensamma verktyg (det gemensamma biblioteket) som stöder Hadoop-moduler.
  • Hadoop Distribuerat filsystem (HDFS): Ett robust distribuerat filsystem utan begränsningar för lagrad data (vilket innebär att data kan vara strukturerade eller ostrukturerade och schemaless, där många DFS endast lagrar strukturerade data) som ger tillgång till hög kapacitet med redundans ( HDFS tillåter att data lagras på flera maskiner - så om en maskin misslyckas bibehålls tillgängligheten genom de andra maskinerna).
  • Hadoop YARN: Denna ram är ansvarig för jobbplanering och klusterresurshantering; det ser till att uppgifterna sprids tillräckligt över flera maskiner för att upprätthålla redundans. YARN är modulen som gör Hadoop till ett överkomligt och kostnadseffektivt sätt att bearbeta big data.
  • Hadoop MapReduce: Detta YARN-baserade system, byggt på Googles teknik, utför parallell behandling av stora datamängder (strukturerade och ostrukturerade). MapReduce finns också i de flesta av dagens stora databehandlingsramar, inklusive MPP- och NoSQL-databaser.
Alla dessa moduler som arbetar tillsammans genererar distribuerad behandling för stora datamängder. Hadoop-ramverket använder enkla programmeringsmodeller som replikeras över kluster av datorer, vilket innebär att systemet kan skalas upp från enstaka servrar till tusentals maskiner för ökad processorkraft, snarare än att förlita sig på hårdvara ensam.


Maskinvara som kan hantera den mängd processorkraft som krävs för att arbeta med big data är dyrt, för att uttrycka det mildt. Detta är den verkliga innovationen hos Hadoop: förmågan att bryta ner enorma mängder processorkraft över flera, mindre maskiner, var och en med sin lokala beräkning och lagring, tillsammans med inbyggd redundans på applikationsnivå för att förhindra fel.

Vad gör Hadoop?

Enkelt sagt gör Hadoop stora data tillgängliga och användbara för alla.


Före Hadoop gjorde företag som använde big data mest med relationella databaser och företags datalager (som använder enorma mängder dyr maskinvara). Även om dessa verktyg är utmärkta för att bearbeta strukturerade data - som är data som redan har sorterats och organiserats på ett hanterbart sätt - var kapaciteten för bearbetning av ostrukturerad data extremt begränsad, så mycket att de praktiskt taget inte fanns. För att vara användbara måste data först struktureras så att de passade snyggt i tabeller.


Hadoop-ramverket ändrar detta krav och gör det billigt. Med Hadoop kan enorma mängder data från 10 till 100 gigabyte och högre, både strukturerade och ostrukturerade, behandlas med vanliga (råvaruservrar) servrar.


Hadoop tar med sig potentiella big data-applikationer för företag i alla storlekar, inom alla branscher. Ramen med öppen källkod gör det möjligt för finansföretag att skapa sofistikerade modeller för utvärdering av portföljer och riskanalys, eller onlinehandlare för att finjustera sina sökbesvar och peka kunder mot produkter de är mer benägna att köpa.


Med Hadoop är möjligheterna verkligen obegränsade.

Vad $ @! är hadoop?