Varför gnista är den framtida big data-plattformen

2026

Innehållsförteckning:

Vad är Apache Spark?

Apache Hadoop har varit grunden för big data-applikationer sedan länge och anses vara den grundläggande dataplattformen för alla stora datarelaterade erbjudanden. Men databas och beräkning i minnet ökar populariteten på grund av snabbare prestanda och snabba resultat. Apache Spark är ett nytt ramverk som använder kapaciteter i minnet för att leverera snabb behandling (nästan 100 gånger snabbare än Hadoop). Så Spark-produkten används alltmer i en värld av big data, och främst för snabbare bearbetning.

Webinarium: Förslagets kraft: hur en datakatalog ger analytiker möjlighet

Registrera här

Vad är Apache Spark?

Apache Spark är en öppen källkodsram för att bearbeta stora datamängder (big data) med snabbhet och enkelhet. Det är lämpligt för analysapplikationer baserade på big data. Gnist kan användas med en Hadoop-miljö, fristående eller i molnet. Det utvecklades vid University of California och erbjöds senare till Apache Software Foundation. Således tillhör det öppna källkodssamhället och kan vara mycket kostnadseffektivt, vilket ytterligare tillåter amatörutvecklare att arbeta enkelt. (För mer information om Hadoops open source, se Vad är påverkan av öppen källkod på Apache Hadoop ekosystem?)

Det främsta syftet med Spark är att det erbjuder utvecklare en applikationsram som fungerar kring en centrerad datastruktur. Spark är också extremt kraftfullt och har den medfödda förmågan att snabbt bearbeta enorma datamängder på kort tid, vilket ger extremt goda prestanda. Detta gör det mycket snabbare än vad som sägs vara den närmaste konkurrenten Hadoop.