Innehållsförteckning:
Definition - Vad betyder Apache Pig?
Apache Pig är en plattform som används för att analysera stora datamängder. Det består av ett språk på hög nivå för att uttrycka dataanalysprogram tillsammans med infrastrukturen för att utvärdera dessa program. En av de viktigaste egenskaperna hos Pig är att dess struktur svarar på betydande parallellisering.
Pig fungerar på Hadoop-plattformen, skriver data till och läser data från Hadoop Distribuerat filsystem (HDFS) och utför bearbetning med hjälp av ett eller flera MapReduce-jobb. Apache Pig är tillgängligt som öppen källkod.
Apache Pig är också känt som Pig Programming Language eller Hadoop Pig.
Techopedia förklarar Apache Pig
Apache Pig har två delar: Latin Latin and Pig engine. Pig Latin-språket är ett skriptspråk som gör det möjligt för användare att illustrera hur dataflöde från en eller flera ingångar måste läsas och bearbetas och platsen där måste lagras.
Några av de viktigaste egenskaperna hos Pig Latin är följande:
- Lätt att programmera: Intrikata uppgifter som består av olika sammankopplade datatransformationer kodas tydligt som dataströmssekvenser. Detta gör dem enkla att skriva, förstå och underhålla.
- Optimeringsmöjligheter: Det sätt på vilket uppgifterna kodas gör att systemet kan optimera automatisk körning. Detta gör att användaren kan uppmärksamma semantik istället för effektivitet.
- Utökbarhet: Användare får skapa sina egna funktioner för att utföra specialanpassad behandling. Pig-motorn är ansvarig för utförandet av dataflöde skrivet på Pig Latin. Precis som en standardkonstruktion för RDBMS-system (Relational Database Management System), består Apache Pig av en parser, optimizer och typkontroll, förutom operatörer som utför databehandling. Gris inkluderar inte transaktioner, en datakatalog eller förmågan att direkt hantera datalagring eller använda exekveringsramen.
