Innehållsförteckning:
SQL on Hadoop är en grupp av analytiska applikationsverktyg som kombinerar SQL-stilfrågor och bearbetning av data med de senaste Hadoop-dataram-elementen. Framväxten av SQL på Hadoop är en viktig utveckling för bearbetning av big data eftersom det gör det möjligt för bredare grupper av människor att framgångsrikt arbeta med Hadoop-databehandlingsramen genom att köra SQL-frågor på de enorma volymerna av big data som Hadoop bearbetar. Självklart var Hadoop-ramverket tidigare inte lika lättillgängligt för människor, särskilt när det gäller dess frågefunktioner. Baserat på utvecklingen har flera verktyg varit i arbeten som lovar att förbättra företagens produktivitet när det gäller bearbetning och analys av big data med kvalitet och snabbhet. Det finns inte heller något behov av att investera mycket i att lära sig verktyget, som traditionell kunskap om SQL bör göra.
Definition av SQL på Hadoop
SQL on Hadoop är en grupp applikationer som låter dig köra SQL-stilfrågor på big data värd inom Hadoop databehandlingsram. Uppenbarligen har datafråga, hämtning och analys blivit enklare med tillägg av SQL på Hadoop. Eftersom SQL ursprungligen var designad för relationsdatabaser, måste den modifieras enligt Hadoop 1-modellen som innehåller MapReduce och Hadoop Distribuerad filsystem (HDFS), och Hadoop 2-modellen som inte har MapReduce och HDFS.
Ett av de tidigaste ansträngningarna att kombinera SQL med Hadoop resulterade i skapandet av Hive-datalageret med HiveQL-programvaran som kan översätta SQL-stilfrågor till MapReduce-jobb. Därefter utvecklades flera applikationer som kunde göra liknande jobb. Framstående bland de senare verktygen är Drill, BigSQL, HAWQ, Impala, Hadapt, Stinger, H-SQL, Splice Machine, Presto, PolyBase, Spark, JethroData, Shark (Hive on Spark) och Tez (Hive on Tez).