SVENSKA

Av Hadoop box: SQL överallt och AtScale

390

Du kanske inte inser det, men Hadoop har redan funnits i 10 år. Även nu, i och med att de flesta organisationer har på ett eller annat sätt antas det, inte allt om det är uppenbart och tydligt. Men när det först kom ut från Yahoo 2006, Dave Mariani, AtScale grundare och VD, var en av de första att använda det och förverkliga sin potential.

Han var på rätt plats vid rätt tidpunkt: Mariani gjorde analytics i Yahoo, leverera data för att driva verksamheten insikter och reklam på bolagets tillgångar. DW och dice var ganska mycket det enda spelet i stan för analytics då, och en stor match också. Mariani, en data cube veteran med många implementationer under bältet, nämns att “inte ett enda av dessa kuber på Yahoo kan driva intäkter i området på 50 miljoner dollar”.

Mariani, som de flesta experter från industrin idag, insåg att Hadoop kan revolutionera data industrin på grund av dess egenskaper: en delad-ingenting arkitektur som innebar det kan scale-out på ett smidigt, kostnadseffektivt sätt, är ett ramverk för ETL och bearbetning jobb kan köra, och sen bindning / schema, läsa. Han insåg att tidigare än de flesta, eller åtminstone att han agerat på det tidigare.

I Yahoo, liksom i Klout som Mariani gått efter att Yahoo, Hadoop var tungt, men BI landskapet var vad det alltid hade varit: fragmenterad, med hjälp av en uppsjö av verktyg som sträcker sig från Excel till MicroStrategy. På den tiden, det enda sättet för dem verktyg för att kunna använda de data som lagras i Hadoop var att ta ut data av Hadoop och förvara det på en DW. Då SQL-på-Hadoop kom, Cloudera ut för att släppa Impala, Mariani rekryterades, och resten är historia.

Så småningom, Mariani ut för att genomföra sin egen vision: att låta användare komma åt data i Hadoop så smärtfritt som möjligt. Fordonet var AtScale, med Yahoo och Cloudera ombord som investerare och kunder. AtScale medvetet avstått från att erbjuda en data, navigering och visualisering lager. Deras tänkande var att de kunde och skulle inte tränga undan verktyg som redan används för detta ändamål. I stället valde de att fungera som ett leverantörsoberoende middleware för att underlätta tillgång till data som lagrats i Hadoop över SQL och MDX. Denna arkitektur är baserad på 3 pelare.

Design, Cache, Fråga

För det första, Design Center. AtScale beskriver detta som duk för målning virtuella kuber. Med detta verktyg kan användare navigera data som lagras i Hadoop och definiera metadata som kan i sin tur användas för att definiera mått för virtuella OLAP-kuber. Det är ett samarbete, multi-user verktyg, så att användarna kan komplettera varandras kunskaper.

Förutom att fungera som ett schema definition mekanism, det stöder också uppgifter styrning genom regler om tillträde och säkerhet. AtScale kallar detta en Universell Semantiska Skiktet i vilken affärslogik kan definieras centralt och distribueras direkt, oavsett vad BI-verktyg som människor använder.

Virtuella kuber ljud cool, men hur är prestandan? Det finns en anledning till varför kuber i traditionella DW är före beräknad efter alla. Det är där den Adaptiva Cache kommer in. 2: a lagret i AtScale arkitektur är en caching mekanism som fungerar genom att tillämpa intelligenta strategier för att inte bara hålla de nyligen och tungt används data på butik för snabbare åtkomst, men även för att förutsäga uppgifter som mer sannolikt kommer att användas i framtiden och förebyggande syfte hämta dem.

AtScale hävdar att även fysiska kuber börjar bryta ner för stora cardinalities / dimensioner, och hävdar virtuella tärningarna fungerar precis lika bra eller ännu bättre. De nämner ett exempel där en sökning på en virtuell kub med över 500 Miljarder rader hämtas resultaten i under ett par sekunder.

Sist men inte minst, närmare AtScale blir till en användare inför gränssnitt: det passande namnet Hybrid Fråga Service (HÖGKVARTER), och erbjuder en fråga lager som stöder både SQL och MDX. HQS stöd för JDBC, vilket innebär att i praktiken alla ANSI-SQL-klient kan ansluta via AtScale över JDBC för att hämta data som är bosatta i Hadoop. AtScale har partnerskap och certifieringar för produkter som Tablån, Qlik och PowerBI, baserat på användaren bas och krav, liksom alla större Hadoop distribution leverantörer.

Av Hadoop box

Vad som är nytt är att det nu AtScale går utöver Hadoop (i molnet eller på plats) som erbjuder stöd för Teradata DW, Google Dataproc och BigQuery. Enligt AtScale grundare, detta var en del av deras vision alla tillsammans och kunder har frågat efter det också. Denna syn möttes först med skepsis, medan anskaffa kapital för AtScale-Serien, men det var mycket lättare nu eftersom företaget hade nyligen möjlighet att slutföra en Serie B på cirka US$ 11 miljoner.

AtScale strategi för att agera som mellanhand verkar vara att betala av, eftersom det gör det möjligt att utnyttja utvecklingen av SQL-motorer som det bygger på. Dessa motorer har varit att ta bort, efter att ha varit mätt att erbjuda en 2-3 gånger förbättring i prestanda jämfört med tidigare versioner.

AtScale har tillämpat “frikoppla allt” paradigm som Hadoop kom till lagring världen, genom att lägga till sina egna data definition och frågeoptimering lager på toppen av lagring, vara det Hadoop eller andra, som färdplanen innehåller stöd för ännu mer förvaring motorer.

Är detta berättelsen om PADDA att spela ut i den modiga Hadoop världen och bortom? Som PADDA, AtScale började med en blygsam vision – att göra livet för de människor som arbetar med data lättare, på Oracle och Hadoop respektive. Som PADDA, AtScale har varit att se växande antagandet (listning kunder som Macy ‘ s, Comcast och GlaxoSmithKline) och expanderar bortom sin ursprungliga nisch.

PADDA och AtScale även överlappar på något sätt nu, PADDA erbjuder stöd för SQL-på-Hadoop för – dock utan alla de extrafunktioner som AtScale ger till bordet. Ser ut som Hadoop är out of the box, och i en konvergerande databasen världen, det borde inte komma som någon överraskning.