DUTCH

Uit de Hadoop vak: SQL overal en AtScale

339

U mag niet realiseren, maar Hadoop al rond de 10 jaar. Zelfs nu, met de meeste organisaties hebben in de een of andere manier aangenomen, niet alles is duidelijk en helder. Maar toen het eerst uit kwam van Yahoo in 2006, Dave Mariani, AtScale ‘ s mede-oprichter en CEO, was een van de eerste om het te gebruiken en het realiseren van het potentieel.

Hij was op de juiste plaats op het juiste moment: Mariani aan het doen was analytics in Yahoo, het leveren van gegevens naar schijf zakelijke inzichten en de reclame op de activa van de vennootschap. DW en kubussen zijn vrij veel het enige spel in de stad voor analytics dan, en een groot spel. Mariani, een data cube-veteraan met talrijke implementaties onder zijn riem, zei dat “één van deze blokjes bij Yahoo kon rijden omzet op het gebied van 50 miljoen dollar”.

Mariani, zoals de meeste experts uit de industrie vandaag de dag, besefte dat Hadoop kan een revolutie in de industrie vanwege de eigenschappen: een shared-nothing architectuur dat betekende dat het scale-out in een naadloze, kosten-effectieve manier een kader waarop ETL en het verwerken van taken kan uitvoeren, en late binding / schema op te lezen. Hij besefte dat hij eerder dan de meeste, of ten minste hij heeft gereageerd op het eerder.

In de Yahoo, evenals in Klout die Mariani trad na Yahoo, Hadoop is intensief gebruikt, maar het BI landschap is wat het altijd was: gefragmenteerd, met een overvloed aan instrumenten, variërend van Excel tot MicroStrategy. Op dat moment is de enige manier om deze tools te kunnen gebruiken voor de data die in Hadoop was om gegevens uit Hadoop en op te slaan in een DW. Vervolgens SQL-op-Hadoop kwam langs, Cloudera te vrijkomen van de Impala ‘ s, Mariani werd aangeworven, en de rest is geschiedenis.

Uiteindelijk, Mariani aan de implementatie van zijn eigen visie: laat gebruikers toegang krijgen tot gegevens in Hadoop zo pijnloos als mogelijk. Het voertuig was AtScale, Yahoo en Cloudera aan boord als investeerders en klanten. AtScale bewust afgezien van het aanbieden van een data-navigatie en visualisatie laag. Hun denken was dat ze zou kunnen en niet zou verdringen tools al worden gebruikt voor dit doel. In plaats daarvan kozen ze om op te treden als een vendor-neutrale middleware voor het vergemakkelijken van de toegang tot gegevens die zijn opgeslagen in Hadoop over SQL-en MDX. Deze architectuur is gebaseerd op 3 pijlers.

Ontwerp, Cache, Query

Ten eerste, het Design Center. AtScale beschrijft dit als het doek voor het schilderen van virtuele blokjes. Deze tool kunnen gebruikers navigeren opgeslagen data in Hadoop en het definiëren van metadata dat kan worden gebruikt voor het definiëren van dimensies voor virtuele OLAP-kubussen. Het is een samenwerkingsverband van multi-user tool, zodat gebruikers kunnen aanvullen van elkaars kennis.

In aanvulling op effectief handelen als een schema definitie-mechanisme, het ondersteunt ook de gegevens van de governance door middel van toegang regels en veiligheid. AtScale noemt dit een Universele Semantische Laag in de business logica kan worden die centraal zijn gedefinieerd en geïmplementeerd direct, ongeacht wat BI tools die mensen gebruiken.

Virtuele blokjes cool klinken, maar hoe zit het met de prestaties? Er is een reden waarom de blokjes in de traditionele DW vooraf kunnen worden berekend nadat alle. Dit is waar de Adaptieve Cache komt. De 2de laag in AtScale architectuur is een caching mechanisme dat werkt door het toepassen van intelligente strategieën om niet alleen de meest recent en intensief gebruikte gegevens op te slaan voor snellere verdere toegang, maar ook om te voorspellen gegevens meer kans om gebruikt te worden in de toekomst en preventief ze ophalen.

AtScale betoogt dat zelfs fysieke blokjes beginnen te breken voor het grote cardinaliteiten / afmetingen, en beweert virtuele kubussen uit te voeren net zo goed of zelfs beter. Ze noemen een voorbeeld waarin een query uitvoeren op een virtuele kubus met meer dan 500 Miljard opgehaalde rijen resultaten in minder dan een paar seconden.

Laatste maar niet de minste, de dichter AtScale wordt de gebruiker geconfronteerd met de interface: de toepasselijke naam Hybride Query Service (HQ), het aanbieden van een query layer die ondersteunt SQL-en MDX. HQ ondersteunt JDBC, wat betekent dat effectief alle ANSI-SQL-client verbinding kan maken via AtScale over JDBC om een query voor de gegevens die in Hadoop. AtScale heeft partnerschappen en certificaten voor producten zoals Tableau, Qlik en PowerBI, gebaseerd op de user base en wensen, evenals alle belangrijke Hadoop-distributie-verkopers.

Uit de Hadoop-box

Wat is er nieuw is dat nu AtScale gaat verder dan Hadoop (in de cloud of on-premise), met ondersteuning voor Teradata-DW, Google Dataproc en BigQuery. Volgens AtScale de oprichters, was dit een onderdeel van hun visie langs en klanten vragen er ook naar. Die visie werd in eerste instantie met scepsis, terwijl het aantrekken van kapitaal voor AtScale de Serie A, maar de dingen waren nu veel gemakkelijker als het bedrijf werd onlangs een complete Serie B van ongeveer US$ 11 miljoen.

AtScale de strategie van het optreden als de middelste man lijkt zijn vruchten af, zoals het kunnen inspelen op ontwikkelingen van de SQL-motoren het op steunt. Deze motoren zijn weg te nemen, die is gemeten aan te bieden een 2-3 keer verbetering in de prestaties in vergelijking met eerdere versies.

AtScale heeft toegepast, de “ontkoppelen alles” – paradigma dat Hadoop gebracht aan de storage wereld, door het toevoegen van zijn eigen gegevens definitie-en query-optimalisatie laag op de top van opslag, Hadoop, of andere, het stappenplan bevat ondersteuning voor nog meer opslag motoren.

Is dit het verhaal van TOAD spelen in de dappere Hadoop wereld en daarbuiten? Zoals TOAD, AtScale begon met een bescheiden visie – om het leven van mensen die werken met gegevens eenvoudiger, Oracle en Hadoop respectievelijk. Zoals TOAD, AtScale heeft zien groeien adoptie (met klanten, zoals Macy ‘ s, Comcast en GlaxoSmithKline) en is uit te breiden buiten haar eerste niche.

TOAD en AtScale elkaar zelfs overlappen of andere manier nu, als TOAD biedt ondersteuning voor SQL-op-Hadoop ook – zij het zonder alle extra ‘ s die AtScale naar de tafel brengt. Ziet eruit als Hadoop is uit de doos, en in een convergerende wereld van databases, dat mag geen verrassing zijn.