Nul
Der er bare ingen hvile for utroligt træt. Mindre end 2 uger efter Strata Data Konferencen afvikles i New York, Tableau Konference 2017 skydes i gang i dag i Las Vegas.Tableau Konference bringer det på en anden kurv af data industrien nyheder, aktiviteten omkring, som forhåbentlig vil bidrage på en eller anden lille måde at hjælpe Las Vegas helbrede.
AtScale viser 6.0, får Google BigQuery
Den første nyhed kommer fra AtScale, som sidder ved krydset af Business Intelligence (BI) og Big Data, men måske endnu mere, så nu med sin nyligt annonceret 6.0 udgivelse. AtScale opbygger virtuelle (ikke-materialiseret) OLAP (online analytical processing) terninger over data i Hadoop, som er en tilgang, som masker pænt med front-end BI-værktøjer, som Tableau, der var designet for sådanne modeller, og repositories. Og nu, med release 6.0, AtScale spreder tidligere Hadoop data, at tilbyde tilslutning til Google BigQuery så godt.
Læs også: Google ‘ s BigQuery går offentligt
Jeg skrev om BigQuery, når det først kom ud. På det tidspunkt var Google fremme det som en OLAP-serveren. Men BigQuery funktioner meget mere som et Data Warehouse, og Google ‘ s retorik er ændret til at matche virkeligheden. AtScale, i mellemtiden, giver brugerne mulighed for at opbygge et semantisk lag (en OLAP-skema, med andre ord) over data i BigQuery. Når det kombineres med selskabets Aktiv-Cache-teknologi (forklaret fint i dette blog-indlæg om 6.0), AtScale plads til live forbindelser til cloud-baseret BigQuery service fra værktøjer som Excel og giver OLAP-league forespørgsel svartider i processen.
Den Adaptive Cache teknologi er primært defineret ved en kombination pre-beregnet samlinger, nogle dimension medlemmer, der kan bruges til at udfylde vælges filter-værdier (en ny feature) og en query optimizer, der bruger begge disse for at undgå overflødig forespørgsler til den bagerste ende. I Hadoop sammenhæng, dette gør tingene op uhyre som det undgår overeksponering for batch job tendenser til, at platformen (som stadig eksisterer, selv med moderne optimeringer som Gnist og GARN).
I BigQuery sammenhæng, optimeringer få endnu mere interessant. Fordi hvis den Adaptive Cache kan undgå unødvendigt gentagne forespørgsler til databasen, som undgår ventetid for at kalde en cloud-tjeneste. Og operationer, som Excel-Pivottabel drill-downs og filter befolkning kan generere en masse af diskrete MDX-forespørgsler til den bagerste ende.
Beskæring ud en masse af dem (som AtScale siger, at der kan gøres, da tilpasningen af de forespørgsler, der har tendens til at være udstedt af en flok af brugere kigger på de samme data) kan spare en masse tid og skære i omkostningerne. AtScale siger sin indledende test på BigQuery tyder på, at “forespørgsel omkostninger er blevet reduceret med op til 1.000 X per forespørgsel.” Jeg har ikke og kan ikke verificere denne konklusion, men jeg er ikke tvivl om, at en lille optimering med en cloud service som BigQuery kan gå en lang vej. Og da BigQuery er der indtjening baseret på forespørgsel aktivitet, at de økonomiske konsekvenser af AtScale ‘ s tech kan godt være betydelig.
Samtidig tilføjer BigQuery som et understøttet back-end er en stor afgang fra AtScale tidligere Hadoop-eksklusiv tilgang, synes det sandsynligt, at flere data kilder vil komme på bordet. AtScale ikke tror, at Hadoop er død; – langt fra faktisk. CEO Dave Mariani fortalte mig, at de ser Hadoop vedtagelse fortsætter med at vokse. Men, som det gør så, folk er i stigende grad forståelse for, at samarbejde om, at data, der med deres mere konventionelle database motorer, herunder MPP (massively parallel behandling) data warehouses, er af afgørende betydning. Og AtScale ønsker sin Universelle Semantiske Lag (et begreb, der blev indført med sine 5.5 udgivelse) til at være det sted, hvor der føderation sker.
Parallelitet tænker globalt, handle lokalt
Det interessante ting om MPP data warehouses er, hvordan de opnår deres parallelisme: ved at kombinere en bred vifte af database tilfælde, hver på en separat server, og så at have en master-node, at deltagerne underforespørgsler til hver enkelt. De enkelte servere, udføre deres underforespørgsler i parallel, får det resultat, sæt tilbage til master-node, der kombinerer dem og sender én tilbage til klienten. Denne del-og-hersk-tilgang er, hvad der driver Hadoop og Gnist, også. I virkeligheden er det hele forestillingen om at gøre Big Data behandling er mulig er baseret på ideen om at splitte arbejdet op i nok (i mindre stykker), hvor parallel behandling kan tage den stadigt voksende mængde.
Men hvorfor kunne det ikke alle, der del-og-hersk arbejde sker inden for de enkelte servere så godt? Det viser sig, at Gpu (graphics processing units) kan rumme netop det scenarie. De tager begrebet vektor behandling på en CPU (hvor flere stykker data, som behandles på én gang, snarere end en ad gangen) og projekt det ud over en meget større skala. Det er derfor, i tillæg til graphics processing sig selv, Gpu ‘ er arbejde så godt for AI og Dyb Læring. Modeller af denne type har lag af neurale netværk, og at lagdeling betyder, at uddannelse modeller fordelene langt fra at have den parallelisering, at Gpu ‘ er råd til.
Kinetica gør MPP gå GPU
Hvorfor kan vi ikke bringe denne idé hjem til databasen? Vi kan, som det viser sig, og det er hvad folk på Kinetica har gjort. De har lavet den samme form for in-memory, columnstore database, der MPP fyre har, men i stedet for at parallelizing kun over flere servere, de gør inden for hver node, over GPU-arkitekturer. Virksomheden har gjort meddelelser på Lag, som jeg, der er omfattet, herunder en måde at bruge deres produkt som en massiv performance-forbedring cache til Tableau.
Læs også: Strata NYC 2017 til Hadoop: Gå hoppe i en data-søen
Det er ingen overraskelse, derefter, at selskabet gør meddelelser på Tableau-Konferencen i tillæg til Lag. Konkret selskabet annoncerer sin nye 6.1 udgivelse. 6.1 bringer med det et par vigtige forbedringer:
Back-end gengivelse af geospatial visualiseringer (data på kort), der allerede er unik for en database, er nu ved at blive forbedret gennem vedtagelse af OpenGL: og udnyttelse af GPU ‘ en til sin oprindelige use case: grafik.Tale af geografiske, Kinetica er at opdatere sit produkt, således at en bred vifte af unikke funktioner er tilgængelige fra sin SQL-dialekt, og ikke bare gennem mystiske API-kald. Funktioner som nærmeste nabo beregning og beregning af point i en region-i løbet af 80 spatiale operationer i alle — nu kan køre fra SQL-lag, der bruger den syntaks, som allerede er defineret for dem, arbejdsbyrde i PostreSQL er PostGIS extender.En række nye enterprise funktioner er blevet tilføjet til produktet. Disse omfatter kompression og ordbog kodning; øget overvågning, forenklet administration og dynamisk ressource provisioning, og nye sikkerhedsfunktioner, herunder rolle kortlægning og en revision log-facilitet, så det er altid muligt at se tilbage og finde ud af, hvem der foretaget en operation, og hvornår.

En Kinetica server-renderet, GPU-accelererede, geospatial visualisering.
Kredit: Kinetica
Kinetica har også i høj grad strømlinet cloud-implementering. Det har et nyt forenklet udrulning på Amazon Web Services og Microsoft Azure…ligetil nok, tilsyneladende, at selskabet kalder det “Et-Klik Sky.” Licens er blevet nemmere, for, som brugerne har mulighed for at bringe deres egen licens, eller blot betale på en brug-baseret/tilslutningsafgift grundlag for det arbejde, de gør på cloud-hosted tilfælde af Kinetica.
Kombiner alt dette med det faktum, at en ny 90-dages prøveversion af produktet vil være tilgængelig i oktober 31st, sammen med Azure og AWS 6.1 udgivelser selv, og nysgerrighed om dette spændende produkt, der kan løses på meget rimelig udgift (det kan køre på almindelige Cpu ‘ er).
Leonardo kan lide Gpu ‘ er for
I min roll-up af nyheder fra Lag, nævnte jeg, at Kinetica kører på NVIDIA Gpu ‘ er. Nå, dagens runde af nyheder indeholder en ikke-Tableau relaterede emne: NVIDIA Gpu ‘ er, er nu at finde vej ind i SAP-data-centre og dermed dets cloud-tjenester også. Den umiddelbare virkning af dette er, at SAP siger sin Leonardo Machine Learning-Portefølje er den første Virksomhed, der tilbyder at bruge NVIDIA ‘ s Volta AI Platform.
Leonardo Machine Learning Foundation services-herunder SAP Mærke Virkningen, der automatisk analyserer store mængder af videoer til at opdage brand-logoer i levende billeder (og, i forlængelse heraf, ROI på produkt placeringer), og SAP Service Billet Intelligens, som kategoriserer service billetter og giver beslutning anbefalinger for den service center-agent-vil funktionen NVIDIA Volta-uddannet modeller bag kulisserne. Når du overveje SAP ‘ s rødder i Enterprise Resource Planning (ERP), og dens forretningsmæssige anvendelse orientering, dets partnerskab med NVIDIA skulle gå en lang vej mod at integrere AI i line-of-business arbejdsmængder.
Det er ikke alle folk,
Jeg ville ønske, jeg kunne sige, at de data og analytics-nyheder cyklus er ved at slå sig ned, men jeg ved, at det er ikke tilfældet. I denne uge, og ud over, er der flere ting i støbeskeen. Vi lever i en temmelig turbulent verden lige nu, både i form af politik og data beskyttelse. På trods af den relative ustabilitet, der tyder på, at de data, verden går gangbusters alligevel. Fordi den eneste måde gennem entropi er beherskelse over data, oplysninger og trends — og kontrol og intelligent kapaciteter, der kommer sammen med det.
0