AtScale 6.0 och Kinetica 6.1 meddelade, SAP får NVIDIA GPU religion

0
217

Noll

Det är bara ingen vila för det vedertaget trött. Mindre än 2 veckor efter Strata Data Konferens avvecklas i New York, Tablå Konferens 2017 drar igång idag i Las Vegas.Tablån Konferens, ger en annan korg av data nyheter inom branschen, verksamheten kring vilket förhoppningsvis kommer att bidra på något litet sätt för att hjälpa Las Vegas läka.

AtScale visar 6.0, blir Google BigQuery
Den första nyheten kommer från AtScale, som ligger vid korsningen av Business Intelligence (BI) och Big Data, kanske ännu mer nu med sin nyligen meddelade 6.0-utgåvan. AtScale bygger virtuella (icke-materialiserade) OLAP (online analytical processing) kuber över data i Hadoop, en strategi som maskor fint med front-end-BI-verktyg som Tablån som var avsedda för sådana modeller och förråd. Och nu, med 6.0-utgåvan, AtScale är att diversifiera tidigare Hadoop data, att erbjuda anslutning till Google BigQuery.

Läs också: Google BigQuery blir offentlig

Jag skrev om BigQuery när den först kom ut. På den tiden var Google att främja det som en OLAP-server. Men BigQuery fungerar mycket mer som ett Data Warehouse, och Google är retoriken har ändrats så att de matchar verkligheten. AtScale, samtidigt som tillåter användare att bygga ett semantiskt lager (en OLAP-schema, med andra ord) över data i BigQuery. När den kombineras med bolagets Aktiva Cache-teknik (förklaras mycket fint i detta blogg inlägg om 6.0), AtScale rymmer live anslutningar till moln-baserade BigQuery service från verktyg som Excel och ger OLAP-league frågesvar gånger i processen.

Den Adaptiva Cache-teknik i första hand definieras av en kombination förkalkylerade samlingar, några medlemmar dimension som kan användas för att fylla valbara filter värden (en ny funktion) och en fråga optimizer som använder båda dessa för att undvika onödiga frågor till den bakre utgången. I Hadoop sammanhang, detta snabbar upp saker och ting oerhört som det är att undvika överexponering för batch-jobb-tendenser av att plattformen (som fortfarande existerar, även med moderna optimeringar som Gnista och GARN).

I BigQuery sammanhang, optimeringar få ännu mer intressant. För om det Adaptiva Cache kan undvika onödigt upprepande förfrågningar till databasen, som undviker latens för att ringa en molntjänst. Och verksamhet som Excel Pivottabeller borra nedskrivningar och filter befolkningen kan generera en hel del diskreta MDX-frågor till den bakre utgången.

Beskärning ut ett gäng av dem (som AtScale säger kan göras, med tanke på anpassningen av frågor som tenderar att vara utfärdat av ett gäng användare som tittar på samma data) kan spara en hel del tid och minska kostnaderna. AtScale säger sina första tester på BigQuery tyder på att “fråga kostnader har minskats med upp till 1000 X per fråga.” Jag har inte och kan inte verifiera detta fynd, men jag tvivlar inte på att en liten optimering med en molntjänst som BigQuery kan gå en lång väg. Och eftersom BigQuery är intäktsgenererande baserat på fråga verksamhet, den ekonomiska effekten av AtScale tech kan mycket väl vara betydande.

När du lägger till BigQuery som ett stöd för back-end är en stor avvikelse från AtScale tidigare Hadoop-exklusiva strategi, verkar det troligt att fler datakällor kommer att få övertygat. AtScale tror inte Hadoop är död, långt ifrån faktiskt. VD Dave Mariani berättade för mig att de ser Hadoop antagande fortsätter att växa. Men så är det inte så, människor i allt större förståelse för att förena data med sina mer konventionella motorer databas, inklusive MPP (massively parallel processing) datalager, är absolut nödvändigt. Och AtScale vill att dess Allmänna Semantiska Lagret (ett begrepp som infördes med 5,5 release) för att vara den plats där den federationen som händer.

Parallellism tänker globalt, agera lokalt
Det intressanta med MPP datalager är hur de ska uppnå sina parallellitet: genom att kombinera en mängd databasen fall, var och en på en separat server, och sedan ha en master noden som delegater underfrågor till var och en. De enskilda servrar utföra sina delfrågor parallellt, få de resultat du sätter tillbaka till master noden, som kombinerar dem och skickar en tillbaka till klienten. Denna söndra-och-härska-strategi är vad som driver Hadoop och Gnista. Faktum är att hela begreppet “att göra” Big Data bearbetning möjligt bygger på idén om att dela upp arbetet i tillräcklig (mindre) delar där parallell bearbetning kan ta på växande volymer.

Men varför kunde inte alla att dela upp och erövra arbete sker inom enskilda servrar? Det visar sig att Gpu (graphics processing unit) rymmer bara att scenariot. De tar begreppet vektor behandling på en CPU (där flera bitar av data behandlas på en gång, snarare än en åt gången) och projektet ut över mycket större skala. Det är därför, förutom grafik bearbetningen, Gpu fungerar så bra för AI och Djupt Lärande. Modeller av den senare typen har lager av neurala nätverk, och att skiktning innebär att utbildning modellerna stor nytta att ha parallellisering att Gpu har råd med.

Kinetica gör MPP gå GPU
Varför kan vi inte föra denna idé hem till databasen? Vi kan, som det visar sig och det är vad folket på Kinetica har gjort. De har skapat samma typ av minne, columnstore databas som MPP killar har, men istället för att parallelizing bara över flera servrar, de gör inom varje nod, över GPU-arkitektur. Bolaget gjort tillkännagivanden på Strata, som jag som omfattas, inklusive ett sätt att använda sin produkt som en massiv prestanda-förbättra-cache för Tablån.

Läs också: Strata NYC 2017 för att Hadoop: Gå ut och hoppa i sjön data

Det är ingen överraskning, då, att företaget är att göra tillkännagivanden på Tablån Konferens utöver Strata. Specifikt företag är att tillkännage sin nya 6.1 release. 6.1 för med sig några viktiga förbättringar:

Back-end-rendering av geospatial visualisering (data på kartor), som redan är unikt för en databas, som nu håller på att förbättras genom antagandet av OpenGL: och mobilisering av GPU för dess ursprungliga användningen fall: grafik.På tal om geospatial, Kinetica är att uppdatera sin produkt så att ett stort utbud av geografisk funktioner är tillgänglig från SQL-dialekt, och inte bara genom svårbegripliga API-anrop. Funktioner som närmaste granne beräkning och beräkna poäng inom en region-över 80 geospatial verksamhet i alla-kan nu köras från SQL lager, med hjälp av syntax som redan definierats för de arbetsbelastning i PostreSQL är PostGIS extender.Ett antal nya företag nya funktioner har lagts till produkten. Dessa inkluderar komprimering och ordbok kodning, bättre övervakning, förenklad administration och dynamisk resurs proviantering, och nya säkerhetsfunktioner, inklusive roll kartläggning och en revision logga anläggning, så det är alltid möjligt att se tillbaka och räkna ut vem som genomfört en operation, och när.

kinetica-screenshot.png

En Kinetica server-utförda, GPU-accelererade, geospatial visualisering.

Kredit: Kinetica

Kinetica har också kraftigt förenklad cloud distribution. Den har ny förenklad på Amazon Web Services och Microsoft Azure…enkelt nog, tydligen, som företaget kallar det “En-Klicka på Moln.” Licensiering blir lättare också, eftersom användarna har möjlighet att föra sin egen licens, eller helt enkelt betala för en behandling baserad/uppmätt till grund för det arbete som de gör på moln-värd fall av Kinetica.

Kombinera detta med det faktum att en ny 90-dagars testversion av produkten kommer att finnas tillgänglig senast 31 oktober, tillsammans med Azure och AWS 6.1 utsläpp sig, och nyfikenhet om denna intressanta produkt kan vara upp till mycket rimliga kostnader (den kan köras på vanliga Processorer också).

Leonardo gillar Grafikprocessorer för
I min roll-up av nyheter från Strata, nämnde jag att Kinetica körs på NVIDIA GPUs. Tja, dagens runda av news innehåller en icke-Tablån relaterad artikel: NVIDIA GPUs är nu att hitta sin väg in i SAP-data centers, och i förlängningen dess moln-tjänster också. Den omedelbara effekten av detta är att SAP säger att det är Leonardo Machine Learning Portfolio är det första Företaget som erbjuder att använda NVIDIAS Volta AI Plattform.

Leonardo Machine Learning Foundation tjänster-inklusive SAP Varumärke Konsekvenser, som automatiskt analyserar stora mängder av filmer för att upptäcka varumärke logotyper i rörliga bilder (och, i förlängningen, ROI om produktplacering), och SAP Service Biljett Intelligens, som kategoriserar service biljetter och ger resolution rekommendationer för service center agent-funktionen NVIDIA Volta-utbildade modeller bakom kulisserna. När du anser att SAP: s rötter i Enterprise Resource Planning (ERP), och dess verksamhet ansökan läggning, sitt samarbete med NVIDIA ska gå en lång väg mot att integrera AI i line-of-business arbetsbelastning.

Det är inte allt, folk
Jag önskar att jag kunde säga data från analytics och nyheter cykeln är på väg att slå sig ner på, men jag vet att det är inte fallet. Denna vecka och utöver det är mer saker på gång. Vi lever i en ganska turbulent värld just nu, både i form av politik och dataskydd. Trots den relativa instabilitet som skulle tyda på, de uppgifter som världen kommer gangbusters ändå. Eftersom det enda sättet genom att entropin herravälde över data, information och trender — och kontroll och prediktiva förmåga som kommer tillsammans med den.

0