AtScale 6.0 en Kinetica 6.1 aangekondigd; SAP wordt de NVIDIA GPU ‘ religie

0
142

Nul

Er is gewoon geen rust voor de proverbially moe. Minder dan 2 weken na de Strata Gegevens Conferentie wond down in New York, Tableau Conferentie 2017 begint vandaag in Las Vegas.Het Tableau Conferentie brengt een andere mand van gegevens nieuws uit de industrie, de activiteiten rondom die hopelijk zal bijdragen in een kleine manier aan het helpen van Las Vegas te genezen.

AtScale draait 6.0, krijgt Google BigQuery
Het eerste nieuws komt van AtScale, die zit op het snijvlak van Business Intelligence (BI) en Big Data, misschien zelfs meer, dus nu met de nieuw aangekondigde 6.0 release. AtScale bouwt virtuele (niet-gematerialiseerde) OLAP (online analytical processing) – kubussen over data in Hadoop, een aanpak die spoort mooi met front-end BI-tools, zoals een Tableau, die ontworpen waren voor dergelijke modellen en repositories. En nu, met de release 6.0, AtScale is diversificatie verleden Hadoop data, verbindingen aan te bieden naar Google BigQuery.

Lees ook: Google BigQuery gaat naar de beurs

Ik schreef over BigQuery toen het eerst uit kwam. In die tijd was Google te bevorderen als een OLAP-server. Maar BigQuery functies veel meer als een Data Warehouse, en Google ‘ s retoriek is veranderd, dat ze overeenkomen met de werkelijkheid. AtScale, ondertussen, biedt gebruikers de mogelijkheid om een semantische laag (een OLAP-schema, in andere woorden) over data in BigQuery. Wanneer gecombineerd met de Actieve Cache-technologie (heel mooi in deze blog post over 6.0), AtScale biedt live verbindingen met de cloud-gebaseerde BigQuery service van tools zoals Excel, en biedt OLAP-league query response tijden in het proces.

De Adaptieve Cache-technologie wordt vooral bepaald door een combinatie van vooraf berekende aggregaties, sommige leden van de dimensie die kan worden gebruikt voor het vullen van selecteerbare waarden filteren (een nieuwe functie) en een query optimizer die gebruik maakt van deze beide om te voorkomen dat overbodige vragen naar de back-end. In de Hadoop context is dit sneller dingen enorm als het voorkomt overmatige blootstelling aan de baan van de partij neigingen van dat platform (die nog steeds bestaan, zelfs met moderne optimalisaties zoals Vonk en GAREN).

In de BigQuery context, de optimalisaties nog meer interessant. Want als de Adaptieve Cache kan het voorkomen dat onnodig herhaalde vragen naar de database, dat voorkomt dat de latency van het bellen van een cloud service. En bewerkingen zoals Excel-Draaitabel drill-downs en filter bevolking kan het genereren van veel van discrete MDX-query ‘ s naar de back-end.

Het snoeien uit een hoop mensen (die AtScale aldus gedaan kan worden, gegeven de uitlijning van query ‘ s die de neiging hebben om te worden uitgegeven door een bos van gebruikers die op dezelfde data) bespaart een hoop tijd en kosten besparen. AtScale zegt de eerste tests op BigQuery aangeven dat het “query-kosten verlaagd met maximaal 1.000 X per query.” Ik heb nog niet en kan niet controleren of dit vinden, maar ik twijfel er niet aan dat een kleine optimalisatie met een cloud-service zoals BigQuery kan gaan een lange weg. En sinds BigQuery is ten gelde gemaakt, gebaseerd op query-activiteit, de economische impact van AtScale tech kan aanzienlijk zijn.

Tijdens het toevoegen van BigQuery als een ondersteunde back-end is een groot vertrek van AtScale eerder Hadoop-exclusieve aanpak, lijkt het waarschijnlijk dat meer gegevensbronnen zal krijgen aan boord te gaan. AtScale niet denken dat Hadoop is dood; verre van dat zelfs. CEO Dave Mariani vertelde me dat ze zien Hadoop adoptie blijft groeien. Maar als het niet zo is, hebben steeds meer mensen begrijpen dat het federeren van die gegevens met de meer conventionele database-engines, waaronder MPP (massively parallel processing) data warehouses, is absoluut noodzakelijk. En AtScale wil de algemene Semantische Laag (een concept introduceerde met zijn 5,5 release) de plaats waar de federatie gebeurt.

Parallellisme denkt globaal, kan act local
Het interessante ding over de MPP-data warehouses is hoe ze het bereiken van hun parallellisme: door het combineren van een array van database-exemplaren, elk op een aparte server, en vervolgens met een master-node dat de deelnemers in alle subquery ‘ s. De individuele servers uitvoeren van hun subquery ‘ s in parallel, krijgt het resultaat gaat weer terug naar de master-node, combineert deze en stuurt één terug naar de client. Dit verdeel-en-heers aanpak is wat drijft Hadoop en Vonk, ook. In feite is het hele idee van het maken van Big Data verwerking haalbaar is gebaseerd op het idee van een splitsing van het werk in voldoende (kleinere) stukken waar parallelle verwerking kan nemen op de steeds groeiende volumes.

Maar waarom zou je dan niet al die verdeel-en-heers werk gebeuren binnen de afzonderlijke servers? Het blijkt dat de Gpu (graphics processing units) is geschikt voor net dat scenario. Ze nemen het begrip vector verwerken op een CPU (waarbij meerdere delen van de gegevens zijn verwerkt in een keer, in plaats van één per keer) en een project op een veel grotere schaal. Dat is de reden waarom, in aanvulling op de grafische verwerking zelf, Gpu ‘ s werk zo goed voor AI en Diep Leren. Modellen van de laatste soort zijn de lagen van neurale netwerken, en die gelaagdheid betekent dat de opleiding de modellen een zeer groot voordeel van het hebben van de parallellisatie dat Gpu ‘ s veroorloven.

Kinetica maakt MPP gaan GPU
Waarom kunnen we dit idee terug naar huis om de database? We kunnen, zo blijkt, en dat is wat de mensen op Kinetica hebben gedaan. Ze hebben de dezelfde soort van in-memory, columnstore database die de MPP-jongens hebben, maar in plaats van parallelizing alleen over meerdere servers, ze doen in elk knooppunt, over de GPU-architecturen. Het bedrijf deed de aankondigingen in Lagen, die ik voorzien, met inbegrip van een manier om het gebruik van hun product als een enorme performance-het verbeteren van de cache van het Tableau.

Lees ook: Strata NYC 2017 Hadoop: Gaan springen in een data lake

Het is geen verrassing, dan, dat het bedrijf is het maken van aankondigingen op het Tableau Conferentie in aanvulling op Lagen. Specifiek, het bedrijf is het bekendmaken van de nieuwe release 6.1. 6.1 brengt een aantal belangrijke verbeteringen:

De back-end weergave van ruimtelijke visualisaties (gegevens op kaarten), al uniek voor een database, is nu verbeterd door de invoering van OpenGL, en het benutten van de GPU voor de oorspronkelijke use case: graphics.Het spreken van geospatial, Kinetica is het updaten van het product, zodat een groot scala van ruimtelijke functies zijn beschikbaar vanaf de SQL-dialect, en niet alleen door middel van geheimzinnige API-aanroepen. Functies als naaste buur, de berekening en de berekening van de punten binnen een regio-meer dan 80 geospatiale activiteiten in alle — kan nu worden uitgevoerd vanaf de SQL-laag, met behulp van de syntaxis die al gedefinieerd zijn voor deze workloads in PostreSQL de PostGIS-extender.Een aantal van de nieuwe enterprise-functies zijn toegevoegd aan het product. Deze omvatten compressie en woordenboek-codering; de versterking van de controle; vereenvoudigde administratie en de dynamic resource provisioning; en nieuwe beveiligingsfuncties, waaronder rol-toewijzing en een audit log voorziening, dus het is altijd mogelijk om terug te kijken en erachter te komen wie voerde een operatie, en wanneer.

kinetica-screenshot.png

Een Kinetica server-rendered, GPU-versnelde, ruimtelijke visualisatie.

Credit: Kinetica

Kinetica is ook sterk gestroomlijnde cloud implementatie. Het heeft een nieuwe, vereenvoudigde implementatie op Amazon Web Services en Microsoft Azure…duidelijk genoeg, blijkbaar, dat het bedrijf noemt het “Één-Klik op de Cloud.” De licentie wordt steeds gemakkelijker, doordat gebruikers de optie hebben om hun eigen licentie, of gewoon te betalen op een usage-based/gemeten basis voor het werk dat ze doen op de cloud gehost exemplaren van Kinetica.

Combineer dat met het feit dat een nieuwe 90-dagen trial versie van het product beschikbaar zal zijn tegen 31 oktober, samen met de Azuurblauwe en AWS 6.1 versies van zichzelf, en nieuwsgierigheid over dit interessante product kan gericht worden tegen zeer redelijke kosten van (het kan draaien op de conventionele Cpu ‘ s ook).

Leonardo houdt van Gpu ‘ s te
In mijn roll-up van het nieuws van Lagen, heb ik gezegd dat Kinetica draait op NVIDIA Gpu ‘ s. Welnu, vandaag is de ronde van nieuws bevat een niet-Tableau gerelateerd item: NVIDIA Gpu ‘ s zijn nu hun weg te vinden naar SAP-data-centers en, bij uitbreiding, de cloud-diensten. De directe gevolgen van dit is dat SAP zegt de Leonardo Machine Learning Portfolio is de eerste Onderneming het aanbieden van gebruik van NVIDIA ‘ s Volta AI-Platform.

Leonardo Machine Learning Foundation services, inclusief SAP Merk Impact, die automatisch analyseert grote hoeveelheden video ‘s op te sporen merk logo’ s in bewegende beelden (en, bij uitbreiding, de ROI op product placement), en SAP Service Ticket Intelligentie, die categoriseert service tickets en biedt een oplossing aanbevelingen voor het service center agent — zal beschikken over een NVIDIA Volta-opgeleide modellen achter de schermen. Als je bedenkt SAP naar de wortels in de Enterprise Resource Planning (ERP), en de zakelijke toepassing oriëntatie, de samenwerking met NVIDIA moet gaan een lange weg in de richting van de integratie van AI in de line-of-business-workloads.

Dat is nog niet alles, mensen
Ik wou dat ik kon zeggen dat de gegevens en analyses, nieuws-cyclus is over te settelen, maar ik weet dat dat niet het geval is. Deze week en dan is er meer dingen in de pijplijn. We leven in een vrij turbulente wereld op dit moment, zowel in termen van de politiek en de bescherming van de gegevens. Ondanks de relatieve instabiliteit zou suggereren de data wereld gaat gangbusters toch. Want de enige weg door de entropie is meesterschap over de gegevens, informatie en trends — en de controle en voorspellende vermogens die wordt geleverd samen met het.

0