Lag NYC 2018: AI, data governance, containere og produktion-ready data sø

0
173

Nul

Det er nu et Fald ritual for mig: at komme ud af den tåge af sommeren, gå børnene til skole og hoppe på 34th Street crosstown over til Jacob Javits Convention Center. Når jeg får der, jeg badge op og deltage i alle mine Big Data venner, der er kommet til byen for Lag Data-Konference i New York for at vise, hvad de gjorde på deres sommerferie.

Den øvrige del af ritualet er at indsamle alle de pressemeddelelser og notater, og sammensætte et resumé af nyheder, herunder et par meddelelser fra leverandører, der ikke var, selv på den vis. Denne post udgør 2018 udgave af dette sammendrag.

Typisk, efter så mange briefinger (jeg var 15 år), nogle fælles temaer, der dukker op. I år går den store af dem var: den produktion-rede af open source data sø/analytics stak; integration af container teknologi (Docker og Kubernetes, primært) til at stakken, vigtigheden af, at data governance, og den fortsatte marts frem for machine learning og AI. Jeg vil bruge disse temaer som en organisering værktøj til at diskutere alle nyhederne.

Hadoop generation kommer af alder
Måske capstone af min briefinger dette år var en diskussion med Cloudera ‘ s Doug Skæring, skaberen af Apache Hadoop. Vi havde aldrig mødt hinanden før, og jeg blev ramt af den timing, i betragtning af, at Big Data økosystem er enorm, men betydningen af Hadoop sig selv inden det er aftaget, — et fænomen, der er afsagt, selv på sidste års konference:

Læs også: Strata NYC 2017 til Hadoop: Gå hoppe i en data-søen

Jeg spurgte Skæring, hvordan han mener om den status og rolle, af Hadoop i, hvad nogle anser for at være den post-Hadoop æra. Hans svar var et to-medindehaver:

Hele Big Data økosystem er et resultat af Hadoop og relaterede teknologier, og det vil gangbustersHadoop har gjort open source data-teknologi, som består af en gruppe af løst koblede projekter gamle, fungerende realitet

Skæring ‘ s sidste punkt står i kontrast til den gamle verden af Virksomhedens data og BI stakke, hvor Virksomheder vil kunne købe en bred vifte af sikringsanlæg produkter fra en leverandør. Mange af de samme kunder er nu, der samler mange open source-teknologier, som nogle gange kræver en større indsats for integration. Men i dag, gennem udvikling af produkter og færdigheder i køber fællesskab, idet disse produkter, til produktion er langt mere realistisk.

Som et eksempel, Cloudera meddelte den sjette store udgivelse af sin distribution i denne uge…mere end fire år efter udgivelsen af sin femte. Jeg kan ikke rigtig kalde det en “Hadoop distribution” længere, fordi det nu bundter 26 forskellige open source-projekter i det (som Mike Olson, selskabets chief strategy officer fortalte mig, at i en separat samtale i denne uge). Men Hadoop 3.x er en vigtig del af udgivelsen, som er Impala-baseret data warehouse-teknologi, som også blev annonceret for nylig. Sammen med en IoT-centreret partnerskab med Red Hat, Cloudera har haft en masse at snakke om for nylig.

Læs også: Cloudera er et data warehouse spiller nu

En anden meddelelse i Lag tidsramme, denne gang på Enterprise BI front, var Information Builders’ relancering af sit flagskib WebFOCUS produkt. Den årtier gamle selskab, hvis hovedkvarter ligger blot et par blokke øst for Javits Center, ikke desto mindre gjort sin meddelelse udenfor regi af begivenheden. Virksomheden hedder WebFOCUS kan prale af en ny brugergrænseflade (vist nedenfor); det er også sport data videnskab funktioner, en ny dynamiske metadata lag, og nye data management funktioner. Der er nye forbindelse til cloud data warehouse-teknologier, herunder Amazon Rødforskydning og Google BigQuery, også.

wfdesignerbuildscreen.jpg

Den reviderede WebFOCUS UI

Kredit: Information Til Bygherrer

Og, apropos Rødforskydning og BigQuery, online data connectivity-afspiller Fivetran netop i denne uge udgivet sin 2018 Data Warehouse Benchmark, måling ydeevne og omkostninger i begge disse produkter, sammen med Snefnug, Azure SQL Data Warehouse, og Presto open source SQL query-engine.

I anden platform løbetid nyheder, Trifacta holder sætte sig på sit marked — selskabet fortalte mig, at det er en fordobling af omsætning og en tredobling af sin kunde tælle hvert år. Det er indgået i et partnerskab med tingenes internet/maskindata afspiller Sumo Logik, og det er tilføjet planlægning, alarmering, for workload management og andre funktioner til at øge styrken af dens brug i produktionen indstillinger. Trifacta er ikke kun for casual self-service data prep længere.

Om IoT, helt adskilt fra Lag begivenhed, Sprint annonceret i denne uge sin nye Nysgerrighed IoT-platform, en kombination af en “dedikeret, virtualiserede og distribueret IoT-core” netværk, og et nyt styresystem, der er udviklet med Ericsson og er baseret på teknologi fra Arm.

Bevæger sig på, NoSQL-databaser er at træde op til produktion udfordringer selv. Dette sker gennem en indsats af NoSQL-leverandører selv, såvel som tredjemand. Som et eksempel på sidstnævnte, Rubrik annoncerede sin Datos IO 3,0 udgivelse, som nu giver fuld backup og recovery muligheder for både Cassandra/DataStax og MongoDB. Datos IO 3.0 kan køre i containere og på tværs af flere offentlige skyer, herunder Microsoft Azure og Oracle Cloud, som tilslutter sig Amazon Web Services og Google Cloud Platform, som understøttede miljøer.

Indeholde dig selv
Tale af beholdere og den offentlige sky, at de to tilsammen udgør en anden stor tema på dette års Lag New York begivenhed. For eksempel, Hadoop 3.x selv har indført muligheden for, at Docker beholdere, som skal være indsat som GARN job.

Men, lige før Strata ‘ s kickoff, Hortonworks annoncerede sin Åbne Hybrid Arkitektur Initiativ, som er et forsøg på at containerize helhed af Hadoop. Et andet aspekt af dette, er adskillelsen af opbevaring og beregne i Hadoop platform, at udnytte det arbejde af Ozon-filsystemet. Dette er en stor afgang i Hadoop verden, men sammen med containerization / Kubernetes-kompatibilitet indsats, der bør gøre Hadoop meget mere cloud-ready og meget mere bærbare mellem on-premises og offentlige cloud-miljøer.

Læs også: Hortonworks afslører køreplan for at gøre Hadoop cloud-hjemmehørende

El gobernador
Et andet fælles afholde sig i Lag var betydningen af data governance. En del af dette er drevet af behovet for at overholde de lovgivningsmæssige rammer, som EU ‘ s Generel Forordning om databeskyttelse (GDPR), som trådte i kraft i Maj i år.

Læs også: GDPR: Hvad data virksomheder tilbyder

Men der syntes også at være en generel enighed om, at data governance og data katalogisering er super-vigtigt i bestræbelserne på at gøre virksomhedens data lake noget, der er brugbart og en sand katalysator for virksomhedernes digitale transformation.

I den ånd Vandlinjen Data og MapR annonceret et partnerskab, hvor sidstnævnte selskab vil sælge en integreret version af det tidligere produkt, som Vandlinjen Data Katalog for MapR, en ny, frivillig, komponent i MapR er Konvergeret Data Platform. Og Alation annonceret et partnerskab med Første San Francisco Partners “for at levere den bedste praksis for at modernisere data governance med data kataloger.”

Okera, som kun for nylig kom ud af stealth, har allerede annonceret en v1.2 release af sin platform, der kombinerer data katalog og tilladelser-drevet, der styres af data stof. Den nye udgave bringer forbindelse til relationelle databaser, i tillæg til de data, sø kilder, der allerede var understøttet; dynamisk genererede rolle-baseret synspunkter; analytics på toppen af Okera skik og revision af data (nyttigt for overholdelse af regler og brud-registrering); og finkornet tilladelser, der giver mulighed for varieret data steward roller, således at data stewardship kapaciteter er ikke en alt-eller-intet-funktion. Den nye Okera udgivelse er tilgængelig nu.

Alt om forbindelser
Af den måde, du ikke kan styre data, hvis du ikke kan oprette forbindelse til det. I overensstemmelse hermed, Simba Teknologier, der udviklet i samarbejde med Microsoft ODBC i 1990’erne og er nu en enhed af Størrelsesorden Software, meddelte, at den nye Størrelsesorden Gateway produkt. Nu, i stedet for at købe enkelte data-stik, eller endda en kæmpe bibliotek af dem, brugere opretter forbindelse til Gateway produkt, som forbinder igennem til flere back-end-databaser og applikationer via en ramme af “Intelligent”, “Standard” og “Universelle” adaptere.

En anden facet af tilslutningsmuligheder er adgangen til offentlige datasæt. I den forbindelse Bloomberg annoncerede sin Enterprise Access Point, der giver standardiseret reference -, priser -, regulerings-og historiske datasæt for Bloomberg Data Licens kunder, udviklere og data forskere.

Kunstig intelligens, naturligvis
En data service for data forskere er én ting, men på den anden ende af spektret, SAP har annonceret sin nye Analytics-Cloud, en maskine-læring aktiveret platform til at lade brugere i erhvervslivet udnytte machine learning uden nødvendigvis at behøve data forskere. I betragtning af SAP forvalter kunders salg, supply chain og andre business-orienterede data, der tilbyder står i kontrast til Bloomberg service, der giver offentligheden/open data.

I henhold til SAP, Analytics Cloud giver erhvervskunder mulighed for at gøre ting som at “forudsige fremtidige resultater med blot et enkelt klik på” og “give risiko og korrelation opdagelse, autonom oprettelse af avancerede dashboards og storyboards, og hyper-personlig indsigt i data om leverandører, leverandører og kunder, herunder anomalisøgning.”

Men hvad nu hvis du er en data-videnskabsmand og ønsker at få en mere hands-on med de data og prædiktiv modellering? Dataiku meddelte i dag sin Dataiku 5 udgave, som tilføjer understøttelse for dyb læring biblioteker (TensorFlow og Keras) og, bare for at bevise min tidligere tidspunkt, kan generere Docker beholdere, der kan indsættes til Kubernetes klynger, så godt.

Det er alt sammen meget godt på modellering side, men Nvidia GPU chip maker, der er blevet alt om AI, lavet flere meddelelser omkring AI infrastruktur og inferencing. De meddelelser, der blev gjort i denne uge, ikke i Lag, men på GTC (GPU Technology Conference) i Japan. Disse omfatter:

Den TensorRT Hyperscale-Platform, en ny AI data center platform Tesla T4, en AI inferens acceleratorTensorRT 5: en ny version af Nvidia ‘ s dybe læring inferens optimizer og runtimeTensorRT inferens server: en “microservice, der gør det muligt for programmer at bruge AI modeller i data center produktion.” (Og gæt hvad? Det er containertransport og skalaer, ved hjælp af Kubernetes på Nvidia Gpu ‘ er.)CUDA 10: den nyeste version af NVidia ‘ s parallelle GPU-programmering model.

Læs også: NVIDIA morphs fra grafik og spil til AI og dybe læring
Læs også: NVIDIA gynger for AI hegn
Læs også: Nvidia fordobler ned på AI

Og køkkenvask
Det er bare om alle de data nyheder, som er egnet til at “udskrive” i denne uge. Og det er en masse. Men, ligesom med big data, jeg finder, jo højere mængden af nyheder, det er lettere at trække ud af et lille sæt af indsigter: produktion stringens, containerization, data governance/adgang til data og AI er de store tendenser ud af dette års Lag. De vil sandsynligvis være de store trends for den resterende del af året, og ud over, så godt.

Relaterede Emner:

Kunstig Intelligens

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software

0