Strata NYC 2018: AI, data governance, behållare och produktion-redo data sjön

0
111

Noll

Nu är det Höst ritual för mig: fram ur diset av sommaren, gå barnen till skolan och hoppa på 34th Street crosstown över till Jacob Javits Convention Center. När jag kommer dit, jag badge upp och gå med alla mina Stora Uppgifter kompisar som har kommit till stan för att Strata Data Konferens i New York, för att visa upp vad de gjorde på sina semestrar.

Den andra delen av ritualen är att samla alla pressmeddelanden och information anteckningar och sätta ihop en sammanfattning av nyheterna, däribland några meddelanden från leverantörer som inte var även på mässan. Detta inlägg utgör 2018 upplagan av denna sammanfattning.

Typiskt, efter så många genomgångar (hade jag 15 i år), vissa gemensamma teman fram. Detta år stora och små: de produktions-beredskap för öppen källkod data sjö/analytics stack, integrering av container teknik (Docker och Kubernetes, främst) i går att stapla, vikten av att data governance, och fortsatte att marschera framåt av maskininlärning och AI. Jag kommer att använda dessa frågor som ett organisera verktyg för att diskutera alla nyheter.

Hadoop generation kommer av ålder
Kanske hörnsten i mina genomgångar i år var en diskussion med Cloudera är Doug Cutting, skaparen av Apache Hadoop. Vi hade aldrig träffats innan, och jag slogs av timing, med tanke på att Big Data ekosystem är stor, men vikten av Hadoop sig inom den har dragit sig tillbaka-ett fenomen som var uttalad även vid förra årets konferens:

Läs också: Strata NYC 2017 för att Hadoop: Gå ut och hoppa i sjön data

Jag frågade Skärande hur han tycker om status och roll Hadoop i vad som vissa anser vara den post-Hadoop-eran. Hans svar var ett två-kompanjon:

Hela Big Data ekosystem är en utväxt av Hadoop och relaterade tekniker, och det kommer gangbustersHadoop har gjort med öppen källkod data teknik, som består av en grupp av löst kopplade projekt en gammal, arbetar verkligheten

Skärning: s sista punkten i kontrast till den gamla världen av Företagets data-och BI-stack, där Företag skulle köpa en array av samverkande produkter från en leverantör. Många av dessa kunder är nu som sammanför ett flertal open source-teknik som ibland kräver en större integration ansträngning. Men idag, genom utvecklingen av produkter och färdigheter i köparens gemenskapen, med dessa produkter för att produktionen är mycket mer möjligt.

Som ett exempel, Cloudera meddelade den sjätte stora release av sin distribution denna vecka…mer än fyra år efter utgivningen av den femte. Jag kan inte riktigt kalla det en “Hadoop distribution” längre, eftersom det nu buntar 26 olika open source-projekt inom it (som Mike Olson, företagets chief strategy officer sa till mig i en separat samtal denna vecka). Men Hadoop 3.x är en viktig del av lanseringen, som är Impala-baserade data warehouse-teknik som också meddelade nyligen. Tillsammans med en IoT-centrerad partnerskap med Red Hat, Cloudera har haft en hel del att prata om nyligen.

Läs också: Cloudera är en data warehouse-spelare nu

En annan annonsering i Strata tid, denna gång på Enterprise BI-front, var Information Builders ” nylansering av sitt flaggskepp WebFOCUS produkt. Decennier gamla företaget, vars huvudkontor ligger bara några kvarter öster om k. Javits convention Center, ändå gjorde sitt tillkännagivande utanför ramen av händelsen. Företaget stater WebFOCUS har ett nytt användargränssnitt (se nedan); det också sport-data vetenskap funktioner, en ny dynamisk metadata-lagret och nya funktioner för datahantering. Det nya anslutning till cloud data warehouse-teknik, inklusive Amazon Rödförskjutning och Google BigQuery, också.

wfdesignerbuildscreen.jpg

Den förnyade WebFOCUS UI

Kredit: Information Builders

Och, på tal om Rödförskjutning och BigQuery, online-data-anslutning spelare Fivetran bara den här veckan släppt sin 2018 Data Warehouse Riktmärke för att mäta effektivitet och kostnad för båda dessa produkter, tillsammans med Snowflake, Azure SQL-Data Warehouse, och Presto öppen källkod SQL-query engine.

I andra plattformen löptid nyheter, Trifacta håller i bäcken på dess marknad — företag berättade för mig att det är en fördubbling av intäkter och tredubblat sin kund räknas varje år. Det ingått ett samarbete med sakernas internet/maskindata spelare Sumo Logik, och det är extra schemaläggning, varna, hantering av arbetsbelastning och andra funktioner för att öka stringensen i dess användning i produktionen inställningar. Trifacta är inte bara för casual self-service data prep längre.

På frågan om sakernas internet, helt skilt från Strata händelse, Sprint tillkännagav den här veckan sin nya Nyfikenhet sakernas internet som plattform, en kombination av en “dedikerad, virtualiserade och distribueras IoT-core” – nät, och ett nytt operativsystem, utvecklad med Ericsson och baserad på teknologi från Arm.

Vi går vidare, NoSQL-databaser är att kliva upp till produktion utmaningarna själva. Detta kommer till stånd genom insatser av NoSQL leverantörer själva, samt tredje part. Som ett exempel på det senare, Rubrik meddelade sin Datos IO 3.0-utgåvan, som nu ger full säkerhetskopiering och återhämtning för både Cassandra/DataStax och MongoDB. Datos IO 3.0 kan köra i behållare och över flera offentliga moln, inklusive Microsoft Azure och Oracle Cloud, som ansluter sig till Amazon Web Services och Google Cloud Platform som stöds miljöer.

Innehåller själv
På tal om behållare och offentliga moln, de två tillsammans utgör en annan stor tema på årets Strata New York händelse. Till exempel, Hadoop 3.x själv har infört möjligheten för Docker behållare ska placeras ut som GARN jobb.

Men, precis innan Strata ‘ s kickoff, Hortonworks meddelade sin Öppna Hybrid Arkitektur-Initiativet, som är ett försök att containerize helheten av Hadoop. En annan aspekt av detta är den separation av lager och beräkna i Hadoop plattform, dra nytta av det arbete Ozon filsystemet. Detta är en stor avgång i Hadoop världen, men tillsammans med containerization / Kubernetes-kompatibilitet insatser bör göra Hadoop mycket mer redo för molnet och mycket mer portabel mellan lokaler och offentliga moln miljöer.

Läs också: Hortonworks presenterar färdplan för att göra Hadoop cloud-modersmål

El gobernador
En annan vanlig avstå på Strata var vikten av att data governance. En del av detta drivs av behovet av överensstämmelse med regelverk som EU: s Allmänna uppgiftsskyddsförordningen (GDPR), som trädde i kraft i Maj i år.

Läs också: GDPR: Vad uppgifterna företag erbjuder

Men det verkade också vara en allmän uppfattning att data governance och data katalogisering är super-viktigt att göra en ansträngning för att göra företagets data sjön något som är användbart och en verklig möjlighet för företags-digital omvandling.

I den andan Vattenlinjen Data och MapR meddelade ett partnerskap, där det senare företaget kommer att sälja en integrerad version av den tidigare produkt som Vattenlinjen Data Katalog för MapR, en ny, valfri, en komponent i MapR är Konvergerade Data Plattform. Och Alation meddelade ett samarbete med den Första San Francisco Partners “för att leverera bästa praxis för modernisering av data governance med datakataloger.”

Okera, som nyligen kom ut ur stealth, har redan aviserat en v1.2 release av sin plattform som kombinerar data katalog och behörigheter-driven regleras data tyg. Den nya versionen ger anslutning till relationsdatabaser, utöver de uppgifter sjön källor som har redan stöd, dynamiskt genererade rollbaserade vyer; analytics på toppen av Okera användning och granskning av data (användbart för regelefterlevnad och brott-detektering), och detaljerade behörigheter möjliggör för olika uppgifter förvaltare roller, så att data stewardship kapacitet är inte en allt-eller-inget-funktionen. Den nya Okera utgåvan är tillgänglig nu.

Allt om anslutningar
Förresten, du kan inte styra data om du inte kan ansluta till det. Därför Simba Teknik, som är utvecklat i samarbete med ODBC Microsoft under 1990-talet och är nu en enhet av Magnitud Programvara, meddelade sin nya Storlek Gateway-produkt. Nu, snarare än att köpa enskilda uppgifter eller kontakter även ett stort bibliotek av dem, användare ansluta till den Gateway produkt som ansluter via flera back-end databaser och applikationer via en ram av “Intelligent” och “Standard” och “Universal” – adaptrar.

En annan aspekt av anslutning är tillgång till offentliga data. I detta avseende, Bloomberg meddelade sin Enterprise Access Point, ger standardiserade referens, prissättning, rättsliga och historiska data för Bloomberg Data Licens för kunder, utvecklare och data forskare.

Artificiell intelligens, naturligt
En datatjänst för data forskare är en sak, men på den andra änden av spektrumet, SAP lanserade sin nya Analytics-Cloud, en maskin-lärande aktiverad plattform för att låta användare i företag utnyttja maskinen lärande utan att nödvändigtvis behöva uppgifter forskare. Med tanke på SAP hanterar kunders försäljning, supply chain och andra affärsmässiga uppgifter, som erbjuder kontraster med Bloomberg service, som ger offentliga/öppna data.

Enligt SAP, Analytics Cloud ger företagsanvändare möjlighet att göra saker som att “framtida prognostiserade resultat med bara ett enda klick” och “ger risk och korrelation upptäckt, självständiga skapandet av avancerade instrumentpaneler och storyboards och hyper-personliga insikter i uppgifter om leverantörer, leverantörer och kunder, bland annat upptäcka avvikelser.”

Men vad händer om du är en data scientist och vill få mer hands-on med data-och prognosmodeller? Dataiku meddelade idag sin Dataiku 5 release, som lägger till stöd för djupt lärande bibliotek (TensorFlow och Keras) och, bara för att bevisa min tidigare, kan generera Docker behållare som kan sättas in för att Kubernetes kluster, liksom.

Det är bra om modellering sida, men Nvidia GPU-chip tillverkare som har blivit allt om AI, gjorde flera meddelanden runt AI infrastruktur och inferencing. Tillkännagivandena gjordes denna vecka, inte på Strata, men på GTC (GPU Technology Conference) i Japan. Dessa inkluderar:

Den TensorRT Hyperscale Plattform, en ny AI data center-plattform Tesla T4, en AI slutledning acceleratorTensorRT 5: en ny version av Nvidias djupt lärande slutledning optimizer och runtimeTensorRT slutledning server: en “microservice som gör det möjligt för program att använda AI modeller i data center produktion.” (Och gissa vad? Det är containrar och skalor som hjälp Kubernetes på Nvidia GPUs.)CUDA 10: den senaste versionen av Nvidias parallella GPU-programmering modell.

Läs också: NVIDIA morfar från grafik och spel till AI och djupt lärande
Läs också: NVIDIA gungor för AI staket
Läs också: Nvidia dubblar ner på AI

Och diskbänk
Det är bara om alla uppgifter nyheter som är lämpligt att “skriva ut” den här veckan. Och det är en hel del. Men, precis som med big data”, jag tycker den högre volymen av nyheter, desto lättare är det att dra ut en liten uppsättning insikter: produktion stringens, containerization, data governance/data access och AI är de stora trenderna ut i år Strata. De kommer sannolikt att vara den stora trender i branschen för resten av året, och utanför, liksom.

Relaterade Ämnen:

Artificiell Intelligens

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem

0