NORSK

Lagen NYC 2018: AI, data governance, containers en het productie-klaar-gegevens meer

144

Nul

Het is nu een Val ritueel voor mij: ontstaan van de mist van de zomer, lopen de kinderen naar school en springen op de 34ste Straat crosstown over aan Jacob Javits Convention Center. Zodra ik er ben, ik badge en doe mee met mijn Big Data vrienden die komen naar de stad voor Strata Gegevens Conferentie in New York, om te laten zien wat ze gedaan hebben op hun zomervakantie.

Het andere deel van het ritueel is om te verzamelen van alle persberichten en informatienota ‘ s en het samenstellen van een overzicht van het nieuws, met inbegrip van een paar aankondigingen van leveranciers die niet eens op de show. Deze post vormt de 2018 editie van dat overzicht.

Meestal na zo veel briefings (ik had dit jaar 15 jaar), een aantal gemeenschappelijke thema ‘ s ontstaan. Dit jaar de groten waren: de productie-bereidheid van de open source data meer/analytics stapel; de integratie van container-technologie (Docker en Kubernetes, voornamelijk) in die stapel; het belang van data governance en het verder marcheren van ‘machine learning’ en AI. Ik zal gebruik maken van deze thema ‘ s, zoals het organiseren van een tool om te discussiëren over al het nieuws.

De Hadoop-generatie komt van leeftijd
Misschien is het sluitstuk van mijn briefings dit jaar was er een discussie met Cloudera ‘ s Doug Snijden, de schepper van Apache Hadoop. We zouden nooit ontmoet, en ik werd getroffen door de timing, gezien het feit dat het Big Data ecosysteem is enorm, maar het belang van Hadoop zelf binnen het is geweken — een fenomeen dat uitgesproken werd zelfs vorig jaar op de conferentie:

Lees ook: Strata NYC 2017 Hadoop: Gaan springen in een data lake

Ik vroeg het Snijden van hoe hij denkt over de status en rol van Hadoop in wat sommigen beschouwen als de post-Hadoop-tijdperk. Zijn reactie was een twee-delige documentaire:

De hele Big Data ecosysteem is een uitvloeisel van Hadoop en gerelateerde technologieën, en het gaat gangbustersHadoop heeft gemaakt van open source data-technologie, bestaande uit een groep van losjes gekoppelde projecten een volwassen, werkende realiteit

Het snijden van de laatste punt staat in contrast met de oude wereld van de gegevens van de Onderneming en BI-stacks, waarin Ondernemingen zou kopen een reeks van in elkaar grijpende producten van één leverancier. Veel van deze klanten zijn nu samen te brengen tal van open source technologieën die soms vereist een grotere integratie-inspanningen. Maar vandaag, via de evolutie van de producten en de vaardigheden in het koper van de gemeenschap, het nemen van deze producten in de productie is veel meer mogelijk.

Als een voorbeeld, Cloudera aangekondigd de zesde versie van de distributie van deze week…meer dan vier jaar na de release van het vijfde. Ik kan niet echt zeggen dat het een “Hadoop-distribution” meer, omdat het nu bundels 26 verschillende open source projecten binnen het (zoals Mike Olson, de chief strategy officer vertelde mij in een afzonderlijk gesprek deze week). Maar Hadoop-3.x is een belangrijk onderdeel van de release, zoals de Impala-datawarehouse technologie die werd ook aangekondigd onlangs. Samen met een IoT-centered samenwerking met de Rode Hoed, Cloudera heeft een veel te chatten over de recent.

Lees ook: Cloudera is een data warehouse speler nu

Een andere aankondiging in de Lagen tijd, dit keer op de Enterprise BI front -, Informatie-Bouwers’ herlancering van haar vlaggenschip WebFOCUS product. Het decennia oude bedrijf, waarvan de maatschappelijke zetel is slechts een paar blokken ten oosten van Javits Center, toch heeft deze aankondiging buiten de auspiciën van het evenement. Het bedrijf staten WebFOCUS beschikt over een nieuwe gebruikersinterface (zie hieronder); het is ook een sport van gegevens wetenschap functies, een nieuwe dynamische metadata laag en nieuwe data management functies. Er is nieuwe verbinding met de cloud data warehouse technologieën, waaronder Amazon Roodverschuiving en Google BigQuery ook.

En, sprekende van de Roodverschuiving en BigQuery, online data-connectiviteit speler Fivetran net deze week vrijgegeven van haar 2018 Data Warehouse Benchmark, het meten van prestaties en kosten van beide producten, samen met Sneeuwvlok, SQL Azure Data Warehouse en de Presto open source SQL-query-engine.

In andere platform looptijd nieuws, Trifacta houdt het aansluiten weg op de markt — het bedrijf vertelde me dat het een verdubbeling van de omzet en de verdrievoudiging van het aantal klanten per jaar. Het is een partnership aangegaan met de IoT/data-speler Sumo Logica, en het is toegevoegd plannen, meldingen, workload management en andere functies te stimuleren de strengheid van het gebruik in de productie-instellingen. Trifacta is niet alleen voor casual self-service gegevens prep meer.

Over het onderwerp van de IoT, heel apart van de Lagen evenement, Sprint kondigt deze week haar nieuwe Nieuwsgierigheid IoT platform, een combinatie van een “dedicated, virtuele en verspreid IoT core’ netwerk, en een nieuw besturingssysteem, ontwikkeld met Ericsson en gebaseerd op technologie van de Arm.

Moving on, NoSQL databases zijn de intensivering van de productie-uitdagingen zelf. Dit komt door de inspanningen van NoSQL leveranciers zelf, alsmede van derde partijen. Als een voorbeeld van de laatste Categorie heeft bekendgemaakt dat de Datos IO 3.0 release, biedt nu een volledige back-up en recovery-mogelijkheden voor zowel Cassandra/DataStax en MongoDB. Datos IO 3.0 kunt uitvoeren in containers en over meerdere publieke clouds, zoals Microsoft Azure en Oracle Cloud, die deelnemen Amazon Web Services en Google Cloud Platform-as-ondersteunde omgevingen.

Bevatten jezelf
Het spreken van de containers en de public cloud, de twee samen vormen een andere grote thema is van dit jaar Lagen New York gebeurtenis. Bijvoorbeeld, Hadoop-3.x zelf heeft de mogelijkheid geïntroduceerd voor de Docker containers worden ingezet als GAREN banen.

Maar, net vóór Lagen de aftrap, Hortonworks aangekondigd de Open Hybride Architectuur Initiatief is een poging om containerize het geheel van Hadoop. Een ander facet van dit is de scheiding van opslag en berekenen in de Hadoop-platform, gebruikmakend van het werk van de Ozon-bestandssysteem. Dit is een groot vertrek in de Hadoop wereld, maar, samen met containervervoer / Kubernetes-compatibiliteit inspanningen moet maken Hadoop veel meer cloud-ready en nog veel meer draagbare tussen lokale en public cloud-omgevingen.

Lees ook: Hortonworks onthult stappenplan te maken Hadoop cloud-native

El gobernador

Een andere veel voorkomende onthouden op Lagen was het belang van data governance. Een deel van deze wordt gedreven door de noodzaak van de naleving van wettelijke kaders, zoals de Algemene EU Data Protection Regulation (GDPR), die in werking trad in Mei van dit jaar.

Lees ook: GDPR: Wat de gegevens bedrijven bieden

Maar er bleek ook een algemene consensus dat data governance en data catalogiseren is super-belangrijk voor de moeite van het maken van het corporate data meer iets dat bruikbaar is en een echte enabler van corporate digitale transformatie.

In die ader, Waterlijn Gegevens en MapR aangekondigd een partnerschap, waarbij de laatste bedrijf zal verkopen een geïntegreerde versie van de voormalige product als Waterlijn Data Catalog voor MapR, een nieuwe, optionele, component in MapR ‘ s Converged Data Platform. En Alation aangekondigd een samenwerking met Eerste San Francisco Partners ‘ te leveren van de best practices voor de modernisering van data governance met gegevens catalogi.”

Okera, die alleen kwam onlangs uit van stealth, heeft al aangekondigd een v1.2 release van het platform, een combinatie van een data-catalogus en een rechten-gedreven beheerst gegevens stof. De nieuwe release brengt connectiviteit naar relationele databases, naast de gegevens van meer bronnen die werden al ondersteund; dynamisch gegenereerde rolgebaseerde weergaven; analyses op de top van Okera het gebruik en controle van gegevens (handig voor naleving van regelgeving en schending-detectie); en fijnmazig machtigingen waardoor verschillende data steward rollen, zodat de data stewardship mogelijkheden zijn niet een alles-of-niets-functie. De nieuwe Okera release is nu beschikbaar.

Alles over verbindingen
Door de manier, kunt u niet bepalen gegevens als u geen verbinding kunt maken. Dienovereenkomstig, Simba Technologieën, ontwikkeld in samenwerking ODBC Microsoft in de jaren 1990 en is nu een eenheid van Grootte-Software, introduceert de nieuwe Omvang Gateway product. Nu, eerder dan het kopen van individuele data-aansluitingen, of zelfs een grote bibliotheek van hen, gebruikers verbinding maken met de Gateway van het product die verbonden is met meerdere back-end databases en toepassingen via een kader van “Intelligent”, “Standaard” en “Universele” adapters.

Een ander facet van connectiviteit is de toegang tot de openbare datasets. In dat opzicht, Bloomberg kondigde haar Enterprise Access Point, die gestandaardiseerde referentie, tarieven, regelgeving en historische datasets voor de Gegevens van Bloomberg Licentie klanten, ontwikkelaars en data-wetenschappers.

Kunstmatige intelligentie, natuurlijk
Een data service voor data-wetenschappers is één ding, maar aan de andere kant van het spectrum, SAP kondigde haar nieuwe Cloud Analytics, een machine-learning ingeschakeld platform te laten zakelijke gebruikers harnas machine learning zonder noodzakelijkerwijs gegevens wetenschappers. Gegeven SAP beheert klanten, sales, supply chain en andere bedrijfsmatige gegevens, het aanbieden van contrasten met de Bloomberg service public/open data.

Volgens de SAP, Analytics, Cloud geeft zakelijke gebruikers de mogelijkheid om dingen te doen als “het voorspellen van toekomstige prestaties met slechts een enkele klik op” en “het aanbieden van risico en correlatie van de opsporing, de autonome ontwikkeling van geavanceerde dashboards en storyboards en hyper-gepersonaliseerde inzicht in gegevens over leveranciers, verkopers en klanten, met inbegrip van opsporing.”

Maar wat als je een data scientist en wil je meer hands-on met de data en voorspellende modellen? Dataiku heeft vandaag haar Dataiku 5 release, die wordt ondersteuning toegevoegd voor het diep leren bibliotheken (TensorFlow en Keras), gewoon om te bewijzen dat mijn eerdere punt, kan het genereren van Docker containers die inzetbaar te Kubernetes clusters.

Dat is allemaal goed en wel op de modellering kant, maar Nvidia, de GPU-chip maker geworden over AI, diverse aankondigingen rond AI infrastructuur en inferencing. De aankondigingen werden gedaan deze week, niet op Afkomst, maar op GTC (De GPU Technology Conference) in Japan. Deze omvatten:

De TensorRT Hyperscale-Platform, een nieuw AI-data-center-platform Tesla T4, een AI gevolgtrekking acceleratorTensorRT 5: een nieuwe versie van Nvidia ‘ s diep leren gevolgtrekking optimizer en runtimeTensorRT gevolgtrekking server: een “microservice waarmee toepassingen voor het gebruik van AI-modellen in data center productie.” (En wat denk je? Het container-en schalen met behulp van Kubernetes op Nvidia Gpu ‘ s.)CUDA 10: de meest recente versie van NVidia ‘ s parallel GPU programming model.

Lees ook: NVIDIA morphs van graphics en gaming aan AI en diep leren
Lees ook: NVIDIA schommels voor de AI hekken
Lees ook: Nvidia verdubbelt op AI

En de keuken gootsteen
Dat is gewoon over alle gegevens nieuws dat is geschikt voor de “print” deze week. En het is veel. Maar, net als met big data, vind ik, hoe hoger het volume van het nieuws, hoe makkelijker het is om te tekenen uit een kleine set van inzichten: de productie van strengheid, containervervoer, data governance en data toegang en AI zijn de grote trends van dit jaar Lagen. Ze zal waarschijnlijk de grote trends in de sector voor de rest van het jaar, en dan, als goed.

Verwante Onderwerpen:

Kunstmatige Intelligentie

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software