ITALIANO

Strati NYC 2018: AI, di data governance, contenitori e pronta per la produzione di dati lago

147

Zero

Ora è una Caduta rituale per me: emergono dalla foschia dell’estate, a piedi i bambini a scuola e saltare sulla 34th Street crosstown oltre al Jacob Javits Convention Center. Una volta che mi arriva, ho il badge e di partecipare a tutti i miei Dati Grandi amici che sono venuti in città per Strati di Dati di Conferenza di New York, per mostrare ciò che hanno fatto le loro vacanze estive.

L’altra parte del rituale è quello di raccogliere tutti i comunicati stampa e note informative e di mettere insieme un riassunto della notizia, tra cui un paio di annunci di fornitori che non sono stati nemmeno in fiera. Questo post costituisce il 2018 edizione di tale sintesi.

In genere, dopo tanti briefing (avevo 15 anni quest’anno), alcuni temi comuni emergere. Quest’anno i grandi sono stati: la produzione-disponibilità di dati open source lago/analytics stack; l’integrazione della tecnologia di container (finestra Mobile e Kubernetes, principalmente) in pila; l’importanza della governance dei dati, e il continuo marzo in avanti della macchina di apprendimento e AI. Io uso questi temi come strumento di organizzazione per discutere di tutte le novità.

Hadoop generazione di età
Forse il coronamento di un mio briefing di quest’anno è stata una discussione con Cloudera s Doug Cutting, il creatore di Apache Hadoop. Non avevamo mai incontrato prima, e mi ha colpito la tempistica, dato che i Grandi Dati di ecosistema è enorme, ma l’importanza di Hadoop stesso all’interno di esso, si è ritirato-un fenomeno che è stato pronunciato anche alla conferenza dello scorso anno:

Leggi anche: gli Strati NYC 2017 per Hadoop: Andare a saltare in un lago di dati

Ho chiesto il Taglio di come si sente circa lo status e il ruolo di Hadoop in quello che alcuni considerano il post-Hadoop epoca. La sua risposta è stata un due parter:

Tutto il Big Data ecosistema è un’escrescenza di Hadoop e le tecnologie correlate, e si gangbustersHadoop ha reso open source, tecnologia di trasmissione dati, che consiste di un gruppo di accoppiamento progetti maturo, in una realtà lavorativa

Il taglio dell’ultimo punto contrasti con il vecchio mondo dei dati aziendali e la BI pile, in cui le Imprese di acquistare un array di incastro prodotti da un unico fornitore. Molti di questi clienti sono ora portando insieme numerose tecnologie open source che a volte richiedono un grande sforzo di integrazione. Ma oggi, con l’evoluzione dei prodotti e delle competenze dell’acquirente comunitario, l’assunzione di questi prodotti di produzione è molto più fattibile.

Come esempio, Cloudera ha annunciato la sesta major release della distribuzione di questa settimana…più di quattro anni dopo l’uscita del suo quinto. Io non posso davvero chiamare un “Hadoop distribuzione” di più, perché ora fasci di 26 diversi progetti open source all’interno di esso (come Mike Olson, il chief strategy officer, mi ha detto in una conversazione distinta di questa settimana). Ma Hadoop 3.x è una parte importante della release, come l’Impala di dati basato su tecnologia di magazzino che è stato anche annunciato di recente. Con un IoT centrato in collaborazione con Red Hat, Cloudera ha avuto un sacco di chat di recente.

Leggi anche: Cloudera un data warehouse giocatore ora

Un altro annuncio in Strati lasso di tempo, questa volta a bordo dell’Enterprise BI anteriore, era Information Builders’ il rilancio della sua ammiraglia WebFOCUS prodotto. Il vecchio di decenni società, la cui sede centrale è a pochi isolati a est del Javits Center, comunque ha fatto il suo annuncio al di fuori dell’egida dell’evento. La società informa WebFOCUS offre una nuova interfaccia utente (indicato di seguito); inoltre, i dati sportivi scienza funzioni, una nuova dinamica livello di metadati e le nuove funzionalità di gestione dei dati. C’è una nuova connettività cloud tecnologie per il data warehouse, tra cui Amazon Redshift e Google BigQuery, troppo.

E, a proposito di Redshift e BigQuery, in linea di connettività dati del giocatore Fivetran proprio questa settimana ha rilasciato la sua 2018 Data Warehouse Benchmark che misura le prestazioni e i costi di entrambi i prodotti, insieme con il Fiocco di neve, SQL Azure Data Warehouse, e Presto open source query SQL motore.

In altre piattaforma di maturità notizie, Trifacta continua a faticare a suo mercato, la società mi ha detto è di raddoppiare il fatturato e triplicare il suo numero clienti ogni anno. È entrato in una partnership con IoT/dati macchina giocatore di Sumo Logica, ed è aggiunto pianificazione, gli avvisi, gestione del carico di lavoro e altre funzionalità per aumentare il rigore del suo utilizzo nella produzione di impostazioni. Trifacta non è solo per casual self-service dati prep più.

Sul tema dell’internet degli Oggetti, piuttosto separatamente dagli Strati evento, Sprint ha annunciato questa settimana il suo nuovo Curiosità IoT piattaforma, una combinazione di un “dedicata, virtualizzati e distribuito IoT core” della rete, e di un nuovo sistema operativo, sviluppato con Ericsson e basato su tecnologia Arm.

Moving on, i database NoSQL sono un passo fino a problematiche di produzione stessi. Questo avviene attraverso gli sforzi NoSQL stessi venditori, nonché di terzi. Come esempio di questi ultimi, Rubrik ha annunciato la sua Datos IO release 3.0, che offre la piena funzionalità di backup e ripristino per entrambi Cassandra/DataStax e MongoDB. Datos IO 3.0 è in grado di eseguire in contenitori e in più cloud pubblici, tra cui Microsoft Azure e Oracle Cloud, che si uniscono Amazon Web Services e Google Cloud Platform as ambienti supportati.

Contenere te
Parlando di contenitori e il cloud pubblico, i due insieme formano un altro grande tema di quest’anno Strati evento di New York. Per esempio, Hadoop 3.x ha introdotto la possibilità per i contenitori Docker per essere distribuito come FILATI di posti di lavoro.

Ma, poco prima di Strati di kickoff, Hortonworks annunciato di Aprire un’Architettura Ibrida Iniziativa che è uno sforzo per containerize la totalità di Hadoop. Un altro aspetto di questo è la separazione di storage e di calcolo nella piattaforma Hadoop, sfruttando il lavoro di Ozono File di Sistema. Questa è una grande partenza in Hadoop mondo, ma, insieme con la containerizzazione / Kubernetes-compatibilità impegno, dovrebbe fare Hadoop molto più pronta per il cloud e molto di più portatile tra locali e gli ambienti cloud pubblici.

Leggi anche: Hortonworks svela la tabella di marcia per rendere Hadoop cloud-nativo

El gobernador
Un altro ritornello comune a Strati è stata l’importanza della governance dei dati. Parte di questo è guidato dalla necessità per la conformità con i quadri normativi, come l’UE, Generale di Regolamento sulla Protezione dei Dati (GDPR), entrata in vigore nel Maggio di quest’anno.

Leggi anche: GDPR: Che i dati che le aziende stanno offrendo

Ma ci sembrava di essere un generale consenso sul fatto che la governance dei dati e dei dati di catalogazione è super importante per lo sforzo di rendere i dati aziendali sul lago di qualcosa di utilizzabile e un vero elemento di corporate trasformazione digitale.

In quest’ottica, la linea di Galleggiamento i Dati e MapR ha annunciato una partnership, con la quale quest’ultima società venderà una versione integrata di prodotto, come la linea di Galleggiamento i Dati di Catalogo per MapR, una nuova, optional, componente MapR Convergenti Piattaforma Dati. E Alation ha annunciato una partnership con Primo San Francisco Partners “per fornire le migliori pratiche per modernizzare la gestione dei dati con i dati cataloghi.”

Okera, che solo di recente è venuto fuori di stealth, ha già annunciato un v1.2 il rilascio della sua piattaforma, che si combina con un catalogo dati e autorizzazioni-driven disciplinati i dati di tessuto. La nuova release porta la connettività di database relazionali, in aggiunta ai dati lago di fonti che sono state già sostenute; generate dinamicamente in base al ruolo viste analitiche sulla cima di Okera di utilizzo e di controllo dei dati (utile per la conformità alle normative e violazione di rilevamento); e a grana fine, autorizzazioni permettendo ricca di dati steward ruoli, in modo che i dati stewardship capacità non sono un tutto-o-niente di funzionalità. Il nuovo Okera versione è disponibile ora.

Tutto su connessioni
A proposito, non è possibile governare dati se non è possibile connettersi ad esso. Di conseguenza, Simba Tecnologie di cui è anche co-sviluppato ODBC di Microsoft nel 1990 ed è ora una unità di Grandezza Software, ha annunciato la sua nuova Grandezza di prodotti Gateway. Ora, piuttosto che acquistare i singoli connettori dati, o anche una grande libreria di loro, gli utenti di connettersi al Gateway prodotto che si collega a più di back-end per database e applicazioni tramite un quadro di “Intelligente”, “Standard” e “Universale” adattatori.

Un altro aspetto della connettività di accesso al pubblico insiemi di dati. In proposito, Bloomberg ha annunciato la sua Impresa il Punto di Accesso, fornendo standardizzata di riferimento, i prezzi, normativi e storici dataset per Bloomberg Dati client di Licenza, gli sviluppatori e i dati di scienziati.

Intelligenza artificiale, naturalmente
Un servizio di dati per i dati di scienziati è una cosa, ma, d’altra estremità dello spettro, SAP ha annunciato la sua nuova Analytics Cloud, una macchina-learning piattaforma abilitato per consentire agli utenti di business di cablaggio macchina di apprendimento, senza necessariamente aver bisogno di dati scientifici. Dato SAP gestisce clienti, vendite, supply chain e altri business-oriented dati, la propria offerta contrasti con il Bloomberg servizio, che mette a disposizione del pubblico/open data.

Secondo il SAP, Analytics Cloud offre agli utenti aziendali la possibilità di fare cose come “previsione delle future prestazioni, con un solo clic” e “fornire di rischio e di correlazione di rilevamento, creazione autonoma di avanzata cruscotti e storyboard, e iper-personalizzato intuizioni dati relativi a fornitori, clienti e fornitori, tra cui il rilevamento di anomalie.”

Ma cosa succede se sei un data scientist e vuole ottenere di più hands-on con i dati e la modellazione predittiva? Dataiku ha annunciato oggi il suo Dataiku 5 rilascio, che aggiunge il supporto per l’apprendimento profondo librerie (TensorFlow e Keras) e, solo per dimostrare il mio punto precedente, in grado di generare Mobile contenitori che sono distribuibile Kubernetes cluster.

Questo è tutto bene e buono per la modellazione, ma Nvidia GPU chip maker che è diventato tutto su AI, fatto diversi annunci intorno AI infrastruttura e deduzione. Gli annunci sono stati fatti in questa settimana, non a Strati, ma GTC (La GPU Technology Conference) in Giappone. Questi includono:

Il TensorRT Hyperscale Piattaforma, un nuovo AI data center piattaforma Tesla T4, AI inferenza acceleratorTensorRT 5: una nuova versione di Nvidia, deep learning inferenza optimizer e runtimeTensorRT inferenza server: un “microservice che consente alle applicazioni di utilizzare AI modelli in un data center di produzione.” (E indovinate un po’? È containerizzato e scale utilizzando Kubernetes su Gpu Nvidia.)CUDA 10: l’ultima versione di NVidia GPU in parallelo modello di programmazione.

Leggi anche: NVIDIA si trasforma da grafiche e di gioco per l’IA e il deep learning
Leggi anche: NVIDIA altalene per l’AI recinti
Leggi anche: Nvidia raddoppia su AI

E il lavello della cucina
Che tutti i dati news that’s fit to “la stampa” di questa settimana. Ed è un sacco. Ma, proprio come con i big data, trovo che maggiore è il volume di notizie, più è facile per disegnare un piccolo insieme di intuizioni: la produzione di rigore, containerizzazione, la governance dei dati/accesso ai dati e AI sono il grande trend di quest’anno Strati. Essi saranno probabilmente le grandi tendenze del settore, per il resto dell’anno, e non solo, oltre.

Argomenti Correlati:

Intelligenza Artificiale

La Trasformazione Digitale

Robotica

Internet delle Cose

L’innovazione

Enterprise Software