At bruge big data til at skabe værdi for eksterne kunder og interne teams
Zhe Zhang, leder af Core Big Data på LinkedIn, diskuterer open source dyb læring og kunstig intelligens værktøjer, der anvendes på LinkedIn.
I teori, data, søer lyder som en god idé: Et kæmpe lager til at gemme alle data, som din organisation har brug for at behandle, samlende myriader af data kilder. I praksis vil de fleste data søer er en rod, på en eller anden måde, at tjene dem “data sump” moniker. Databricks siger, at en del af årsagen er manglende forretningsmæssig support, og de har netop udgivet Delta Sø, en løsning til at løse dette.
Historisk data søer er blevet en eufemisme for Hadoop. Historiske Hadoop, som er: På stedet, ved hjælp af HDFS som opbevaring lag. Årsagen er enkel. HDFS tilbyder omkostningseffektiv, pålidelig lagring af data i alle former og størrelser, og Hadoop økosystem tilbyder en bred vifte af behandlingsmuligheder for de pågældende data.
Data gange er en changin’ selv, og data søer følge. Den vigtigste idé i at have en stor data butik for alt stadig, men det er ikke nødvendigvis forudsætning om længere, og som ikke nødvendigvis er Hadoop.
Cloud storage er ved at blive de facto data sø
og Hadoop sig selv udvikler sig til at udnytte cloud-storage og arbejde i skyen.
Et lag på toppen af dit storage-system, hvor det kan være
Databricks er den virksomhed, der blev grundlagt af skaberne af Apache Gnist. Spark har suppleret eller erstattet, traditionelle Hadoop til en stor udstrækning. Dette skyldes, at den højere indvinding af Gnist ‘s Api’ er, og det er hurtigere, in-memory-behandling. Databricks i sig selv byder på en administreret version af open source Gnist i sky, med en række proprietære udvidelser, kaldet Delta. Delta er cloud-kun, og bruges af en række store kunder over hele verden.
I en samtale med Matei Zaharia, Apache Gnist co-creator og Databricks CTO. Zaharia bemærket, at nogle Spark brugere at migrere til Databricks platform, mens det andre gange er line-of-business-krav, der dikterer en cloud-den første tilgang. Det ser ud til, at skulle beskæftige sig med data søer, der span på lokaler og cloud storage bedt om Databricks til at gøre noget for at løse et af deres vigtigste spørgsmål: Pålidelighed.

Skaberne af Apache Gnist arbejde med data, søer en masse, der inspirerede dem til at tage på nogle af deres spørgsmål
×
apache-spark.jpg
“I dag er der næsten hver virksomhed har en data-søen, hvor de forsøger at få viden fra, men data søer har vist, at manglende data pålidelighed. Delta Søen har elimineret disse udfordringer for hundredvis af virksomheder. Ved at gøre Delta Søen open source-udviklere vil være i stand til nemt at opbygge pålidelige data søer og gøre dem til ‘Delta Søer’,” sagde Ali Ghodsi, der er medstifter og administrerende DIREKTØR i Databricks.
At vide, hvor det kommer fra, vi var nødt til at spekulerer på, hvad betyder det, og hvilken form for lagring af data er Delta Søen støtte?
“Delta Søen sidder på toppen af dit storage system[s], betyder det ikke at erstatte dem. Delta Søen er en transaktionsbeslutning opbevaring lag, der virker både på toppen af HDFS og cloud storage som S3, Azure blob storage. Brugere kan downloade open source-Delta-Søen og bruge det på-prem med HDFS. Brugerne kan læse fra enhver storage-system, der understøtter Apache Gnist data kilder og skrive til Delta-Søen, som lagrer data i Parket-format,” Ghodsi fortalte ZDNet.
Apache Parket er det foretrukne format for Databricks. Parket er et open-source søjleformet storage format tilgængelig for ethvert projekt i Hadoop økosystem, uanset valg af behandling af oplysninger ramme. Så det lader til, Delta Søen fungerer som et lag oven på de understøttede dataformater.
Relaterede Emner:
Data Management
Digital Transformation
Robotteknologi
Tingenes Internet
Innovation
Virksomhedens Software