En standard för lagring av big data? Apache Gnista kreatörer släpper öppen källkod Delta Sjön

0
142

Med hjälp av stora data för att skapa värde för externa kunder och interna team
Så Zhang, chef för Centrala Big Data på LinkedIn, diskuterar open source djupt lärande och artificiell intelligens verktyg som används på LinkedIn.

I teorin, data sjöar låter som en bra idé: Ett stort arkiv att lagra alla data som din organisation behöver för att bearbeta, att förena myriader av datakällor. I praktiken är de flesta uppgifter sjöar är en enda röra i på ett eller annat sätt, tjäna dem “data-träsket” moniker. Databricks säger en del av orsaken är brist på affärsbeslut stöd, och de har bara öppet hämtas Delta Sjön, en lösning för att hantera detta.

Historiskt data sjöar har varit en omskrivning för Hadoop. Historiska Hadoop, som är:-lokaler, med hjälp av HDFS som lagring lager. Anledningen är enkel. HDFS erbjuder en kostnadseffektiv, tillförlitlig lagring för data i alla former och storlekar, och Hadoop ekosystem och erbjuder en uppsjö av alternativ behandling för detta.

Data gånger är en changin’ men, och data sjöar följa. Den huvudsakliga idén med att ha en big data-butik för allt fortfarande, men det är inte nödvändigtvis på plats längre, och inte nödvändigtvis Hadoop heller.
Lagring i molnet är på väg att bli de facto data sjön
och Hadoop i sig är utvecklande att använda moln lagring och arbeta i molnet.

Ett lager på toppen av din storage system, där det kan vara

Databricks är företaget grundades av skaparna av Apache Gnista. Gnista har kompletterat eller ersatt traditionella Hadoop i stor utsträckning. Detta är på grund av den högre uttag av Spark är Api: er och dess snabbare i minnet behandling. Databricks i sig erbjuder en hanterad version av open source Spark i molnet, med ett antal egna tillägg, som kallas Deltat. Delta är moln, och används av ett antal stora kunder över hela världen.

I ett samtal med Matei Zaharia, Apache Gnista co-creator och Databricks CTO. Zaharia konstaterade att ibland Gnista användare migrera till Databricks plattform, medan andra gånger det är line-of-business krav att diktera ett moln-första metoden. Det verkar som att behöva handskas med data sjöar som sträcker på lokaler och lagring i molnet uppmanas Databricks att göra något för att ta itu med en av sina huvudfrågor: Tillförlitligheten.

apache-spark.jpg

Skaparna av Apache Gnista arbeta med data sjöar en hel del, som inspirerade dem att ta på sig en del av sina frågor

×

apache-spark.jpg

“Idag har nästan alla företag har en data sjön som de försöker få kunskap från, men data sjöar har visat att bristande tillförlitlighet. Delta Sjön har eliminerat dessa utmaningar för hundratals företag. Genom att Delta Sjön öppen källkod, utvecklare enkelt ska kunna bygga upp tillförlitliga uppgifter sjöar och förvandla dem till “Delta Sjöar”,”, sade Ali Ghodsi, medgrundare och VD på Databricks.

Att veta vart detta kommer ifrån, var vi tvungna att undra exakt vad betyder det, och vilken typ av data lagring inte Delta Sjön stöd?

“Delta Sjön sitter på toppen av ditt lagringssystem[s], inte ersätta dem. Delta Sjön är ett affärsbeslut lagring lager som fungerar både på toppen av HDFS och moln lagring som S3, Azure blob storage. Användare kan ladda ner open-source Delta Sjön och använda den på-prem med HDFS. Användare kan läsa från alla lagringssystem som stöder Apache Gnista datakällor och skriva att Delta Sjön, som lagrar data i Parkett-format,” Ghodsi berättade ZDNet.

Apache Parkett i form av val för Databricks. Parkett är ett open-source-pelar-lagring-format som finns tillgängliga för alla projekt i Hadoop ekosystem, oavsett val av data bearbetning ram. Så det verkar som att Delta Sjön fungerar som ett lager på toppen av stöd datalagring format.

Relaterade Ämnen:

Hantering Av Data

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem