Databricks presenterar nya öppen källkod-projekt för att städa upp data sjöar

0
160
delta-lake-logo.png

×

delta-sjön-logotyp.png

Under vår 2018 år framåt prognoser räknar vi med att cloud lagring skulle bli de facto data sjön. Dilemmat är att cloud lagring var avsedd för just detta – lagring. Men allt, analytiker och data som forskarna vill få tillgång till data. Med Athena, AWS gjorde uppgifter i S3 förfrågningsbart. ChaosSearch vänt din Amazon S3 lagring till en de facto Elasticsearch kluster. Cloud data lager utökat sin räckvidd till frågan moln lagring, medan de flesta moln lyckades Hadoop tjänster att använda lagret som standardalternativ.

Utmaningen är naturligtvis att data hälla i cloud lagring tenderar att landa där som standard. Gissa vad? I dessa scenarier, bra saker som styrning eller uppföljning av ursprungsinformation hamna i strid tillämpas, om alls. Visserligen förluster kan tyckas trivialt om syftet är helt enkelt att utforska data innan du genomför den analytiska körs på vilket beslut fattas. Nackdelen med denna princip är att, i en tid av GDPR, företag kan få problem att lagra uppgifter som de inte har rätt. Sedan finns det de perenna data validering av problem som kan uppstå när du har flera motstridiga versioner av sanningen. Det kan kasta data vetenskap eller machine learning projekt av otakt. I data sjön eran, “skräp in, skräp ut” är knappast föråldrade.

I upptakten till Spark + AI Toppmötet, Databricks är att presentera en ny open source-projekt, Delta Sjön, som har ingenting att göra med bayou eller skörd kräftor. Det hanterar data bearbetats med hjälp av Gnista för att göra det transaktionella och landar det i vanliga Parkettgolv format. Delta Sjön, som är tillgänglig under en Apache 2.0 open source-licens, gäller en SYRA transaktion lager som bultar på Spark data rörledningarna för att säkerställa att uppgifterna uppdateringar som anländer med ström och/eller partiet kommer inte att resa upp över varandra, vilket resulterar i antingen partiell eller kopiera skadad begår. Om odifferentierade moln lagring är de facto data sjön, detta syftar till att utveckla en ren landningsplats.

Med affärsbeslut stöd innebär att data ingenjörer och utvecklare inte behöver bygga ett separat lager för att säkerställa en konsekvent uppdateringar. Som har stor påverkan med tanke på det faktum att data sjöar normalt har flera uppgifter pipelines som att läsa och skriva data samtidigt. Databaser som utvecklats transaktion stöd för att göra data förbinder sig ren, tills nu, data sjöar som saknade sådana mekanismer, tvingar data tekniker eller utvecklare att skriva sin egen transaktion logik. I de flesta fall, gör ingenting, var det förvalda alternativet med tanke på det alternativ som en mödosam och svår att upprätthålla den egna utvecklingen.

Delta Sjön tillåter dig att se schema om du väljer, ett begrepp som är mer förknippade med relationsdatabaser snarare än data sjöar (schema verkställighet är valfritt). Det ger också bilder så att utvecklare kan komma åt eller återställa till tidigare versioner. Som är användbar, inte bara för revision, men för att testa giltigheten av någon modell. Eftersom det är fullt Spark-kompatibla, kommer det att kopplas till befintlig Gnista data rörledningarna.

Med Delta Sjön, Databricks satsar på det faktum att SURA inte förorenar sjöar, men rena dem.

Relaterade Ämnen:

Artificiell Intelligens

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem