Databricks afslører nye open source-projekt at rydde op i data søer

0
136
delta-lake-logo.png

×

delta-søen-logo.png

Under vores 2018 år forud forudsigelser, forventer vi, at cloud storage ville blive de facto data søen. Det dilemma er, at cloud storage er designet til netop det – opbevaring. Men i stigende grad, business analytikere og data forskere ønsker at få adgang til de pågældende data. Med Athena, AWS lavet data i S3 queryable. ChaosSearch vendt din Amazon S3 storage til et de facto Elasticsearch klynge. Cloud data warehouses udvidet deres rækkevidde til at søge cloud storage, mens de fleste cloud-administreret Hadoop-tjenester bruger som opbevaring lag som standard mulighed.

Udfordringen er naturligvis, er at hælde data i cloud storage har en tendens til at lande der som standard. Gæt hvad? I disse scenarier, gode ting som styring eller sporing af data slægt ender konsekvent anvendt, hvis overhovedet. Ganske vist, de tab, der kan synes trivielt, hvis formål er simpelthen at udforske data, før du udfører det analytiske kørsler, hvor beslutningerne træffes. Ulempen med denne begrundelse er, at i en tid af GDPR, virksomheder kan komme i problemer, lagring af data, som de ikke er berettiget til. Så er der det evige data validering af problemer, der opstår, når du har flere, modstridende versioner af sandheden. Det kan kaste data videnskab eller machine learning-projekter fra kilter. I de data, sø æra, “garbage in, garbage out” er næppe forældet.

I tiden op til Spark + AI-Topmødet, Databricks er afsløringen af et nyt open source-projekt, Delta Søen, som ikke har noget at gøre med bayou eller høst languster. Det håndterer data, der behandles med Spark til at gøre det transaktionsbeslutning, og lander det til fælles Parket-format. Delta Sø, som er til rådighed under en Apache 2.0 open source licens, gælder en SYRE transaktion lag, at bolte på Gnist data rørledninger til at sikre, at data, der ankommer opdateringer af strøm-og/eller parti vil ikke turen op over hinanden, hvilket resulterer i enten delvis eller kopiere ødelagt forpligter. Hvis udifferentierede cloud storage er de facto data søen, dette har til formål at udvikle en ren landing zone.

Der transaktionsbeslutning støtte betyder, at data ingeniører og udviklere, vil ikke have til at opbygge et separat lag for at sikre en ensartet opdateringer. Det har stor betydning i betragtning af det faktum, at data søer typisk har flere data rørledninger, der læser og skriver data samtidigt. Databaser, der er udviklet transaktion støtte til at gøre data begår rene, indtil nu, data søer manglede sådanne mekanismer, der tvinger data ingeniører og udviklere til at skrive deres egen transaktion logik. I de fleste tilfælde, at gøre noget standardindstillingen i betragtning af den alternative af besværlige og svære at vedligeholde brugerdefineret udvikling.

Delta Søen giver dig mulighed for at håndhæve skema, hvis du vælger, er et begreb mere, der er forbundet med relationelle databaser i stedet for data søer (skema håndhævelse er valgfrit). Det giver også snapshots, så udviklere kan få adgang til eller vende tilbage til tidligere versioner. Der er nyttige, ikke kun for revision, men for at teste gyldigheden af enhver model. Som det er fuldt Gnist-kompatible, det vil stikket i eksisterende Gnist data rørledninger.

Med Delta Søen, Databricks er bank på det faktum, at SYRE vil ikke forurener søer, men at rense dem.

Relaterede Emner:

Kunstig Intelligens

Digital Transformation

Robotteknologi

Tingenes Internet

Innovation

Virksomhedens Software