Databricks onthult nieuwe open source project op te ruimen gegevens meren

0
92
delta-lake-logo.png

×

delta-meer-logo.png

Tijdens onze 2018 jaar vooruit voorspellingen, we voorspellen dat het cloud-opslag zou worden de feitelijke gegevens meer. Het dilemma is dat cloud-opslag is ontworpen alleen voor de opslag. Maar steeds vaker, business analisten en gegevens wetenschappers willen om toegang te krijgen tot die gegevens. Met Athena, AWS gemaakt van gegevens in S3 queryable. ChaosSearch draaide je Amazon S3 storage in een de facto Elasticsearch cluster. Cloud data warehouses uitgebreide hun bereik om query opslag in de cloud, terwijl de meeste cloud beheerd Hadoop diensten gebruik van die opslag laag als standaard optie.

De uitdaging is natuurlijk, is dat de gegevens gieten in cloud-opslag heeft de neiging om het land er standaard. Wat denk je? In die scenario ‘ s, goede dingen zoals governance of het bijhouden van de afstamming van gegevens uiteindelijk inconsistent toegepast, indien. Toegegeven, het verliezen lijkt misschien triviaal als het doel is gewoon om te verkennen van gegevens voor het uitvoeren van de analyse wordt uitgevoerd op welke beslissingen worden genomen. Het nadeel met die redenering is dat, in een tijdperk van GDPR, ondernemingen zou kunnen krijgen in de problemen met het opslaan van de gegevens waarop ze geen recht hebben. Dan zijn er de vaste gegevens validatie problemen die optreden wanneer u meerdere, tegenstrijdige versies van de waarheid. Het kan gooien data science of machine learning projecten uit kilter. In de gegevens meer tijd, “garbage in, garbage out” is nauwelijks verouderd.

In de aanloop naar de Vonk + AI Summit, Databricks is de onthulling van een nieuw open source-project, Delta Meer, dat heeft niets te maken met de bayou of het oogsten van langoesten. Het behandelt de gegevens verwerkt met behulp van een Vonk te maken transactie-en landt in gemeenschappelijke Parket-formaat. Delta Lake, die is beschikbaar onder de Apache 2.0 open source licentie, geldt een ZUUR transactie laag dat de bouten op de Spark gegevens pijpleidingen om ervoor te zorgen dat de gegevens updates die met de stroom en/of batch niet-reis over elkaar, wat resulteert in een gedeeltelijk of een dubbele beschadigd pleegt. Als ongedifferentieerde opslag in de cloud is de feitelijke gegevens meer, dit is gericht op het ontwikkelen van een schone landing zone.

Met transactionele ondersteuning betekent dat de gegevens ingenieurs en ontwikkelaars niet hebben om te bouwen aan een aparte laag te zorgen voor consistente updates. Dat heeft grote gevolgen voor het gegeven dat het feit dat de gegevens meren hebben meestal meerdere gegevens pijpleidingen die het lezen en schrijven van data gelijktijdig. Databases ontwikkeld transactie-ondersteuning om gegevens pleegt schoon; tot nu toe, gegevens meren miste een dergelijke mechanismen, waardoor de gegevens ingenieurs en ontwikkelaars schrijven hun eigen transactie logica. In de meeste gevallen niets te doen was de standaard optie gezien het alternatief van omslachtige en moeilijk te onderhouden ontwikkeling op maat.

Delta Lake kunt u afdwingen schema als u kiest voor een concept dat meer geassocieerd met relationele databases in plaats van gegevens meren (schema handhaving is optioneel). Het biedt ook snapshots, zodat ontwikkelaars kunnen openen of terugkeren naar eerdere versies. Dat is handig, niet alleen voor de audits, maar voor het testen van de validiteit van een model. Het volledig op het Vonk-compatibel is, sluit in bestaande Vonk gegevens pijpleidingen.

Met Delta Lake, Databricks is bankieren op het feit dat ZUUR niet vervuilen meren, maar hen reinigen.

Verwante Onderwerpen:

Kunstmatige Intelligentie

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software