Het gebruik van big data om waarde te creëren voor externe klanten en interne teams
Zhe Zhang, manager van de Kern van Big Data op LinkedIn, bespreekt de open source diep leren en artificial intelligence tools gebruikt op LinkedIn.
In theorie gegevens meren klinkt als een goed idee: Één grote opslagplaats voor het opslaan van alle data die uw organisatie nodig heeft om te verwerken, het verenigen van myriaden van gegevensbronnen. In de praktijk worden de meeste gegevens meren zijn een puinhoop op de een of andere manier verdienen ze de “gegevens moeras” moniker. Databricks zegt een deel van de reden is het ontbreken van transactie-ondersteuning, en ze hebben gewoon open source Delta Lake, een oplossing om dit aan te pakken.
Historisch data meren zijn een eufemisme voor Hadoop. Historische Hadoop, dat is: Op locatie, met behulp van HDFS als de storage laag. De reden is simpel. HDFS biedt kostenefficiënte, betrouwbare opslag voor gegevens van alle vormen en maten, en Hadoop ecosysteem biedt een scala aan opties voor het verwerken van die gegevens.
De gegevens zijn a changin’, en gegevens meren volgen. Het belangrijkste idee van het hebben van een big data store voor alles blijft, maar dat is niet per se op locatie niet meer, en niet per se Hadoop.
Opslag in de Cloud is de de facto gegevens meer
en Hadoop zelf aan het evolueren is om gebruik te maken van cloud-opslag van en het werken in de cloud.
Een laag op de top van uw opslag systeem, waar het kan worden
Databricks is het bedrijf opgericht door de makers van Apache Vonk. Vonk heeft aangevuld of vervangen, traditionele Hadoop voor een groot deel. Dit is te wijten aan de hogere abstractie van Spark ‘s-Api’ s en de snelle, in-memory processing. Databricks zelf biedt een beheerde versie van open source Vonk in de cloud, met een aantal eigen extensies, genaamd Delta. Delta is alleen-cloud, en wordt gebruikt door een aantal grote klanten over de hele wereld.
In een gesprek met Matei Zaharia, Apache Vonk co-creator en Databricks CTO. Zaharia opgemerkt dat het soms Vonk gebruikers migreren naar de Databricks platform, terwijl de andere keer het s line-of-business eisen die dicteren dat een cloud-first benadering. Het lijkt erop dat het hebben van om te gaan met gegevens meren die span on-premise en cloud-opslag gevraagd Databricks om iets te doen aan één van de belangrijkste punten: Betrouwbaarheid.

De makers van Apache Vonk werken met gegevens meren, en dat inspireerde hen om te nemen op een aantal van hun problemen
×
apache-spark.jpg
“Vandaag de dag bijna ieder bedrijf heeft een data lake ze proberen om inzicht te krijgen, maar de gegevens meren hebben bewezen gebrek aan betrouwbaarheid van de gegevens. Delta Lake heeft geëlimineerd deze uitdagingen voor honderden ondernemingen. Door het maken van Delta Lake open source ontwikkelaars in staat zal zijn voor het gemakkelijk bouwen van betrouwbare gegevens meren en zet ze in de ‘Delta Meren’,” zei Ali Ghodsi, medeoprichter en CEO van Databricks.
Om te weten waar dit vandaan komt, we hadden af te vragen wat het precies betekent, en wat voor soort data opslag biedt de Delta Meer ondersteuning?
“Delta Lake ligt op de top van uw opslagsysteem[s], het vervangt deze niet. Delta Lake is een transactionele opslag laag die werkt zowel op de top van HDFS en cloud-opslag als S3, Azure blob storage. Gebruikers kunnen downloaden en open-source Delta Lake en gebruik het op-prem met HDFS. Gebruikers kunnen lezen van een opslag systeem dat ondersteunt Apache Vonk gegevensbronnen en schrijven Delta Lake, die slaat de gegevens op in Parket-formaat,” Ghodsi vertelde ZDNet.
Apache Parket is het formaat van de keuze voor Databricks. Parket is een open-source kolom-opslag-formaat beschikbaar zijn voor een project in het Hadoop ecosysteem, ongeacht de keuze van de verwerking van gegevens framework. Het lijkt er dus op Delta Meer fungeert als een laag op de top van de ondersteunde data-opslag formaten.
Verwante Onderwerpen:
Data Management
Digitale Transformatie
Robotica
Het Internet van Dingen
Innovatie
Enterprise Software