DUTCH

Databricks is niet langer het afspelen van David en Goliath

126

Nul

Imitatie wordt de oprechte vorm van vleierij vrij goed overzicht van de uitdagingen van het runnen van een open source software bedrijf. De afgelopen 4 – 5 jaar, Apache Vonk heeft genomen van de big data-analytics-wereld door de storm (voor de fans van streaming, no pun intended). Als het bedrijf waarvan de oprichters gemaakt en verder te leiden van de Apache Spark project, Databricks onderscheidt zich als het bedrijf dat kan geven u de meest performante, up-to-date, Vonk-gebaseerde cloud-platform service.

In de tussentijd heeft Spark het blijft een van de meest actieve Apache open source project dat gebaseerd is op de grootte van de gemeente (meer dan duizend medewerkers van 250 organisaties) en het volume van de bijdragen. Zijn claim to fame is een vereenvoudigde berekenen model (in vergelijking met MapReduce of andere parallel computing kaders), zware leverage van in-memory computing, en de beschikbaarheid van honderden derde partij pakketten en bibliotheken.

Spark is uitgegroeid tot de de facto standaard ingesloten compute engine tools voor het uitvoeren van alles wat gerelateerd is aan de transformatie. IBM heeft het project een beer knuffel als het opgestart zijn analyse suite met Vonk.

Maar als een maatregel van de looptijd, is er nu een echte wedstrijd. De meeste van de competitie werd met bibliotheken en pakketten, waar R en Python programmeurs hun eigen voorkeuren. Er is ook concurrentie voor streaming waar een mix van open bron en eigendomsmatige alternatieven ondersteund true streaming, terwijl de Vonk Streaming zelf was gebaseerd op microbatch (dat is nu aan het veranderen). Meer recentelijk, de Vonk is het zien van hernieuwd concurrentie op het berekenen van de voorkant, als de opkomende alternatieven zoals Apache Straal (die de bevoegdheden van Google Cloud Dataflow) zijn zich te positioneren als de onramp voor streaming en high-performance berekenen.

Ironisch genoeg, terwijl een groot deel van de Spark workloads zijn uitgevoerd voor de transformatie, de oorspronkelijke claim to fame gecentreerd op machine learning. De bedienbaar begrip voor Databricks was dat je kon snel toegang krijgen tot Spark en gemakkelijk profiteren van MLlib bibliotheken, zonder dat het opzetten van een Hadoop-cluster.

Sindsdien, Amazon, Microsoft Azure, Google en anderen bieden nu compute cloud diensten gespecialiseerd voor machine learning — met Amazon ‘ s SageMaker het afvuren van een schot voor de boeg voor het maken van machine learning toegankelijk is zonder dat een geavanceerde mate. Aan de andere kant van het spectrum, Spark DLL-bibliotheken zijn nog steeds werk in uitvoering; voor diepe leren, TensorFlow en MxNet zijn momenteel stealing thunder Spark-maar ze kunnen wel worden ingezet om uit te voeren op Vonk.

Databricks’ strategie is veranderd van “de democratisering van analytics” te leveren “de unified analytics platform.” Het biedt een cloud-Platform-as-a-Service (PaaS) biedt gericht op gegevens wetenschappers dat informeel is gepositioneerd als de go-to bron voor het verkrijgen van Spark taken snel met de meest actuele bron van de technologie.

Maar nogmaals, je hoeft niet Databricks uitvoeren Vonk. Je kunt uitvoeren op een Hadoop-platform, en dankzij aansluitingen op vrijwel elke analyse of operationele data platform. En in de cloud, kunt u gemakkelijk draaien op Amazon EMR of andere cloud Hadoop service. En als je zijn zwaar getrouwd zijn met een Python bibliotheken, er is altijd de Anaconda Cloud.

Databricks belooft eenvoud. U kan uitvoeren Spark zonder de overhead van het runnen van een Hadoop-cluster of zorgen te maken over het configureren van de juiste mix van Hadoop-gerelateerde projecten. Je krijgt een native Vonk runtime en geen zorgen te maken over de implementatie van uw modellen door te werken in een Databricks private notebook waar u kunt uw output uitvoerbaar zijn zonder het vinden van uw modellen verloren in de vertaling zodra ze werden overgemaakt naar uw gegevens-ingenieurs. En heb je zorgen hoeft te maken over de grootte van je berekenen door het opgeven van het aantal werknemers.” Met elk van de grote cloud-aanbieders met een serverloze berekenen diensten (waar je code schrijven zonder je zorgen te maken over berekenen), afgelopen zomer, Databricks lanceerde haar eigen serverloze optie.

Het bedrijf kreeg een enorme shot in de arm afgelopen zomer met een frisse 140 miljoen dollar venture ronde die dreigt om het bedrijf een andere eenhoorn (de cumulatieve financiering nu meer dan $250 miljoen). En het is nu zijn vleugels spreidt met een aantal belangrijke product-initiatieven.

Databricks Delta voegt de ontbrekende schakel van de data persistentie. Tot nu toe, de Databricks service trok gegevens, voornamelijk van cloud-opslag, en de geleverde resultaten die kunnen worden gevisualiseerd of post-verwerkt door middel van een BI self-service tools. Ironisch genoeg, als één van de meest voorkomende Vonk werkbelasting is data transformatie, Databricks niet direct een manier om te blijven bestaan de gegevens voor toekomstig gebruik, tenzij door middel van gegevens van derden platforms stroomafwaarts. Delta vult het gat door het toevoegen van de mogelijkheid tot aanhouden van de gegevens in kolom Parket bestanden.

Op het eerste blush, Databricks Delta ziet eruit als het antwoord op cloud-gebaseerde data warehousing diensten die er nog zijn gegevens, gebruik Vonk, en direct query gegevens uit de S3, zoals Amazon Roodverschuiving Spectrum. In werkelijkheid, Parket is gewoon een bestandssysteem dat gegevens opslaat in kolomvorm; het is niet een database. Het is dus gericht op data-wetenschappers die de neiging hebben om te werken met schema-op-lezen modus en willen een optie voor het voortduren van de gegevens. Op deze manier kunnen ze het werk binnen de Databricks service zonder een beroep te doen op Roodverschuiving of andere data warehouses, in de cloud of on premise, voor hergebruik van de gegevens die ze hebben net draaide.

Dwerggroei die aankondiging was de onthulling van het Azure Databricks. Tot nu toe, Databricks liep als een managed service aan AWS, maar als een service provider met een latrelatie. Voor Azure, Databricks is gegaan volledig eigen. Beschikbaar via de Azure-portal, Azure Databricks loopt op Azure containers, high-speed toegang tot Azure Blob Storage en Azure Data Meer, kan worden uitgevoerd via de Azure-console, en is geïntegreerd met PowerBI voor de query, samen met een verscheidenheid van Azure databases (SQL Azure Database, SQL Azure Data Warehouse en de Kosmos DB) voor downstream hergebruik van de resultaten.

Als een Azuurblauwe native-service, Databricks zou kunnen worden verweven met andere diensten, zoals Azure Machine Learning, Azure IoT, Gegevens Fabriek en anderen. Dat kan aanzienlijk uit te breiden Databricks’ adresseerbare markt. Meer to the point, Microsoft Azure als OEM, Databricks krijgt een strategische partner die niet langer maakt het een David naar ieders Goliath.

Verwante Onderwerpen:

Cloud

Digitale Transformatie

Robotica

Het Internet van Dingen

Innovatie

Enterprise Software