SVENSKA

Databricks inte längre spelar David och Goliat

157

Noll

Imitation är den finaste formen av smicker ganska väl sammanfattar de utmaningar i att driva en öppen källkod verksamhet. Under de senaste 4 – 5 åren, Apache Gnista har tagit big data analytics världen med storm (för fans av streaming, no pun intended). Som företag vars grundare skapat och fortsätter att leda Apache Spark-projektet, Databricks har differentierat sig som det företag som ger dig mest prestanda, upp till datum, Spark-baserade cloud platform service.

Under tiden, har en Gnista fortsätter att vara den mest aktiva Apache öppen källkod-projekt som bygger på att storleken gemenskapen (över tusen medarbetare från 250 organisationer) och volymen av bidrag. Sin berömmelse har varit en förenklad beräkna modell (jämfört med MapReduce eller andra parallella beräkningar ramar), kraftig hävstång i minne design och tillgänglighet av hundratals av tredje part paket och bibliotek.

Gnista har blivit de facto-standard för inbyggda compute engine verktyg för att utföra allt som är relaterat till data transformation. IBM har gett projektet en björnkram som det startas om sin analytiska svit med Gnista.

Men som ett mått på dess löptid, det är nu verklig konkurrens. De flesta av konkurrenterna var med bibliotek och paket, där R och Python-programmerare hade sina egna preferenser. Det har också funnits en tävling för streaming där en blandning av öppen källkod och proprietära alternativ stöds true streaming, medan Spark Streaming själv var baserat på microbatch (som nu förändras). Mer nyligen, Gnista är att se förnyad konkurrens på beräkna fram, som en framväxande alternativ som Apache Beam (som Google Cloud Dataflöde) positionerar sig som den upp till streaming och högpresterande beräkningar.

Ironiskt nog, medan en stor andel av Gnista arbetsbelastning kördes för data omvandling, dess ursprungliga fordran till berömmelse inriktad på lärande. Den manövreras begrepp för Databricks var att du kan få snabb tillgång till Gnista och lätt att ta fördel av MLlib bibliotek utan att behöva ställa upp ett Hadoop-kluster.

Sedan dess, Amazon, Microsoft Azure, Google och andra erbjuder nu compute cloud-tjänster som är specialiserade för maskininlärning — med Amazons SageMaker att avfyra ett skott över fören för att göra maskinen lärande tillgängliga utan kräver en avancerad examen. I andra änden av spektrumet, Spark ‘ s DLL-bibliotek är fortfarande pågående arbeten; för djupt lärande, TensorFlow och MxNet är närvarande stjäla Gnista åska — även om de kan säkert användas för att exekvera på Spark.

Databricks strategi har gått från att “demokratisera analytics” för att leverera “den enhetliga analysplattform.” Det erbjuder en cloud Platform-as-a-Service (PaaS) riktade erbjudande på data forskare som är informellt är positionerade som går till källan för att få Gnista jobb igång snabbt med de mest aktuella källan av tekniken.

Men sedan igen, du behöver inte Databricks att köra Spark. Du kan köra den på någon Hadoop-plattformen, och tack vare kontakter på praktiskt taget alla analytiska och operativa data plattform. Och i molnet, kan du lätt köra den på Amazon EMR eller någon annan moln Hadoop service. Och om du är starkt förenad med Python bibliotek, det finns alltid Anaconda Moln.

Databricks lovar enkelhet. Du kan köra Spark utan omkostnader igång ett Hadoop kluster eller oroa konfigurera rätt mix av Hadoop-relaterade projekt. Du får en infödd Gnista runtime och inte oroa dig för distribution av dina modeller genom att arbeta i en Databricks egenutvecklade anteckningsbok där du kan göra din output körbara utan att hitta dina modeller förlorade i översättning när de överlämnas till dina data ingenjörer. Ja, du har att oroa dig för dimensionering din beräkna genom att ange numret av “arbetstagare”. Med var och en av de stora moln leverantörer erbjuder serverlösa beräkna tjänster (där du skriver kod utan att behöva oroa beräkna), förra sommaren, Databricks lanserat sin egen serverlösa alternativ.

Företaget fick en enorm vitamininjektion förra sommaren med en fräsch $140 miljoner venture runda som hotar att göra företaget till en annan enhörning (dess totala finansieringen uppgår nu till mer än $250 miljoner). Och det är nu sprider sina vingar med flera viktiga produkt initiativ.

Databricks Delta lägger den felande länken av data persistens. Tills nu, Databricks service drog data, främst från moln lagring, och har levererat resultat som kan visualiseras eller efterbehandlade genom BI-self-service-verktyg. Ironiskt nog, som en av de mest frekventa Gnista arbetsbelastning data omvandling, Databricks inte direkt ger ett sätt att kvarstå data för framtida bruk, utom genom uppgifter från tredje part för plattformar nedströms. Delta fyller i gapet genom att lägga till möjligheten att fortsätta den data som pelar -, Parkett-filer.

Vid första rosa, Databricks Delta ser ut som ett svar på en cloud-baserad lagring och tjänster som kvarstår data, använd Gnista, och direkt förfrågan från S3, som Amazon Rödförskjutning Spektrum. I verkligheten, Parkett är helt enkelt en fil system som lagrar data i kolumnformat; det är inte en databas. Så är det syftar till att data forskare som tenderar att arbeta med schema-på-läs-läge och vill ha ett alternativ för kvarstående uppgifter. På detta sätt kan de arbeta inom Databricks service utan att behöva förlita sig på Rödförskjutning eller andra data lager, i molnet eller på plats, för att återanvända data de har bara wrangled.

Ställa i skuggan detta meddelande var senare avtäckningen av Azure Databricks. Tills nu, Databricks sprang som en hanterad tjänst på AWS, men som en tjänsteleverantör med en arms längd relation. För Azure, Databricks har gått helt naturlig. Tillgänglig via Azure-portalen, Azure Databricks går på Azure-behållare, har snabb tillgång till Azure Blob Storage och Azure-för synkronisering av Data Sjön, kan köras genom Azure-konsolen, och är integrerad med PowerBI för frågan tillsammans med en mängd av Azure-databaser (Azure SQL-Databas, Azure SQL-Data Warehouse, och Kosmos DB) för senare återanvändning av resultaten.

Som ett Azurblått native-service, Databricks potentiellt skulle kunna vara sammanvävda till andra tjänster, såsom Azure Machine Learning, Azure sakernas internet, Data Factory och andra. Det skulle avsevärt utöka Databricks’ adresserbara marknaden. Mer till den punkt, med Microsoft Azure som OEM, Databricks av en strategisk partner som inte längre gör det en David till allas Goliat.

Relaterade Ämnen:

Cloud

Digital Omvandling

Robotteknik

Sakernas Internet

Innovation

Affärssystem