Databricks grundare nästa handling: Shining a Ray on serverless autoscaling

0
137

 Tony Baer (dbInsight)

Av Tony Baer (dbInsight) för Big on Data | 22 juni 2021 – 12:00 GMT (13:00 BST) | Ämne: Big Data Analytics

 sun-rays.jpg

Shutterstock

För ett decennium sedan identifierade Ion Stoica och hans kollegor vid UC Berkeleys dataskola vägspärren för att utföra avancerad analys. Utmaningen vid den tiden var vad vi då kallade Big Data. Billig lagring och beräkning kunde utnyttjas, med tillstånd av Hadoop-projektet, men jobben tenderade att ta timmar eller dagar. Stoica och kollegor arbetade med en lösning som utnyttjade minne, och resultatet var Apache Spark-projektet. Skapat på UC Berkeleys AMPLab har det blivit de facto-standarden för storskalig databehandling, för att inte tala om tekniken som födde ett företag som för närvarande värderas till 28 miljarder dollar.

Spola fram till nu och Stoica och hans kollegor har identifierat beräkningen som den nya flaskhalsen, eftersom omfamningen av maskininlärning har gjort bearbetningen av arbetsbelastningar mer komplex. Naturligtvis konsumerar de fortfarande mycket data.

Ironiskt nog är kopplingen inte från brist på resurser. Alla ingredienser för att köra AI-modeller i produktion är nu på plats, och om de körs ordentligt kan det vara ganska kostnadseffektivt. Till exempel har serverlösa tjänster i molnet blivit populära, men de har vanligtvis varit begränsade till att betjäna enkla appar byggda av funktioner där det stora kravet var autoskalning. Lagring har blivit ganska billigt och utvecklare står inför en rikedom av processorinstanser som kan matchas till problemet, från GPU: er till specialiserade ASIC: er. Det finns gott om ramar, som TensorFlow, som hjälper utvecklare att strukturera orkestrering av datorer. Och det finns Kubernetes som kan automatisera orkestrering.

Men punktum. Idag kräver det end-to-end-tjänster som automatiserar distributionen av ML-modeller, kunskaper om Kubernetes och/eller en komplex verktygskedja för att hantera autoskalning. Och till skillnad från de relativt enkla apparna som är byggda från funktioner, involverar maskininlärning och djupinlärning vanligtvis komplexa, flerstegs, iterativa program som ur en beräkningssynpunkt förbrukar resurser som klassisk HPC (högpresterande dator).

Lösningen är utvecklad av AMPLabs efterträdare RISELab och är Ray, ett projekt med öppen källkod som finns på GitHub. Stoica skapade tillsammans med kollegan Robert Nishihara och Berkeley-professor Michael I. Jordan projektet, och de har grundat företaget Anyscale för att kommersialisera det. Med 60 miljoner dollar i finansiering stöds det av några av samma venture-partners som står bakom Databricks. Med några ord kommer Ray att göra det möjligt för utvecklare och datavetare att starta serverlös beräkning för sina egna ML-modeller och appar utan att behöva kunskap om den underliggande VVS. Idag startar Ray-communityn det andra Ray Summit med de vanliga tidiga adopterade misstänkta som visar hur dataforskare och utvecklare på bärbara datorer har dragit av detta.

Enkelt sagt, Ray tillhandahåller ett API för att bygga distribuerade applikationer. Det gör det möjligt för alla utvecklare som arbetar på en bärbar dator att distribuera en modell i en serverlös miljö där distribution och autoskalning automatiseras under omslaget. Det ger en serverlös upplevelse utan att utvecklaren behöver registrera sig för en specifik molnserverfri tjänst eller veta något om att ställa in och driva sådan infrastruktur.

Ett Ray-kluster består av en huvudnod och en uppsättning arbetarnoder som kan fungera på vilken infrastruktur som helst, lokalt eller i ett offentligt moln. Dess funktioner inkluderar en autoskalare som introspekterar väntande uppgifter och sedan aktiverar det minsta antalet noder för att köra dem och övervakar körningen för att öka fler noder eller stänga dem. Det krävs dock en viss montering eftersom utvecklaren måste registrera sig för att beräkna instanstyper.

Ray kan starta och stoppa virtuella datorer i det moln du väljer; ray docs ger information om hur man gör detta i vart och ett av de stora molnen och Kubernetes.

Man skulle bli förlåtad för att få en känsla av att Ray är déjà vu igen. Stoica, som hjälpte till att främja Sparks framväxt, tar en liknande roll med Ray. Båda härstammar från UC Berkeley, och som öppen källkodsprojekt går båda samhällsvägen. Precis som Spark skröt med en portfölj med dussintals öppen källkodsbibliotek som bidrog av samhället, kommer samma sak att gälla med Ray. Den största skillnaden är en målgrupp: medan Spark och Databricks riktades till datavetare och dataingenjörer, kommer Ray främst att rikta sig till utvecklare som söker genvägar för att få komplexa maskininlärningsmodeller i produktion.

 ray-logo.png

Ray logo

Ray

 kafka-logo.png

Kafka logo

Apache Kafka

Och om den logotypen. Yup, det ser väldigt mycket ut som Kafka, eller hur? Men lur dig inte. Ingången till eller utgången från att köra en modell i ett Ray-kluster kan involvera en Kafka-ström, men det är så nära som anslutningen mellan de två blir.

Precis som Spark utvecklades i Scala och ursprungligen optimerades för det, designades Ray för Python och dess ekosystem av bibliotek som en förstklassig medborgare men hade ett API som är tillräckligt öppet för att åberopas från andra språk. Men initialt kommer vissa språk och modeller att vara mer lika än andra. Alla bibliotek från vilket språk som helst kan anropa beräkning via Rays API. Ändå kan bibliotek optimeras med specialiserade körningsrutiner för att utnyttja Rays serverlösa orkestrering mer effektivt, med Horovod som affischbarn.

Precis som Databricks bildades för att leverera en kommersiell plattform-som-en-tjänst för optimerad Spark, kommer Anyscale att följa i samma fotspår. Stoica, som fortsätter att vara verkställande ordförande för Databricks, upprepar sin roll med den nya startupen, och som nämnts tidigare, lanserar med några av samma satsningsuppbackare. Anyscales tjänst finns för närvarande i beta.

Vi kan föreställa oss att Anyscale skulle lägga till några klockor och visselpipor, till exempel förpopulerande egenskaper hos populära nodtyper (t.ex. Amazon EC2 C6g) och en rikare hanteringskonsol bortom den grundläggande instrumentpanelen med öppen källkodsutgåva. Och medan Anyscale fakturerar dess API som “universell”, vilket innebär att den kan nås från program skrivna på vilket språk som helst, var inte förvånad om företaget (som Databricks innan det) utvecklar optimeringar.

Big Data

Var är IBM: s hybridmoln-startplatta? Sju sätt att göra realtidsteknik verklig för din organisation Maskininlärning vid kanten: TinyML blir stort Vad är nästa för Cloudera? McDonald's vill 'demokratisera' maskininlärning för alla användare över hela verksamheten

Relaterade ämnen:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software  Tony Baer (dbInsight)

Av Tony Baer (dbInsight) för Big on Data | 22 juni 2021 – 12:00 GMT (13:00 BST) | Ämne: Big Data Analytics