Vonk krijgt automatisering: het Analyseren van de code en afstemming clusters in productie

0
132
whyspark.png

Redenen waarom mensen migreren naar Spark. Afbeelding: Databricks

Hadoop en MapReduce, de parallel programmeren paradigma en API oorspronkelijk achter Hadoop, gebruikt synoniem. Als we tegenwoordig spreken over Hadoop, we vooral praten over een ecosysteem van tools gebouwd rond het gemeenschappelijk bestandssysteem laag van HDFS en geprogrammeerd via Vonk.

Spark is de nieuwe Hadoop. Een van de belangrijkste trends van deze tijd, bevestigd door zowel hulpverleners in het veld en enquêtes, is de pistes opgaat verplaatsen naar aanleiding van Hadoop gebruikers. Spark is zelf een ecosysteem van allerlei soort, en biedt opties voor SQL-toegang tot gegevens, streaming en machine learning.

Mensen migreren naar aanleiding van een aantal redenen, waaronder eenvoudiger programmeren paradigma. Makkelijker dan MapReduce betekent niet altijd gemakkelijk, en er zijn een aantal valkuilen bij het programmeren en implementeren van Spark toepassingen.

Het probleem met Vonk en wat er aan te doen

Dus waarom zijn mensen migreren naar Spark? De top reden hiervoor lijkt te zijn prestatie: 91 procent van 1615 mensen uit meer dan 900 organisaties die deelnemen aan de Databricks Apache Vonk Enquête 2016 geciteerd dit als hun reden voor het gebruik van Spark. Maar er is meer. Geavanceerde analyses en het gemak van de programmering zijn bijna even belangrijk, geciteerd door 82 procent en 76 procent van de respondenten.

Alle bronnen in de industrie hebben we gesproken over de laatste maanden wijzen in dezelfde richting: het programmeren tegen Spark API is gemakkelijker dan het gebruik van MapReduce, dus MapReduce wordt gezien als een van de legacy API op dit punt. Leveranciers blijft ondersteuning bieden voor zolang er klanten met behulp van het, maar vrijwel alle nieuwe ontwikkeling is Vonk-gebaseerd.

sparkuserroles.png

Niet iedereen is het met behulp van Spark heeft dezelfde verantwoordelijkheden en vaardigheden. Afbeelding: Databricks

Als Ash Munshi, Pepperdata CEO formuleert: “Spark biedt een geïntegreerde framework en SQL-toegang, wat betekent dat u kunt doen advanced analytics, en dat is waar het grote geld zijn. Plus het is makkelijker om programma: geeft u een mooi abstraction layer, dus je hoeft je geen zorgen te maken over alle details die je moet beheersen bij het werken met MapReduce. Programmeren op een hoger niveau betekent dat het gemakkelijker voor mensen om te begrijpen van de down and dirty details en te implementeren in hun apps.”

Geweldig. Wat is het probleem dan? Munshi wijst erop dat de keerzijde van Spark abstractie, in het bijzonder wanneer ze worden uitgevoerd in Hadoop s GAREN omgeving die niet te gemakkelijk te extraheren van metadata, is dat veel van de uitvoering de details zijn verborgen. Dit betekent dat het moeilijk aan te wijzen die regels code oorzaak dat er iets gebeurt in deze complexe gedistribueerde systeem, en het is ook moeilijk om af te stemmen op de prestaties.

Het hebben van een complexe gedistribueerde systeem in welke programma ‘s er lopen ook betekent dat je bewust te zijn van niet alleen uw eigen programma’ s-uitvoering en prestaties, maar ook van de bredere uitvoering omgeving. Pepperdata noemt dit de cluster weer het probleem: de behoefte om te weten in welke context een toepassing wordt uitgevoerd. Een veelvoorkomend probleem in het cluster implementatie is bijvoorbeeld inconsistentie in de doorlooptijd, omdat van voorbijgaande workloads.

Gegevens Wetenschappers krijgen automatisering: tuning Vonk clusters

Pepperdata is niet de enige die zich heeft genomen. Een paar maanden terug Alpine Gegevens ook heeft hetzelfde probleem, zij het met een iets andere opstelling. Alpine Gegevens gewezen op het feit dat de Vonk is extreem gevoelig voor de manier waarop opdrachten worden geconfigureerd en middelen, waarbij gegevens wetenschappers hebben een diep begrip van zowel de Vonk en de configuratie en het gebruik van het Hadoop-cluster wordt gebruikt.

Fout correct resource Vonk banen zal vaak leiden tot defecten te wijten aan onvoldoende geheugen fouten, die leiden tot inefficiënt en tijdrovend, trial-en-error financiering van experimenten. Deze eis aanzienlijk beperkt het nut van een Vonk, en de effecten zijn gebruik dan diep geschoolde data-wetenschappers, volgens Alpine Gegevens.

Dit is gebaseerd op zuurverdiende ervaring, Alpine Gegevens co-founder & CPO Steven Hillion uitgelegd. Op een bepaald moment een van de Alpine-Gegevens van de klanten was met Alpine Data Science platform (ADSP) om zeer grote schaal verwerken van de consument gegevens: miljarden rijen en duizenden variabelen. ADSP gebruikt Vonk onder de motorkap gegevens voor het berekenen van banen, maar het probleem was dat deze banen zou eeuwig duren of breken.

De reden was dat de stemming van Spark parameters in de cluster niet de juiste was. Mensen met ADSP in dat geval werden de gegevens wetenschappers, niet op de gegevens ingenieurs. Ze waren bedreven in het vinden van de juiste modellen voor het verwerken van gegevens en het uitpakken van inzichten uit van hen, maar niet noodzakelijkerwijs in de distributie in het groot.

Het resultaat was dat de gegevens wetenschappers zou krijgen aan de telefoon met ADSP ingenieurs om hen te helpen diagnosticeren van problemen en het voorstellen van configuraties. Als dit zou natuurlijk geen schaal, Alpine Gegevens kwam met het idee van het bouwen van de logica van hun ingenieurs toegepast in dit proces in ADSP. Alpine Gegevens zegt het werkte, waardoor klanten op te bouwen van workflows binnen een paar dagen en het implementeren van hen binnen een paar uur zonder enige handmatige interventie.

Dus de volgende stap was de bundel dit als onderdeel van ADSP en start de scheepvaart, die Alpine Labs heeft in het Najaar van 2016. Deze werd gepresenteerd in de Spark Top-Oosten 2017, en Hillion zegt het antwoord is: “bijna overweldigend. In Boston hadden we een lange rij van mensen die komen om te vragen over deze”.

Hillion benadrukt dat hun aanpak procedurele, niet op basis van ML. Dit klinkt misschien vreemd, gezien hun ML expertise. Alpine Labs echter zegt dat dit niet een statische configuratie, maar werkt door het bepalen van de juiste financiering en de configuratie voor de Vonk baan op run-time is gebaseerd op de grootte en de dimensionaliteit van de ingevoerde gegevens, de complexiteit van de Spark baan, en de beschikbaarheid van middelen op het Hadoop-cluster.

“Je kunt het zien als een soort van vergelijking als u zal, in een simplistische manier, die uitdrukt hoe wij tune parameters”, zegt Hillion. “Het afstemmen van deze parameters komt door ervaring, dus op een manier leren we het model met behulp van onze eigen gegevens. Ik zou het niet noemen machine learning, maar dan zijn we weer iets leren van machines.”

Gegevens Ingenieurs krijgen automatisering: het analyseren van Spark toepassingen

Pepperdata biedt nu ook een oplossing voor Spark automatisering met vorige week is de release van Pepperdata Code Analyzer voor Apache Vonk (PCAAS), maar dat is gericht op een andere doelgroep met een andere strategie. Gegevens wetenschappers maken voor 23 procent van alle Spark gebruikers, maar de data-engineers en architecten samen voor een totaal van 63 procent van alle Spark gebruikers. Dit is de doelgroep Pepperdata beoogt met PCAAS.

Architecten zijn de mensen die het ontwerp (big data) systemen en ingenieurs zijn degenen die werken met de gegevens wetenschappers om hun analyses van de productie. Munshi zegt PCAAS wil geven hen de mogelijkheid om draait Vonk toepassingen, analyseren om te zien wat er gaande is en dan bind die terug aan specifieke regels code.

De gedachte daarbij is dat door de mogelijkheid om meer te begrijpen over het CPU-gebruik in, garbage collection of de I/O met betrekking tot hun applicaties, ingenieurs en architecten moeten in staat zijn om toepassingen te optimaliseren. PCAAS beschikt over de mogelijkheid om een deel van de debugging, door het isoleren van verdachte blokken code en vragen engineers om te kijken naar hen.

PCAAS gericht is om te helpen ontcijferen cluster weer, waardoor het mogelijk is om te begrijpen of uitvoeren van de tijd inconsistenties moet worden toegeschreven aan een specifieke toepassing of de werkdruk op het moment van uitvoering. Munshi wijst ook op het feit dat het GAREN sterk gebruik maakt van statische planning, terwijl het gebruik van meer dynamische aanpak kan resulteren in een betere hardware-gebruik.

Betere hardware benutting is duidelijk een belangrijk punt van zorg in termen van ROI, maar om te begrijpen hoe dit zich verhoudt tot PCAAS en waarom Pepperdata beweert te kunnen overwinnen GAREN beperkingen hebben we nodig om te zien waar PCAAS zit in Pepperdata de product suite. PCAAS is Pepperdata de nieuwste toevoeging aan een lijn van producten, met inbegrip van de Toepassing Profiler, de Cluster Analyzer, de Capaciteit Optimizer, en het Beleid in te Vullen.

De laatste drie zijn over het verzamelen van telemetrie gegevens, terwijl de eerste twee zijn over het ingrijpen in real-time, zegt Munshi. Pepperdata overkoepelende ambitie is om een brug te slaan tussen Dev en Ops, en Munshi is van mening dat PCAAS is een stap in die richting: een tool Ops kan geven aan de Ontwikkelaars om zichzelf te diagnosticeren van problemen, wat resulteert in een betere interactie en meer snelle iteratie cycli.

Interessant is dat Hillion gaat er ook mee akkoord dat er een duidelijke scheiding tussen de gepatenteerde algoritmes voor het afstemmen ML banen en de informatie die een Vonk cluster kan bieden aan de hoogte van deze algoritmen. Er zijn verschillen en overeenkomsten in de Alpine-Labs en Pepperdata aanbod al.

Waar gaat het heen?

Om te beginnen met, zowel het aanbod niet stand-alone. Spark auto-tuning is een onderdeel van de ADSP, terwijl PCAAS is gebaseerd op telemetrie gegevens die door andere Pepperdata oplossingen. Dus als u alleen geïnteresseerd in het automatiseren van delen van uw Spark cluster tuning of toepassing profilering, tough luck.

Bij de bespreking met Hillion, we gewezen op het feit dat niet iedereen geïnteresseerd is in de Spark auto tuning per se wilt abonneren op ADSP in zijn geheel, dus misschien is het maken van deze mogelijkheid beschikbaar als een stand-alone product zinvol zouden zijn. Hillion gezinspeeld dat het een deel van hun oplossing, dat is over het krijgen van Spark cluster metagegevens van het GAREN kan worden als open source vrijgegeven, terwijl de auto-tuning-mogelijkheden kan afzonderlijk worden verkocht op een bepaald punt.

Alpine Labs maakt zich zorgen om weg te geven te veel van hun IP, echter deze zorg kan worden houden ze terug is van commercieel succes. Wanneer geconfronteerd met een soortgelijke situatie, niet elke organisatie reageert op dezelfde manier. Case in point: Metamarkets gebouwd Druid en open source. Waarom? “We bouwden het, omdat we het nodig hadden, en die we open source want als we dat niet hadden, iets anders zou hebben vervangen.”

ailockinloop.jpg

De AI lock-in lus: grote investering verwekt betere resultaten krijgen een grotere investering. Afbeelding: Azeem Azhar / Schibsted

In alle eerlijkheid wel voor Metamarkets Druid is slechts infrastructuur, geen core business, terwijl voor de Alpine Labs ADSP is hun brood en boter. Als voor Pepperdata, ze spelen met het idee van gratis toegang te geven tot PCAAS voor niet-productie clusters om een voet aan de grond in organisaties. De redenering is getest en trouw: voor ingenieurs weten en hou van een hulpmiddel en het hulpmiddel zal uiteindelijk verdeeld en zijn weg vinden in de IT-budgetten.

Hoe dan ook, als je onder degenen die baat zou hebben bij het hebben van een dergelijke mogelijkheden van automatisering voor uw Spark de implementatie voor de tijd die je hebt niet veel van een keuze. U moet een premie betalen en zich verbinden tot een platform, of wachten tot zulke vermogens uiteindelijk doorsijpelen.

Het grotere plaatje is echter duidelijk: de automatisering is het vinden van een steeds meer centrale rol in big data. Big data platforms kan worden het substraat waarop automatisering toepassingen worden ontwikkeld, maar het kan ook omgekeerd te werk gaan: automatisering kan helpen verlichten van big data pijn punten.

Vergeet niet de AI-slot in de loop? First mover-voordeel kan blijken significante hier, zit op de top van miljoen telemetrie data punten kan wonderen doen voor uw product. Dit is precies de positie Pepperdata is in, en hij voornemens is te benutten voor de toepassing van Diep Leren toe te voegen voorspellend onderhoud mogelijkheden evenals het genereren van inkomsten op andere manieren.

Of Pepperdata beheert uitvoeren van die strategie en hoe de ander zal reageren, is een andere kwestie, maar op dit punt lijkt een strategie die meer kansen heeft om te beantwoorden aan de behoeften voor big data automation services.