In-memory computing: Var snabb dataöverföring som möter big data

0
105

0

memory.png

Utvecklingen av minne teknik har en inverkan på lagring och beräkna arkitekturer, liksom den programvara som fungerar på toppen av dem. Bild: SNIA

Traditionellt, databaser och big data-program har byggts för att spegla verkligheten i hårdvara: minnet är snabbt övergående och dyrt, hårddisken är långsam, permanent och billiga. Men som hårdvara förändras, programvara följer efter, vilket ger upphov till en rad olika lösningar för att fokusera på minne.

Förmågan att få allt gjort i minnet är tilltalande, eftersom det är den som bär löftet om massiv fart i verksamheten. Men det finns också utmaningar med anknytning till design av nya arkitekturer som gör det mesta av tillgängligt minne. Det finns också ett brett spektrum av metoder för att i minnet computing (IMC).

Vissa av dessa metoder diskuterades i juni i Amsterdam, vid den I Memory Computing-Toppmötet EMEA. Evenemanget innehöll sessioner från leverantörer, praktiker och chefer och erbjöd en intressant ögonblicksbild av detta utrymme. Som minne blir allt mer antagit, vi ska bli allt som täcker det, sparkar igång med IMC-Toppmötet arrangörer: GridGain.

Glidande i

Först ut, IMC är inte ny. Över tid caching har blivit allt vanligare att snabba upp data-relaterad verksamhet. Men som minne tekniken utvecklas och big data mantra är att sprida en del av de nya vändningar har lagts till: minne-först och HTAP.

HTAP står för hybrid affärsbeslut och analytisk bearbetning, och infördes som en sikt av Gartner. HTAP i princip innebär att ha en enda databas backend för att stödja både transaktions-och analytiska arbetsbelastning, som låter lockande för ett antal skäl. Många IMC lösningar betona HTAP, att se det som något de kan bygga upp deras fall.

Så till den andra punkten, IMC visar traditionellt tänkande i databasen världen på huvudet. Abe Kleinfeld, GridGain VD uttrycker det, “traditionellt i databaser minne var en värdefull resurs, så att du har försökt att använda det med försiktighet. I vårt fall, vi går alltid till minne först och undvik att röra vid disken på alla kostnader. De algoritmer som vi använder kan vara detsamma-det handlar om cache och träffar och missar efter alla — men tanken är olika.”

Hänvisningen till cache-minne är inte en tillfällighet, som GridGain inte agera som en cache, om än på ett annat sätt. Kleinfeld säger GridGain kan “glida in” mellan applikationer och databaser som agerar som en cache-lager som snabbar upp program med en faktor 5X – 20X. Den tänkande är det som mindre störande som möjligt samtidigt som den tillför värde och att en fot i organisationen.

“Normalt folk kommer till oss när de har försökt allt de kunde för att pressa ut mer prestanda ur sina program och databaser och inser att de behöver fler, säger Kleinfeld. “Ändå, människor som har investerat i deras databaser på ett antal sätt. Så be dem att byta ut sin databas är ett mycket hårt försäljning. I motsats till andra lösningar, det är inte vad vi gör.”

Är GridGain en förhärligad cache då? Knappast, säger Kleinfeld, och det är där HTAP begreppet kommer in: “vi blir system för dokumentation, och databasen blir backup. Men när folk får gå, de inser att det är en mycket dyr backup.” Det låter som en smart strategi, men hur fungerar det?

IMC är bra när det gäller hastighet, och utvecklingen i minnet teknik lovar att vi snart kommer att ha bestående minne på våra fingertoppar, men tills dess så vad händer när systemet går ner — tycker du att förlora allt? Och hur gör man egentligen för att få tillgång till dina uppgifter? Det är där SQL och lagring kommer.

htap.png

I minnet design och sägs göra det möjligt HTAP (Hybrid Transaktion/Analytical Processing), vilket ger fördelar i form av enhetlig arkitektur och snabb tillgång till data och insikter. Bild: GridGain

Från cache-minne relationsdatabas

GridGain har funnits sedan 2004, men det var inte förrän 4 år sedan att det fick sitt SQL. Varför? “SQL är knepigt, säger Kleinfeld. “När vi först började, våra tekniker sa att det var nästan omöjligt.

Men ingen vill ha för att använda Api: er, så har vi kastat några av våra bästa talanger på det, och nu är vi här. Och vi har precis lagt till DML och DDL, så vi är nu i princip helt fullt i minnet relationell databas som du kan använda på egen hand.”

Kleinfeld säger att de insåg SQL var nyckeln till deras “slide in” – strategi, så de såg till att de hade det. För lagring, IMC lösningar behöver för att utnyttja lagring som en backup-lösning för att återuppta efter misslyckanden. För GridGain, detta leder till en intressant utveckling. Kleinfeld säger att många av deras kunder kommer från finansiella tjänster värld, där Sla: er är vad du leva och dö av.

När Sberbank, en av Östra Europas största banker, valde att gå med GridGain, en av deras SLAs var att de inte hade råd att ha mer än 5 minuter driftstopp. GridGain var tvungen att ta stöd för att återställa från en databas till nästa nivå för att leva upp till detta krav. Då GridGain också beslutat att lägga full ANSI-99 SQL-stöd och gå för hela shebang.

Som namnet antyder, GridGain fungerar som ett beräkningar nätet. Detta innebär att det kan fungera på toppen av en pool av noder, allt från super-datorer till den ökända laptop, enligt Kleinfeld. Tanken är att nätet på ett effektivt sätt binder samman alla resurser i denna pool, vilket gör det transparent för slutanvändarna.

Nu, denna idé låter lite bekant, inte det? Det är mer eller mindre vad som Hadoop också gör, så är det en viss överlappning mellan de två? Faktiskt, GridGain har mixtrar med idén om samordnade med Hadoop, “proaktivt, och till en viss grad, tyvärr. Hadoop och hastighet är diabolically motsats,” som Kleinfeld uttrycker det.

GridGain påbörjat det här projektet för ett par år sedan, som ett proof of concept för deras “slide in” – metoden. Deras insats var om de skulle kunna leverera momentana hastighet-upp till Hadoop med noll koden ändras. “Vi visste att folk var med hjälp av Hadoop för många olika uppgifter-att köra MapReduce jobb, göra analytics, kör SQL etc.” säger Kleinfeld.

Han fortsätter att lägga de gjorde det, att hantera för att öka prestanda genom att 2X – 20X, men det har inte varit en så stor framgång för dem. Anledningen? Counter-intuitive som det kan låta, Kleinfeld säger att det blir inte så många människor som letar efter det, som de oftast använder Hadoop för batch-bearbetning och inte bry sig så mycket om fart.

Kleinfeld lägger de har också gjort en del integrationsarbete med Gnista, som syftar till att fylla i gapet i lager för Spark, men generellt har de funnit att detta inte är vad folk kommer att GridGain för:

“Du kan inte ignorera Hadoop. Vi se till att vi spela det och inte glömma av det, men våra vanligaste användningen fall är affärsbeslut, som kräver hög tillgänglighet och full SYRA stöd. Vi tror att detta är den svåra delen, fick vi det täckt, och vi kan också göra analytiska arbetsbelastning.”

imcmarket.png

In-memory computing marknaden är växande. Bild: GridGain

Plattform för att vinna

GridGain faktiskt har en hel del grunder som omfattas. Ta streaming till exempel. “Många av våra kunder behöver för att få data i realtid, säger Kleinfeld. “Så vi ger dem denna möjlighet. Visst, de kan använda Kafka för detta syfte, och vi integrerar med Kafka.”

När man diskuterar Kafka och sin utveckling mot att bli ett företag plattform, Kleinfeld säger att detta är exakt vad de är ute efter:

“Vi tog plattformar tidigt och har betalat priset för det. Börjar du bygga på dina styrkor, 1-2 saker, men eftersom tekniken expanderar du integrera med 2-3 mer saker, och det slutar med att bygga en plattform. Om du inte gör det, kommer någon annan att göra och du kommer att vara ute i verksamheten.”

Skriften på väggen, Gartners och Forresters av världen instämmer, och GridGain är medveten om det som per Kleinfeld. Om övergången till IMC lever upp till sitt löfte, GridGain kan faktiskt vara väl positionerat för att bli en utmanare som ett företag data plattform.

Det är därför de fortsätta att lägga till funktioner, och när man har den här diskussionen, det var omöjligt att inte snudda vid ämnet machine learning (ML). Var massor av data bo, möjligheter att använda dem för ML vettigt, trots att lagra data och använda dem för ML finns två olika uppsättningar av kompetenser. GridGain inser detta, och säger att de planerar att integrera ML funktioner under de kommande sex månaderna, efter samråd med kommunen.

För Kleinfeld, detta är en viktig del av deras framgång, och han ser sig själv som viktig. Han förklarar att GridGain som ursprungligen var tänkt som ett open source-projekt, men sedan dess investerare bestämde sig för att gå med stängd källkod, fram till 2014 när Kleinfeld började som VD.

Hans ta var att det är omöjligt att lyckas i detta utrymme mot etablerade som en ny spelare, om du inte går med öppen källkod. Tanken är att organisationer skulle vara mindre tveksam till att lita på dig om de kunde experimentera med programvaran, och minska den upplevda risken om de såg en gemenskap som utgör runt om i programvaran.

Kleinfeld hade sin väg, GridGain donerade sin kodbasen för att Apache Foundation, och det verkar fungera. Även om inte hela GridGain funktionalitet är släppt i Apache Tända, öppen källkod-projekt som har utvecklats genom denna lag, Kleinfeld säger att det är helt möjligt att gå till produktion med Antända, och många människor gör. Men när det gäller stöd till företag och funktioner, de vänder sig till GridGain.

Kleinfeld delade vissa uppgifter enligt vilken Antända har ökat från 40 000 nedladdningar i och med 2014 för att över 1 miljon nu. GridGain har vuxit från en 37-anställd affärer med en över 100-anställd affärer värda $10 miljoner under samma period, och bolaget räknar med att nå $100 miljoner landmärke i 2019 om att tillväxten fortsätter.

GridGain är att bygga sin fart på IMC, och allt verkar gå sin väg. Dess plattform ambitioner är tydliga, och med betydande finansiering, inklusive några av sina största kunder vände sig investerare, och en strategi som verkar fungera, de kan lika gärna vara på väg att uppnå detta mål.

Det är flera spelare i detta utrymme men, var och en med sin egen inställning, så det är definitivt något att hålla ett öga på.

0