I retning af en samlende data, teori og praksis: ved at Kombinere operationer, analytics, og streaming

0
164

Nul

Video: Hadoop er skaberen ser på kommende tech, som vil låse op for big data

Hadoop er afbrudt, og på nogle måder blev synonym med big data, ved at tilbyde en ramme for billig opbevaring og skala ud behandling. Parallelt med Hadoop kom den byge af NoSQL løsninger, der også højde for behovet for massive lagring og behandling af data, der ikke nødvendigvis er struktureret.

Over tid, Hadoop udviklet sig til et økosystem bygget på HDFS og MapReduce, oplagring og forarbejdning af fundamenter, herunder værker som en nøgle-værdi-butik (HBase) og forskellige SQL-på-Hadoop-implementeringer. NoSQL løsninger har også været gradvist at tilføje SQL til deres arsenal, som SQL er et punkt af konvergens og en de facto standard i branchen.

Hadoop startede ud gearet til analytics, NoSQL løsninger kommer i mange varianter, og ofte støtte både operationelle programmer og analytics. En tredje type af behandling, der er blevet en del af den ligning, der er streaming.

Indtagelse og behandling af uendelige strømme af data i real-tid komme til at være en del af daglig drift i mange organisationer, og løsninger, der er dukket op i dette rum så godt. Nu er udviklingen bevæger sig i retning af at forene disse hidtil forskellige tilstande — transaktionsbeslutning operationer, analytics og stream processing-i en fælles ramme.

Udviklingen af Hadoop har bragt den Gnist, en ny ramme og API, der bygger på Hadoop økosystem, men bringer i-hukommelse behandling, SQL og streaming støtte til bordet, blandt andre ting. Og nu Gnist er ved at blive fundamentet for konvergens af transaktionsbeslutning (OLTP), analytiske (OLAP) og streaming af data behandling.

snappy.png

En data platform til at styre dem alle — OLTP, OLAP, og streaming. Kunne det være sandt? Billede: SnappyData

Få Bidsk med det

SnappyData er nok ikke et navn, som du har hørt før, medmindre du er en Gnist afficionado, men dens tilgang eksemplificerer denne konvergens. SnappyData er open source platform, som netop har udgivet sin alment tilgængelige version 1.0, som er bygget på Gnist, og har til formål at samle transaktionsbeslutning, analytisk og streaming databehandling.

At diskutere med Sudhir Menon, SnappyData er medstifter og COO samt dykning i SnappyData forskning publikationer kaste lys på SnappyData baggrund og tilgang. Menon og hans medstiftere gik på en rejse fra en uafhængig leverandør til at være en del af et selskab via acqui-ansættelse, at intrapreneuers til iværksættere.

SnappyData team oprindelse spor tilbage til GemFire. GemFire er en in-memory-data grid løsning, der oprindeligt er en proprietær udviklet af Smykkesten, derefter overtaget af Central og føjet til sin portefølje, så er open source og rebranded som Apache Geode.

“Da vi kiggede på, hvad der var kunder forsøger at gøre med NoSQL-systemer på toppen af Hadoop, vi vidste, at der var en mulighed der. Spark kom på det rigtige tidspunkt. [] naturligvis var der huller der, at vi vidste, at vi kunne fylde, og det er, hvordan vi kom til at bygge ud SnappyData og inkuberes det inde Afgørende,” forklarer Menon.

SnappyData er en kombination af Spark og GemFire. Hvad er der i at kombinere en Gnist, som allerede arbejder i-hukommelse, med GemFire, som er en in-memory-data grid? GemFire også sker for at være en scale-out transaktionsbeslutning butik. Så ved at bringe de to sammen, hvad du får, er en OLTP – OLAP-combo, der også gør streaming og er open source.

Der er mange fordele i dette, som administrere alle dine data skal i en ramme, der lyder som den samlende felt teorien om big data: mindre kompleksitet, bedre ydeevne, TCO går ned, ROI går op, og alle lever lykkeligt til deres dages ende.

Det lyder for godt til at være sandt, og det er det. Det er lettere sagt end gjort, og SnappyData var ikke de første til at prøve noget lignende. Menon siger, at det var en kombination af hands-on erfaring i virksomhedens praksis, software, data, og eksponering for både GemFire og Gnist, der satte dem i stand til at gå efter det.

Fusing Gnist, som en datamat-motor med GemFire som en transaktionsbeslutning butik er involveret overvinde betydelige udfordringer. SnappyData identificerer dem i de forskellige data, strukturer og søge behandling paradigmer, forskellige forventninger om høj tilgængelighed på tværs af arbejdsopgaver, og det er nødvendigt at støtte interaktive analytics, da de tiltrådte vandløb mod massive historiske data.

Så hvordan gjorde SnappyData til at håndtere disse udfordringer? De har skabt en hybrid, cluster manager, anvendes en hybrid række/kolonne data model og tilføjet foranderlighed Gnist er uforanderlige data strukturer (RDDs), skrev en forespørgsel afsender, der bestemmer, hvad går hvor der tilføjet muligheden for at beregne tilnærmede resultater på farten, og holdt fulde støtte til den Gnist API.

Menon fremhæver, at der er fristende Gnist brugerne mulighed for at udnytte deres eksisterende kodebase og ekspertise, er blevet en del af deres strategi, alle sammen, og det bør være muligt at bruge SnappyData som drop-in erstatning. Hvis blot de vidste, om det, der er.

SnappyData har nået GA temmelig ugenert, hvilket i sig selv siger noget. I holdet af 30, der arbejder på SnappyData nu, praktisk taget alle er ingeniør. Der kan ikke hjælpe SnappyData få meget tid i luften, men det har gjort det muligt at nå GA milepæl i lidt over et år siden det blev officielt spundet ud af Afgørende.

Menon siger, at for Central “det var om at gøre de rigtige ting, og få os aktiveret, og vil blot om merit for den idé.” Klart, der hjalp med at få adgang til en række store kunder. Menon beskrevet, hvordan de bruger SnappyData i produktionen og få resultater, samt aktivt at bidrage til platform for udvikling.

splice.png

Der er andre muligheder for at køre OLTP-og OLAP-side om side med også. Billede: Splejse Maskine

Ikke den eneste med blandede data motion

Hvad så nu? Skal du bare droppe alt og gå SnappyData? Hvad med core Gnist og andre muligheder?

Menon siger, at de har været ivrig Gnist brugerne selv, og beslutningen om at binde deres løsning til at Gnist var en strategisk man nøje vejes. Han tilføjer, at de har været i kontakt med Databricks, kommerciel enhed bag Spark, og de har også bidrage kode til kernen Gnist:

“Gnist’ s fokus er at demokratisere og få SQL og AI drevet analytics til at integrere brug for batch, interaktive og streaming arbejdsmængder. De er agnostiker, at kilden til de data og vil gerne Gnist til at arbejde godt sammen med alle data source derude.

For brugere, men der er en række arbejdsopgaver og situationer, hvor evnen til at colocate data med behandling giver enorme fordele og boost i performance, og når de beregner og data, der ikke er sammenstillet, kan vi stadig tilbyde massiv ventetid -, samtidigheds-og ydelsesmæssige fordele til slutbruger applikationer.”

Det lyder som en co-opetition forhold. På den ene side, SnappyData bringer styrke til at Spark ‘ s codebase og i lokalsamfundet, og selv om det er for tidligt at sige, dele af sin tilgang kan godt gøre det til en Gnist i fremtiden.

På den anden side, selv om SnappyData s tilbud er ny og mangler for eksempel mulighed for at køre som en service, at Databricks bringer til bordet, SnappyData kan godt svaje Gnist brugere.

Vi nåede ud til Databricks for en kommentar, men kunne ikke få et svar af tid på at skrive. Det vil dog være interessant at se, hvordan Databricks og Gnisten samfund reagere i den kommende periode, som Databricks har uofficielt cirkulerede, at et par af smerte point for Spark er ved at blive rettet.

aqpstratifiedsampling3.png

Omtrentlig forespørgsel behandling bygger på stikprøver for at få svar før scanning af hele datasættet. Billede: SnappyData

Som for andre muligheder? Hadoop leverandører som Cloudera og MapR har operationel database tilbud i Kudu og MapR-DB. Kafka har for nylig tilføjet SQL og databehandling til sine evner. In-memory databaser som GridGain er potentielle spillere i denne konvergens plads for.

Den ene mest ligner SnappyData ‘ s tilgang er imidlertid, Splice-Maskine. Splice Maskine bygger også på Gnist, der sigter mod at forene OLTP, OLAP, og streaming og er open source. Men der er betydelige forskelle i de to tilgange.

Splice Maskine baseret på HBase. Der er allerede en række tilpassede implementeringer, hvor Gnisten er anvendt i forbindelse med HBase, Cassandra eller MemSQL. Monte Zweben, Splice Machine ‘ s administrerende DIREKTØR, påpeger, at sådanne integrationer kræve at flytte data frem og tilbage, i modsætning til at Splejse Maskinens oprindelige HFile interface til Spark.

Zweben siger, at dette er en effektiv mekanisme til at oprette base Dataframes for komplekse beregninger, der har Snapshot Isolation semantik bygget i at opretholde SYRE transaktionsbeslutning egenskaber.

Han understreger også, Splice Maskinens data indtagelse ydeevne udnytte en hurtig-bulk indtagelse værktøj, overholdelse af SYRE egenskaber, så indekser er atomart opdateret og evne til at opretholde begrænsninger og udløsere. Der er også støtte til at indsætte, opdatere, og slette metoder, der tager Gnist Dataframes som input.

SnappyData sikker på ville enig med flytning af data del. I virkeligheden er de offentliggjort benchmarks sammenligne SnappyData mod Spark+Hbase/Cassandra/MemSQL. Som du ville forvente, at benchmark viser SnappyData ‘ s tilgang til at udføre bedre.

Der er ingen direkte sammenligning mellem SnappyData og Splejse Maskine dog. Zweben siger, at SnappyData ikke har den samme kornet MVCC at støtte rigtigt operationelle OLTP applikationer. Menon fra hans side lægger vægt på den forskellige tilgang, de tog, med indbygget integration GemFire som en første klasse Gnist borger, betyder bedre performance.

Måske vil dette fortsat være en ikke-så-klar punkt. Der er dog punkter, der er meget klare.

Splice Maskine har været omkring længere, har mere mindshare og tilbyder flere installationsindstillinger. Splice Maskine for nylig tilføjet mulighed for at køre som en service på AWS, med Azure planlagt til at følge snart. SnappyData bliver nødt til at bygge sit hold og tilbyde yderligere. Derimod SnappyData kan køre både på stedet og på AWS, men ikke som en managed service.

SnappyData har noget unikt på dette punkt: anslået forespørgsel behandling (AQP), uden at inddrage a priori viden, data distribution. Dette er en del af Enterprise version, og betyder, at du kan få omtrentlige resultater for streaming oplysninger om fly, mens nøjagtige resultater der beregnes. Splice Maskine tilbyder også måder at deltage streaming til andre datakilder via virtuelle og eksterne tabeller, men ikke AQP.

Den vigtigste takeaway dog er den hurtige vækst og innovation i dette rum er at se og konvergens af paradigmer. Før Hadoop selv viste 10, det er flyttet til baggrunden og er afløst af en Gnist. Og nu Gnist bliver en platform for innovation, der potentielt giver mulighed for en samlende data, teori og praksis.

0