Naar een verbindende gegevens theorie en praktijk: het Combineren van activiteiten, google analytics en streaming

0
159

Nul

Video: Hadoop de schepper kijkt naar komende tech dat zal ontgrendelen van big data

Hadoop verstoord, en in sommige opzichten werd synoniem met ‘big data’, door het bieden van een kader voor goedkope opslag en schaal uit de verwerking. Parallel aan Hadoop kwam de voorzet van NoSQL oplossingen die ook ingegaan op de noodzaak voor massale opslag en verwerking van gegevens die niet noodzakelijk gestructureerd.

Na verloop van tijd, Hadoop zich ontwikkeld tot een ecosysteem gebouwd op HDFS en MapReduce, de opslag en de verwerking van funderingen, inclusief stukken, zoals een sleutel-waarde store (HBase) en verschillende SQL-op-Hadoop-implementaties. NoSQL oplossingen hebben ook geleidelijk toevoegen van SQL naar hun arsenaal, zoals SQL is een punt van convergentie en een de facto standaard.

Hadoop gestart gericht op google analytics, NoSQL oplossingen zijn er in vele smaken en vaak ondersteuning van zowel operationele toepassingen en analyses. Een derde type van verwerking dat onderdeel is geworden van de vergelijking is voor streaming.

De inname en verwerking van oneindige stromen van gegevens in real-time wordt onderdeel van de dagelijkse praktijk voor veel organisaties, en oplossingen naar voren zijn gekomen in deze ruimte. Nu evolutie is op weg naar het verenigen van deze tot nu toe afzonderlijke modi — transactionele operaties, analytics en stream processing — in een gemeenschappelijk kader.

De evolutie van Hadoop heeft op Vonk, een nieuw kader en API die bouwt op Hadoop ecosysteem, maar het brengt de in-memory processing, SQL en streaming ondersteunen om de tafel, onder andere dingen. En nu de Vonk is steeds de basis voor de convergentie van de transactiekosten (OLTP), analyse (OLAP) en streaming van data verwerking.

snappy.png

Een data-platform om ze allemaal te regeren — OLTP -, OLAP-en streaming. Zou het waar zijn? Afbeelding: SnappyData

Aan de Snappy met het

SnappyData is waarschijnlijk niet een naam die je heb gehoord, tenzij je een Vonk afficionado, maar haar aanpak illustreert deze convergentie. SnappyData open source-platform, die heeft net haar algemeen beschikbare versie 1.0, is gebouwd op Vonk en doelstellingen te verenigen transactionele analyse-en streaming van data verwerking.

Bespreken met Sudhir Menon, SnappyData ‘ s mede-oprichter en COO evenals duiken in SnappyData onderzoek publicaties enig licht werpen op SnappyData achtergrond en aanpak. Menon en zijn mede-oprichters ging op een reis van een onafhankelijke leverancier die deel uitmaken van een bedrijf via acqui-hiring, intrapreneuers aan ondernemers.

SnappyData het team van oorsprong is terug te voeren tot GemFire. GemFire is een in-memory data grid oplossing, oorspronkelijk een eigen ontwikkeld door Edelsteen, vervolgens overgenomen door Centrale en toegevoegd aan haar portfolio, dan is open source en omgedoopt als Apache Geode.

“Toen we keken naar wat de klanten probeerden te doen met NoSQL systemen op de top van Hadoop, we wisten dat er een kans is er. Vonk kwam op het juiste moment; [] natuurlijk waren er hiaten er dat we wisten dat we zouden kunnen vullen en dat is hoe wij zijn gekomen uit te bouwen SnappyData en geïncubeerd in het Cruciaal”, legt Menon.

SnappyData is een combinatie van een Vonk en GemFire. Wat is er in het combineren van Vonk, die al werkt in het geheugen, met GemFire, dat is een in-memory data grid? GemFire is toevallig ook een scale-out transactie store. Dus door die twee samen, wat je krijgt is een OLTP – OLAP-combo dat ook streaming en is open source.

Er zijn veel voordelen in deze, zoals het beheer van al uw gegevens in één kader klinkt als de verenigende theorie van het gebied van big data: minder complexiteit, betere prestaties, TCO omlaag gaat, ROI omhoog gaat en iedereen leeft nog lang en gelukkig.

Het klinkt te mooi om waar te zijn, en het is. Het is makkelijker gezegd dan gedaan, en SnappyData waren niet de eersten om te proberen iets dergelijks. Menon zegt dat het een combinatie van hands-on ervaring in enterprise praktijk, software, gegevens en de blootstelling aan zowel GemFire en Vonk die hen in staat stelde om te gaan.

Fusing Vonk als een rekenkundige motor met GemFire als een transactionele store betrokken overwinnen belangrijke uitdagingen. SnappyData identificeert hen in de verschillende structuur van de gegevens en het verwerken van query ‘paradigma’ s, verschillende verwachtingen van een hoge beschikbaarheid over werklast en de behoefte aan ondersteuning van interactieve analyse bij het samenvoegen van stromen tegen de enorme historische gegevens.

Hoe heb SnappyData omgaan met deze uitdagingen? Ze creëerden een hybride cluster manager gebruikt een hybride rij/kolom data model en toegevoegde veranderlijkheid te Spark onveranderlijke gegevens structuren (RDDs), schreef een query dispatcher die bepaalt wat er gaat waar de mogelijkheid is toegevoegd voor het berekenen van de geschatte resultaten op de vlieg, en hield volledige ondersteuning voor de Spark-API.

Menon benadrukt dat het verleidelijk Vonk gebruikers de mogelijkheid om gebruik te maken van hun bestaande codebase en expertise is een onderdeel van hun strategie, en het moet mogelijk zijn om gebruik SnappyData als een drop-in vervanging. Als ze wist, dat er is.

SnappyData heeft bereikt GA liever met de kinderen, wat op zich zegt iets. In het team van 30 die werken bij SnappyData nu, bijna iedereen is een ingenieur. Dat kan het niet helpen SnappyData krijgen veel tijd, maar heeft ingeschakeld te bereiken, GA mijlpaal in iets meer dan een jaar sinds het officieel werd gesponnen uit de Centrale.

Menon zegt dat voor Cruciale “dit was over het juiste te doen en om ons ingeschakeld en gaat gewoon op de verdienste van het idee.” Duidelijk dat geholpen toegang te krijgen op een aantal grote klanten. Menon beschreven hoe ze met behulp van SnappyData in de productie en het verkrijgen van resultaten, alsmede actief bij te dragen aan het platform bij de ontwikkeling.

splice.png

Er zijn andere opties voor het uitvoeren van OLTP en OLAP-zijde. Afbeelding: Splice Machine

Het is niet de enige met gemengde data motion

Dus wat nu? Moet je gewoon alles laten vallen en ga SnappyData? Wat over kern Vonk en andere opties?

Menon zegt dat ze zijn fervent Vonk gebruikers zelf, en de beslissing om te binden hun oplossing Vonk was een strategische ze zorgvuldig gewogen. Hij voegt er aan toe dat zij in contact staan met Databricks, de commerciële entiteit achter Vonk, en zij dragen ook bij code core Vonk:

‘Vonk’ s focus is om te democratiseren en SQL en AI gedreven analytics om het mainstream-gebruik voor batch -, interactieve-en streaming-workloads. Ze zijn agnostisch, aan de bron van de gegevens en zou graag de Vonk goed te werken met elke gegevensbron.

Voor gebruikers zijn er echter een aantal van de werklast en situaties waarbij de mogelijkheid tot colocate gegevens met de verwerking biedt enorme voordelen en verhoogt de prestaties en bij het berekenen en de gegevens zijn niet collocated, we bieden nog steeds een enorme latency, de gelijktijdigheid en prestatie voordelen voor toepassingen voor eindgebruikers.”

Dat klinkt als een co-opetition relatie. Aan de ene kant, SnappyData brengt kracht te Spark codebase en de gemeenschap en, hoewel het nog te vroeg om te zeggen, de onderdelen van de aanpak goed kunnen maken in Vonk in de toekomst.

Aan de andere kant, hoewel SnappyData ‘ s aanbieden is nieuw en mist bijvoorbeeld de optie om te draaien als een beheerde dienst die Databricks naar de tafel brengt, SnappyData kan zwaaien Vonk gebruikers.

We bereikten Databricks voor commentaar, maar het niet krijgen van een reactie door het moment van schrijven. Maar het is ook interessant om te zien hoe Databricks en de Vonk gemeenschap reageren in de komende periode, als Databricks heeft officieus verspreid dat een paar van de pijn punten voor bougies worden aangepakt.

aqpstratifiedsampling3.png

Geschatte query verwerking is gebaseerd op steekproeven om antwoorden te krijgen voordat het scannen van de gehele dataset. Afbeelding: SnappyData

Zoals voor de andere opties? Hadoop leveranciers zoals Cloudera en MapR operationele database-aanbod in Kudu en MapR-DB. Kafka heeft onlangs toegevoegde SQL en verwerking van gegevens tot de mogelijkheden. In-memory databases, zoals GridGain zijn potentiële spelers in deze convergentie ruimte.

De meeste gelijkenis met SnappyData de aanpak is echter Splice Machine. Splice Machine bouwt ook voort op Vonk, gericht op het verenigen van OLTP -, OLAP-en streaming, en is open source. Maar er zijn grote verschillen tussen de twee benaderingen.

Splice Machine bouwt voort op HBase. Er zijn inmiddels een aantal aangepaste implementaties waar de Vonk wordt gebruikt in combinatie met HBase, Cassandra of MemSQL. Monte Zweben, Las Machine ‘ s CEO, wijst erop dat een dergelijke integraties vereist het verplaatsen van gegevens heen en weer, in tegenstelling tot Las Machine native HFile interface Vonk.

Zweben zegt dat dit een efficiënt mechanisme voor het maken van basis Dataframes voor complexe berekeningen die heeft Snapshot Isolation semantiek gebouwd in te houden ZUUR transactionele eigenschappen.

Hij benadrukt ook Splice Machine gegevens inslikken prestaties gebruik te maken van een snel-bulk inslikken tool, naleving van de ZURE eigenschappen, zodat de indexen zijn atomair bijgewerkt en de mogelijkheid om het onderhoud van constraints en triggers. Er is ook ondersteuning voor het invoegen, bijwerken en verwijderen van methodes die de Vonk Dataframes als input.

SnappyData zou het zeker eens met het verplaatsen van gegevens deel. In feite zijn ze gepubliceerd benchmarks vergelijken SnappyData tegen Spark+Hbase/Cassandra/MemSQL. Zoals je zou verwachten, dat de benchmark toont SnappyData de aanpak om beter te presteren.

Er is geen directe vergelijking tussen SnappyData en Las Machine echter. Zweben zegt dat SnappyData niet dezelfde granulaire MVCC te ondersteunen waar operationele OLTP-toepassingen. Menon op zijn kant benadrukt de verschillende aanpak van namen ze, door zichzelf te integreren GemFire als een eerste klas Vonk burger, betekent betere prestaties.

Misschien is dit blijft een niet-zo-heldere punt. Er zijn echter punten die zijn zeer duidelijk.

Splice Machine bestaat al langer, heeft meer mindshare en biedt meer opties voor implementatie. Splice Machine voegde onlangs de optie in te voeren als een managed service aan AWS, met Azure geplande volgt binnenkort. SnappyData nodig om te bouwen aan zijn team en met meer. Door contrast, SnappyData kan uitvoeren, zowel op lokaal als op AWS, maar niet als een managed service.

SnappyData heeft iets unieks op dit punt: geschatte query processing (AQP), zonder een beroep op a priori kennis van de distributie van gegevens. Dit is een onderdeel van de Enterprise-versie, en betekent dat je kunt krijgen geschatte resultaten voor het streamen van gegevens over het vliegen, terwijl de exacte resultaten worden berekend. Splice Machine biedt ook manieren om mee streamen naar andere gegevensbronnen die via de virtuele en de externe tabellen, maar niet AQP.

De key takeaway echter is de snelle groei en innovatie in deze ruimte is te zien en de convergentie van paradigma ‘ s. Voor Hadoop zelfs werd een 10, het is verplaatst naar de achtergrond en is vervangen door Spark. En nu Spark wordt steeds meer een platform voor innovatie, mogelijk aanbieden van de mogelijkheid voor een unifying-gegevens theorie en praktijk.

0