Med Hortonworks’ DataWorks Summit (tidigare Hadoop-Toppmötet) som sparkar igång på tisdagen är företaget som kommer ut ur porten en dag för tidigt, med två produktnyheter. Specifikt, Hortonworks tillkännager att den allmänna tillgängligheten (GA) på v3.0 av Hortonworks Dataflöde (HDF), sin produkt för strömmande data management. Det är också lansera en ny “Flex-Support” prenumeration för sina Hortonworks Data Plattform (HDP) Hadoop distribution, som stödjer kunder som kör HDP på lokaler, i den offentliga moln eller en kombination av de två.
Streaming framgång
Den HDF 3.0 nyheter är intressanta. Produkten är baserad på Apache NiFi, som själv har utfärdat dess 0.7.4 pressmeddelande förra veckan. Hortonworks förvärvade Onyara, företaget bakom Apache NiFi, tillbaka i 2015, strax efter NiFi först meddelades. Hortonworks gjorde affären för att få in den strömmande data spel och bredda sin produktportfölj. Under tiden, mycket av drivkraften bakom streaming svävar runt Apache Storm och Kafka-båda Hortonworks stödjer redan i HDP.
Läs också: Hortonworks introducerar Dataflöde, förvärvar Apache NiFi-backer Onyara
Läs också: IBM, Cloudera, Amazon meddelanden: Big Data nyheter roundup
Så trycket har varit på HDF att tillföra ett mervärde till befintliga streaming plattformar, och inte bara försöka standardisera på en ny. HDF kan göra detta ännu, eftersom det lägger till två komponenter, Streaming Analytics Manager (SAM) och Schema Registret, som båda arbetar över Stormen, Kafka och NiFi. SAM lägger ett grafiskt användargränssnitt (GUI) miljö för att bygga strömmande data flöden utan kod, Schema Registret lägger till en katalog av olika slag för dataströmmar så att de blir synlig inom organisationen, och kan återanvändas, snarare än dubblerade, när andra lag vill ha tillgång till samma data.

Streaming Analytics Manager (SAM) i HDF 3.0
Kredit: Hortonworks
Fri rörlighet
Lägga till ett GUI över strömmande data är värt besväret, speciellt om man lägger ett lager av abstraktion på toppen av flera strömmande motorer. Detta tar bort behovet av koden, vilket gör att data ingenjörer att fokusera på logik och problem. Det gör också att logik mer portabla mellan olika streaming-teknik, inklusive sådana som ännu inte införts ännu. För posten, Hortonworks är inte första till det här spelet. StreamAnalytix har funnits på marknaden i flera år, med en liknande produkt som fungerar över Apache Storm, Kafka och Gnista Streaming.
Läs också: StreamAnalytix 2.0 lägger till stöd för Spark
Schemat Registret bidrar till att överföra, så att den logik för att användas av företag för andra enheter än den som satt upp strömmen i första hand. Men eftersom detta är verkligen en aspekt av data governance, det väcker frågan om en sådan funktion bör vara en del av en bredare styrinstrument, till exempel Apache Atlas, ett projekt som drivs av Hortonworks. Atlas verkligen fokuserar på uppgifter som lineage och revision, om, snarare än data catalog funktionalitet. Och medan både SAM och Schema Registret är open source-projekt, varken en är en Apache Software Foundation projekt, åtminstone inte ännu.
Ambidexterity
Att hålla sig med begreppet överförbarhet, Hortonworks’ Flex-Support idé bara klokt, det är 2017, och för att ha ett separat abonnemang för on-prem och cloud kunder börjar att göra om så mycket känsla som att ha tydliga avtal för kunder som använder en hårdvaru leverantör framför en annan. Vad är trevligt om Flex Stöd, men att det också bärbar över kundernas egen Infrastruktur som Tjänst (IaaS) public cloud inställningar samt de som använder Platform as a Service (PaaS) – implementeringar på Hortonworks Data i Molnet för AWS.
Så, för Hortonworks, det handlar om portabilitet, över strömmande plattformar, över kundens verksamhet och enheter, och över på lokaler, IaaS och PaaS kluster. I en tid av övergång, det är vad våra kunder behöver. Nu Hortonworks bara behöver en av arbetet är en produkt för kunder som inte vill ta itu med diskreta kluster alls.
Min gissning är att det kommer inte att vara länge.