Djävulen vet vi: En ny våg av förändring tvingar data-revolutionen att anpassa sig eller gå under

0
114

Noll

Video: Porträtt av en modern multi-cloud data center

“Vår planering och rörelser system är fortfarande besvärligt. . . Vi har blivit skolad på planering med hjälp av stora matriser, med varje cell att vara fylld innan du går vidare. Vi har lärt oss en passion för detaljer, men inte nödvändigtvis hur man kompromissa för att nå en brådskande. Säkert med alla moderna funktioner, vi kan vara mycket mer tid i deployment planning, liksom operativa analyser och förberedelser.”

-Gen. Wesley K. Clark, Före Detta Supreme Allied Commander, Europa
Att Föra Ett Modernt Krig, 2001

Sällan, och förmodligen aldrig i historien har det gamla gardet, med dess föråldrade metoder, lade ned sina vapen och kapitulerade utan en kraftfull kamp. Historia, om den är snäll mot oss, kommer så småningom att registrera att de största tekniska störningar som orsakas av motstånd till förändring snarare än revolutionärer.

Läs också: Den framtida IT: Snapshot av en modern multi-cloud data center

180223-m04-scale-w05-fig-00.jpg

Detta är berättelsen om inställningar för sådant försvar. Det börjar på D-Dagen-plus-298 för den metaforiska ön Datumoj, fastnat i mitt uppe i en spänd och långvarigt dödläge. Gnista Bataljonen känner att man har en chans till genombrott, om det kan skapa offensiva positioner på Ledger Domän bergstopp fästen. Skära av sina försörjningsvägar till dalarna nedanför kan svälta dem bara tillräckligt för att tvinga en oblodig kapitulera, och en framförhandlad vapenvila.

Det låter som en hyfsad plan, förutsatt att Gnistan inte få upstaged av någon annan innan man kan dra av det.

Läs också: Serverlösa computing, containrar, se tresiffriga kvartalsvisa tillväxten bland användare i molnet

180223-m04-scale-w05-fig-01.jpg

Den första domän

I hans 2002 boka Patterns of Enterprise Application Architecture, Martin Fowler (som sedan dess kommit att bli känd som fadern av kontinuerlig leverans, “CD” en del av “CI/CD”) presenteras en typ av objekt-orienterad programmering sammanhang kallas en domän modell. Fowler uppfann inte idén, men det gjorde han föra fram den bästa definition: I en domän, såsom ett företag, en objektorienterad modell av domänen innehåller både sitt beteende och sina uppgifter.

I huvudsak, en domän modell är hur ett program skrivet i ett objektorienterat språk som C++ eller Java bör karta sina värderingar och register i minnet, och de delar av data skapar och förvaltar, för att saker och ting i den verkliga världen. En tjänst under ett sådant system, skulle vara ett program som utför en diskret funktion och ger en tydlig grund. Fowler inte har möjlighet tidigt att definiera microservice, men det har kommit att bli känd som en klass av tjänst som är utformad för att vara oberoende skalbar, för användning i distribuerade system och arkitekturer.

Mesos är djärvare, mer mogen, och har två-nivå schemaläggning, vilket jag tycker är otroligt kraftfull. Men eftersom det inte har ekosystemet, fanfar, och hype runt det, det spelar egentligen få sin beskärda del av respekt.

— Joshua Bernstein, vice vd för teknik och Emerging Technologies Division, Dell EMC

“Värst affärslogik kan vara mycket komplexa,” Fowler skrev. “Regler och logik beskriva många olika fall och vinklingar av beteende, och det är denna komplexitet som objekt var utformad för att fungera med. En Domän Modell skapar ett nät av sammankopplade objekt där varje objekt representerar några meningsfulla enskilda, om stort som en corporation eller liten som en enda rad på ett beställningsformulär. . . Om du har komplicerat och omväxlande verksamhet regler där validering, beräkningar, och avledningar, är chansen att du vill ha ett objekt [domän] modell för att hantera dem.”

Kärnan i varje företag är dess digitala modellen-hur dess tillämpningar representerar hur verksamheten fungerar. Om en enda databas plattform för att kapsla in det sätt på vilket alla företag kan modelleras, i alla tänkbara fall, då det skulle kunna göra ett övertygande argument för en rip-och-ersätt omvandling av affärssystem-en “digital transformation” som kan mätas på ett stoppur.

Ett sådant fall kan se ut så här: Anta att en enda mekanism skulle kunna modell både skeden och händelser av kärnverksamheten logik, och det sätt på inkommande data skall tolkas så att integrera med den logiken. En domän modell plus en ETL-modell, i en graf. Och antag att den omedelbara nyttan var omedelbarhet själv: den innebär att scenen översättning processer parallellt, och utföra uppgifter vid inkommande strömmar i realtid.

SQL var inte ursprungligen avsedd att koda affärslogik. Men eftersom de förfaranden som är byggt kring SQL, med hjälp av språk såsom PL/SQL, förutsatt att både form och format för de rapporter som företagen förlitade sig, de scheman som byggdes i utvecklingen av dessa förfaranden har ofta betraktats som den centrala logiken i verksamheten.

“Alla gör ETL. Du kan använda Gnista och Kafka som bara ett annat verktyg för att göra ETL-processen. Men de är inte med ETL teknik som fanns tidigare.”

— Matei Zaharia, CTO och grundare, Databricks

Fowler skulle snarare att affärslogik kodas som objekt i minnet, inte som databas komponenter. Men även hans egna 2003 avhandling om problemet medgett att ett val av kodning beror på dess egna koder av bästa praxis, och kanske även vissa frågor som är av bekvämlighet.

Läs också: Hybrid cloud 2017: Distribution, drivkrafter, strategier, och-värdet

Domänen modell är ett sätt att applicera ett mönster till de objekt som programmet kvar i minnet, så att de har något hanterbart förhållande till saker och ting i den verkliga världen. Det är den programmatiska motsvarighet till schemat — de regler som en relationsdatabas intresseföretag andelar av data med den verkliga världen. Och eftersom domänen modellen var tänkt för programmerare och inte data ingenjörer, det fungerar annorlunda från ett schema.

Här är ett exempel: I ett typiskt schema, en post har en egen exklusiv primärnyckel — som en bils registreringsskylt, men något mänskliga användare sällan skulle se. Något som delar samma primärnyckel måste vid det förhållande, att vara en del av samma post. I ett objektorienterat domän modell, jämställdhet och identitet är skilda begrepp. Så om två instanser av objekt av en klass har samma värderingar och innehåll, de är fortfarande separata objekt-de är inte en del av samma objekt.

Dessa udda beteendemässiga skillnader har oftast varit förklaras bort som esoteriska och oviktigt i varandras sammanhang. Men ett decennium sedan, de agera för att hantera dessa skillnader gav upphov till en legitim bransch: object / relational mapping (ORM). Ett verktyg som kallas Viloläge ORM, som nu produceras av Red Hat, hjälper utvecklare av programvara för att automatisera ORM processen så att scheman kan kartan mer direkt till objektet modeller.

De medel för genomförandet av denna kartläggning kallas en riktad acyklisk graf (DAG). Det är som en visuell flödesschema som skildrar stegen i processerna, med en tydlig start och ett tydligt slut. Utförda på rätt sätt, en DAG kan vara en mellanhand mellan objekt modell av data som beror mer på beteende, med schema som litar mer på staten.

Dr. E. F. Codd, uppfinnaren av SQL, varnade för användningen av en sådan tolk så tidigt som 1990, som anger att ett objekt-orienterade språk ännu inte kunde upprätthålla integriteten av data och system. “Varje ny modell som kommer tillsammans,” Codd skrev, “måste undersökas noggrant för att från synpunkten av dess tekniska fördelar, användbarhet och mångsidighet.”

Trots Codd varning, DAG har utvecklats till att bli ett verktyg som representerar översättning av extraktet / transform / belastning (ETL) process-den ursprungliga underhåll motor av data warehouse-för Apache Gnista. Alla jobb i Spark, inklusive ETL och även översättning av scheman, kan dras upp som DAG ritningar. Faktum är att användningen av Gnista SQL kan leda till skapandet av nya DAG grafer som utlösande Gnista inbyggda delvis riktade acykliska schemaläggaren — naturligtvis, som heter Shark.

Den fördröjning som införts genom att nästan alla mycket tid som spenderas med rengöring och översättning, hävdade Matei Zaharia, Spark ‘ s co-creator och grundare och CTO Databricks, arbetar mot syftet med ett system som utger sig för att vara “real-tid.”

Det kommer alltid att finnas ett behov av att rena data i något skede av behandlingen, han släppte in. I den meningen, att ETL inte, inte heller kommer det att bli, död. Men den renande uppgift kan nu föreslog han, föras in i analysen uppgift, i en typ av parallellport, “just-in-time” – schema-förmodligen med stöd av DAG, men kanske med mer av ett CI-/CD-typ pipeline. Som någon annan process, den skulle förbruka tid, men körs parallellt, det skulle innebära några förseningar. Han rekommenderas att använda Databricks Delta plattform som en mekanism för att spåra data genom faser av omvandling, och eventuellt håller på äldre versioner som säkerhetsmekanismer i fallet omvandlas data misslyckas med vissa tester på gång.

DAG ger en Gnista, och dess allierade i SMACK-Stacken, med en öppning för att montera ett direkt angrepp på mitten av alla relationsdata verksamhet: schemat. Ja, på bara de senaste månaderna, forskare vid IIT Bombay har inlett en insats för att utnyttja DAG för att automatisera schema översättningsprocessen [PDF]. Specifikt, deras automatiserade kod skulle analysera befintliga modeller, översätta dem och sedan analysera översättningar till att bestämma huruvida de skulle köra snabbare eller mer effektivt än den befintliga koden de skulle försöka ersätta.

“Alla, oavsett vilken teknik de använder, har att göra lite data omvandling och extraktion,” förklarade Zaharia. “I den meningen, att alla gör ETL. Du kan använda Gnista och Kafka som bara ett annat verktyg för att göra ETL-processen. Men de är inte med ETL teknik som fanns tidigare.”

Ingen tid platt

“En hel del av dessa data-driven program är nu i realtid,” anmärkte Tobias Knaup, CTO på kommersiella Mesos plattformar Mesosfären. “De är inte längre sats, där jag kan samla data under en vecka och sedan köra lite rapport, någon som ser på det och gör ett beslut. Denna data som faktiskt rinner tillbaka in i applikationen i realtid.”Tillbaka när ett företag valde data system som är bäst lämpad för de uppgifter som det är tänkt för sig själv, valde det hela plattformen-vilket betyder, det slutade med att välja databas format, och det medel med vilket schema som förklarar affärslogik formulerades och levereras. Vem som helst bygga en domän modell skulle behöva revidera ORM processen för att passa detta schema. Av denna anledning, bland flera andra, att det var en dålig idé att byta plattform. Tillkomsten av data warehouse gav organisationer frihet, inte minst, att integrera ihop allt på sitt eget schema. Men det lämnade dem på en plats där de beslut som till slut blev fast i sten när de gjordes.

Läs också: Ja, DevOps handlar om tillväxt, särskilt den digitala utbud

Så utmaningen organisationer står inför idag är att få möjligheten att bygga nya applikationer som körs i den takt som moderna distribuerade system kräver, samtidigt integrera med de format som redan finns för de program som redan finns på plats-även om de gamla program håller på att fasas ut över tid. Databricks’ Zaharia poäng väg för organisationer att möta denna utmaning: att utarbeta rörledningar för iscensatt processer som både definierar både affärs-och domän modeller, i ett parallellt system som förbrukar nästan ingen tid hemma.

“Det är svårt, och landminor som du trampa på här. . . är den uppfattningen som människor har om miljö kontra tekniken i sig,” sade Killen Churchward, VD för real-time data plattformar DataTorrent, tala med ZDNet Skala. “I allmänhet, deras pre-conception på, där de för närvarande sitter med i den statliga deras arkitektur, är förmodligen det svåraste. De flesta människor inte inser att de är ute och kör runt i en bil som kommer att kollapsa. Så de är fet, dum och glad, och att de antingen inte gör någonting och att de är konkurrenskraftigt att bli dödad, eller att de gör något, men de uppgifter de har faktiskt inte har någon integritet runt det, och de är i huvudsak titta på felaktiga uppgifter.”

Churchward berättar en historia som han sade är återkommande, där en kund eller blivande kund insisterar på att det redan är utplacerade i realtid analytics. Så han frågesporter kunden om sin latency loop, och det med stolthet svarar, 60 millisekunder. Varför det numret? De visar honom arkitektur där Kafka renar data, då blir det matas genom en batch-bearbetning motorn, sedan parkerade på en data-sjön (en virtuell samlingsplats för alla data i olika stater) där det väntar en fråga från en analytics-service.

“Okej, så vad du egentligen gör är att real-time analytics på en data sjön med inaktuella uppgifter,” skulle han säga. Som klienten skulle svara, “Nej, nej, nej, vi har fått real-time data som kommer in.’ Ja, men du är faktiskt inte analysera data i realtid, du är faktiskt göra en call analytics i realtid.”

Churchward och Zaharia skulle komma överens om den grundläggande principen att i realtid är bara riktigt när dess processer är konstruerade för att arbeta parallellt med utvinning, omvandling och frågor. En DAG skulle hjälpa en modern databehandling motor för att uppfatta dessa stadier, men inte som en avgränsad och oantastbar sekvens. Där dessa två herrar på en del sätt är med avseende på den mekanism själv. Churchward är DataTorrent är kommersiell förvaltare av ett open source-komponent som kallas för Apache Apex. Införs 2015, som ett alternativ schemaläggaren och resource manager för att GARN i Hadoop stack, Apex syftar till att zip tillsammans batch-bearbetning och ström bearbetning i en enda motor.

DataTorrent värde proposition är att ge ett medel för företag som redan har infört Hadoop och fastnat där för att effektivt droppe i DataTorrent plattform, som leds av Apex, och flytta till en helt ny nervsystemet i 60 dagar. Churchward föreslår en alternativ stack: KASH — Kafka, Apex, Spark, Hadoop-att ta fram en ny grund för realtidsapplikationer. Från det, sade han, det blir lättare för kunder att genomföra lärande bibliotek, i huvudsak eftersom de gamla ETL mekanism har inte upprepats, men i stället ersättas helt och hållet.

“När vi vet hur data ska lagras, för alla fasta scheman-när vi vet exakt vilka frågor man ska fråga data,” anmärkte Anjul Bhambhri, Adobe ‘ s vice president av plattform teknik, “den traditionella datalager har utformats med ETL spelar en mycket viktig roll. Att veta källan, och sedan veta exakt vad som format målet måste vara ifyllt, regler-baserade strategi för ETL arbetat.”

Men nya program att använda data på olika sätt, reglerna måste vara flexibla, eller åtminstone villkorligt, Bhambhri hävdar. En styv, automatiserad process för att förbereda data för den begränsade användningen fall att en organisation har redan definierat för sig själv, är inte längre tillämplig, en värld där själva programmen kan tänkas lära sig.

“Om du har insett att analytics är en viktig del av din verksamhet, och det har blivit en akilleshäl eftersom du får stryk av konkurrensen. . . då kan du inte vänta i sex månader, tolv månader, två år för en ansökan. Du behöver det i en kvart eller två, annars, du kommer att vara skickligt i trubbel.”

— Killen Churchward, VD, DataTorrent

“Det är inte som att det är helt gått bort — att vi ändå måste göra det för vissa typer av rengöring,” Bhambhri fortsatte. “Men när du tittar på aspekter av data vetenskap, AI, ML [machine learning], det är en hel del inslag teknik som har att göra på denna “masseras” data. Och detta är inte tunga ETL, men det måste göras. ETL är bra för när, i en batch-läge, data behandlas, du vet schemat, du vet att de typer av rapporter som ska genereras. Men för den här världen där det finns en hel del tid-serien beteendedata, försöker använda en ETL-strategi kan inte bara vara besvärligt, men det är väldigt tidskrävande.”

Anmärkte Churchward, “Om jag hittade i min aktieportfölj som ett företag var att basera sitt analytics enbart på en klassisk, gammaldags ETL data sjön arkitektur, skulle jag kort beståndet.”

Läs också: att Eliminera lagring misslyckanden i molnet

180223-m04-scale-w05-fig-03.jpg

Sunset assault

Det är skymning över Datumoj, D-Dag-plus-300. Det är en storm kommer från norr, och det är inte de moln som tar det.

Gnistan koalitionen har etablerat en omkrets runt Ledger Domän fästningar i den Schematiska bergskedja. Det som nu kontrollerar all trafik in och ut ur sina försörjningsvägar. Koncernens överraskning, men att trafiken har blivit gles. Vad de inte inser är att Apex, ett berg infantry division, har smugit sig på med stealth landning krafter längs den sydvästra kusten. Om inrättande av en vapenvila med resten av Hadoop Task Force, den fångade offensiva positioner längs den gamla western leverans vägen, förbi de viktigaste bergsvägar.

Läs också: AMD lanserar inbäddade EPYC och Ryzen processorer

180223-m04-scale-w05-fig-04.jpg

Men även när de förbereder sig för att inleda en strategisk motoffensiv mot Gnista, spanare på Eliro Island plats distinkt ånga plymer av en invaderande styrkan i norr. Det redovisade legendariska Kubernetes Marine Expeditionary Corps, tillsammans med Docker Containrar Brigad. Det tror de dela sätt att distribuera en helt ny iscensättning och produktionssystem för ön, i själva utbyggnaden av kapslar som är self-provisioning, som kan läggas på plats, och gjorde fullt operativa inom några dagar. “Microservices,” dessa kapslar är kallade, men ingen har någonsin sett fienden på nära håll.

Läs också: Cloud computing praktiskt taget kommer att ersätta traditionella datacenter inom tre år

180223-m04-scale-w05-fig-05.jpg

Fonden

“Jag tror inte att vi pratar om teknisk differentiering här. Jag tror att vad vi pratar om är den dominerande ställningen på marknaden,” säger Ted Dunning, chief ansökan arkitekt för MapR. “Och vad jag ser är, Kubernetes är det storsäljande favorit på GitHub-den mest spelade projektet. Och jag ser det med våra företagskunder — 90-plus procent antar Kubernetes för sin produktion fall.”

MapR cloud service partner, Dunning berättade för oss, har redan inletts Kubernetes att hantera över 90 procent av sina nya server kluster. En del av noderna i dessa kluster är fortfarande förvaltas av Mesos, men han sade att antalet har minskat till runt hälften.

“Utvecklingen är dramatisk,” förklarade han. “Som vi alla vet, trender som detta inte alltid avseende tekniska egenskaper. Inte för att jag tror att det finns tekniska brister i Kubernetes-det är en del av problemet: Det är verkligen bra.”

“Den enda anledningen till att vi pratar om Kubernetes,” sade Josua Bernstein, vice vd för teknik för Dell EMC Emerging Technologies division, “beror på att Google har gjort ett fenomenalt jobb med att marknadsföra det. Från ett rent tekniskt perspektiv, Kubernetes har också gjort ett mycket bra jobb med sina data modell och data abstraction model. På ena sidan som ger den flexibilitet. Men det är också mycket komplex, den kodbas är mycket ung, och oavsett vad du tycker, det kontrolleras av en enda enhet, som Google.”

Den Native Cloud Computing Foundation-som Google är medlem, men också Microsoft, Oracle, och nu moderbolagets Dell-Tekniker själv — kan ta problemet med Bernsteins förra kommentar. Men de utestående punkt som Kubernetes kan ändå vara en omogen teknik, inte bära någon kontroll.

“Vad som kommer att vara intressant här,” Bernstein sade, “är att Kubernetes kommer att kämpa för att köra olika arbetsbelastningar samtidigt på samma resurser. Det kommer att vara svårt att köra Spark och Cassandra i samma miljö. I själva verket, att kapacitet i Kubernetes är fortfarande något som är aktivt utvecklas just nu-vi är bara i början av att se inklings av denna typ av förmåga. Mesos är djärvare, mer mogen, och har två-nivå schemaläggning, vilket jag tycker är otroligt kraftfull. Men eftersom det inte har ekosystemet, fanfar, och hype runt det, det spelar egentligen få sin beskärda del av respekt, att vara ärlig med dig. Så vad du egentligen trading off här är, människor är att söka sig mot Kubernetes för hype.”

DataTorrent är Kille Churchward berättar att hans företag förbereder sig för en full-on Kubernetes invasionen. Svaret skulle kunna göra det möjligt HDFS att vara integrerad med Kubernetes orchestrator, så Apex att samarbeta med avseende schemaläggning. Men sedan kan det ta KASH stack tillbaka i, anskaffning Kafka, Spark, och Apex än en gång för bearbetning i realtid strömmar.

Läs också: Google bygger ut sin data center estate, med tillsats av solenergi

“Titta, komponenter inte spelar någon roll,” anmärkte Churchward, mitt i ett samtal där komponenter verkligen inte att visas för att fråga. “Det spelar ingen roll om Gnista vinner eller Apex vinner eller Kubernetes eller Mesos vinner, eller GARN är det eller inte, eller Hadoop är bra eller dåligt. Verkligheten är, att du har fått titta på det och säga att ” jag vill att landa på ön, jag vill befria min data, jag vill få ett resultat av det, jag vet vad det är, och jag behöver det gjort inom två fjärdedelar av mig att tänka på det.” Och jag behöver också flexibilitet att säga, “jag har fel”, och sedan anpassa min siktlinje.”

Reconnoiter

180223-m04-scale-w05-fig-06.jpg

När skymningen sänker sig över Datumoj, teater operationer ställs in för en episk kamp. Var och en av de tävlande i denna kamp har som mål att göra ön till en self-service tankning sluta, mycket som Churchward beskrev det. Vad som möter oss, och vad står inför företaget, är sannolikheten för att en uppgörelse mellan de parallella uppgift modell och distribueras microservices modell för att underlätta realtid strömmar och traditionella partier samtidigt. CTOs och Cio: er får hoppas på mer tid för en plattform att stå som segrare. För några av dessa chefer, deras beslutsfattande i maj har redan gått ut.

Under tiden som silhuetten av våra metaforiska ön försvinner i starlight, någon annans verklighet tar sin plats. I denna verklighet, en ny våg av digital omvandling som sker, vilket för med sig ett koncept som kallas “integrated data warehouse.” I en värld där allt kan vara framgångsrikt saluförs, allt gammalt är verkligen som nytt igen, och det plötsligt dyker upp Datumoj Ön var bara en blip på radar.

Vi ska mäta effekterna av att blip nästa gång. Tills dess, håll sant.

Resa Längre-Från CBS Interactive Nätverk

Kubernetes kommer att styra hyperscale datacenter 2018, Scott M. Fulton, III, ZDNet Skala. DataTorrent: Hård kod runt strömmande data filosofi i 90 dagar av George Anadiotis, Stora på Data i Molnet databas tillväxt kan göra som lås-i rädsla vävstol av Matt Asay, TechRepublic

Någon annanstans

Hur GE Digital Hanteras Stateful / Statslösa Problem för Industriell IoT av Scott M. Fulton, III, Den Nya Stack Apache Får Ännu en Stream Processing Engine med Apex av Susan Hall, New Stack DAGS att Spåra Från Specifikation till Utförande av Thomas Weise, DataTorrent

STRÄVAN EFTER ETT SANT DEVOPS

Del i: drömmen om gemenskap för mjukvaruutvecklare och IT-operatörer Del II: The dawn of automation och löftet om en formel för framgång i näringslivet Del III: Med största möjliga mått av mod, DevOps gäller till dess mål Del IV: I stormens öga, DevOps’ modigaste krigare hittar nya hopp Del V: Dit och tillbaks igen, DevOps borde lyssna mer till kunder

Data Expeditioner

Del i: data center tar form, och företag att anpassa sig eller gå under Del II: EN ny allians gör en vågad avgift på data warehouse Del III: Vi avbryter denna revolution: Apache Gnista ändringar av reglerna i Del IV: enheten för synkronicitet skakar grundvalarna för datalager

“Battle of Datumoj” var inspirerad av World War II: s Kamp för Morotai. Det, en ö som verkade tillräckligt lätt för att befria bara månader efter D-Dagen i Frankrike, slutade att vara en aktiv slagfältet tills V-J Day, och även efteråt. Den verkliga historien om Morotai, dess strategiska betydelse, den verkliga regementen som kämpat för det, och den trupp rörlighet kartor som inspirerade denna serie, finns tillgängliga från andra Världskriget Databas.

Relaterade Ämnen:

Big Data Analytics

Innovation

CXO

Artificiell Intelligens

Affärssystem

Förvaring

0