Bigeye siktar på Data Reliability Engineering

0
121

 Tony Baer (dbInsight)

Av Tony Baer (dbInsight) för Big on Data | 23 september 2021 | Ämne: Big Data Analytics

Det gamla ordspråket “skräp in, skräp ut” har aldrig gått ur mode. Den grymma aptiten för data från analys- och maskininlärningsmodeller har ökat brådskan för att få rätt data. DataOps disciplin har uppstått som svar på behovet av både affärsanalytiker och datavetenskapare att ha förtroende för data som fyller deras modeller och instrumentpaneler.

Insatserna för att få rätt data stiger när datatekniker och datavetenskapare bygger otaliga datapipelines för att fylla sina modeller. Vi har länge oroat oss för AI och ML -modelldrift, men kan detsamma vara möjligt med datakällor som försämras eller blir inaktuella? Eller med datapipelines där verksamheten gradvis avviker från kursen på grund av operativa problem som oväntad latens som kan störa och slänga tillförlitligheten för datafiltrering eller transformeringar.

DataOps disciplin belyser användningen av automatisering för att skala utmaningen med datakvalitet. Ändå garanterar inte tillämpning av automatiserad datakvalitet eller katalogiseringsverktyg att de datauppsättningar som används är de rätta eller mest relevanta för problemet, inte heller kan de säkerställa färskhet eller valuta. I bästa fall är svaren ad hoc: det finns många källor till datainsamling, så frågan är ofta vilken version av sanningen som ska följas. Dessutom kan datakvalitetsverktyg inte alltid ge full täckning. När det gäller datakataloger ger de i bästa fall bara möjlighet för teammedlemmar att kommentera anekdotiskt om användbarheten av data. Alltför ofta inträffar DataOps på en ad hoc, break/fix basis.

Ett team på Uber upplevde problemet på egen hand eftersom de brottades med förtroendefrågor när datapipelines började sprida sig med tusentals. Kyle Kirwan, en tidigare produktchef på Uber, insåg att dataproffs behövde ett mer kontinuerligt fokus på att hantera datakvalitet och relevans. Specifikt behövdes en ny disciplin för “Data Reliability Engineering”, modellerad efter Site Reliability Engineering, för att hålla ett konstant öga.

Resultatet är Bigeye, en uppstart som just fått sitt andra stora skott av finansiering (vilket ger totalt 66 miljoner dollar), som har introducerat vad det kallar en “datobservbarhet” -plattform som kan hjälpa organisationer att skapa en datapålitlighetsteknik.

Levereras som en molntjänst, Bigeye samplar kontinuerligt varje datamängd och tillhandahåller en löpande tidslinje för dataprofilering för att kontinuerligt kontrollera parametrar som radräkningar, kardinalitet, duper, null och blank, syntax, förväntade värden och andra outliers. Det spårar också “färskhet” baserat på tidsstämplarna i datamängden och när den senast uppdaterades. Trösklar kan ställas in manuellt eller genom algoritmiska rekommendationer.

 data-reliability-engineering.png

Förhållandet mellan Data Observability och Data Reliability Engineering

Kredit: Bigeye

I huvudsak är Bigeye att data vad Datadog är för appar, och inte av en slump är VD för Datadog en av medlemmarna i styrelsen.

Bigeye lagrar inte rådata i sig, utan istället lagrar och spårar hälso -mätvärdena över tid. För närvarande har Bigeye integrationer till de flesta vanliga misstänkta inklusive Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, MySQL, SQL Server och Databricks.

Vid denna tidpunkt är Bigeye utformat för att förvandla dataprofilering till en kontinuerlig, dynamisk aktivitet genom konstant sampling av dataflöden. Det ger i huvudsak observerbarheten. För att möjliggöra datatillförlitlighetsteknik planerar Bigeye att lägga till arbetsflöden för övervakning och hantering av SLA: er, funktioner för analys av grundorsaker. En del av detta skulle kunna åtgärdas genom att analysera dataströmmar. Men även om datakällorna fortsätter att visa sig, kan fel i server- eller nätverksprestanda skada data. till exempel kan en blipp i ett nätverksflöde äventyra tillförlitligheten för data som härrör från tidsseriekällor. Det är här kopplingen till applikationens observerbarhet kan knyta ihop för att bygga hela bilden, och därför tror vi att synergier med Datadog inte bara är teoretiska.

Big Data

Var är IBMs hybridmoln lanseringsplatta? Sju sätt att göra realtidsteknik verklig för din organisation Maskininlärning på kanten: TinyML börjar bli stort Vad händer sedan för Cloudera? McDonald's vill 'demokratisera' maskininlärning för alla användare i sin verksamhet

Relaterade ämnen:

Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software

Av Tony Baer (dbInsight) för Big på data | 23 september 2021 | Ämne: Big Data Analytics