Det gamle ordsprog “skrald ind, skrald ud” er aldrig gået af mode. Den rasende appetit på data fra analyser og maskinlæringsmodeller har øget hastigheden for at få dataene rigtigt. DataOps disciplin er opstået som svar på behovet for, at både forretningsanalytikere og dataforskere har tillid til de data, der befolker deres modeller og dashboards.
Indsatsen for at få data rigtigt stiger, da dataingeniører og dataforskere bygger utallige datapipelines for at udfylde deres modeller. Vi har længe bekymret os for AI og ML model drift, men kan det samme være muligt med datakilder, der nedbrydes eller bliver forældede? Eller med datarørledninger, hvor operationer gradvist kører ud af kurs på grund af driftsproblemer såsom uventet ventetid, der kan forstyrre og aflive pålideligheden af datafiltrering eller transformationer.
DataOps disciplin fremhæver brugen af automatisering til at skalere udfordringen med datakvalitet. Imidlertid sikrer anvendelse af automatiseret datakvalitet eller katalogiseringsværktøjer ikke, at de datasæt, der bruges, er de rigtige eller mest relevante for problemet, og de kan heller ikke sikre friskhed eller valuta. I bedste fald er svarene ad hoc: der er adskillige kilder til datastamning, så spørgsmålet koger ofte ned til hvilken version af sandheden, der skal følges. Desuden giver datakvalitetsværktøjer ikke altid fuld dækning. Hvad angår datakataloger, giver de i bedste fald kun mulighed for teammedlemmer til at kommentere anekdotisk om dataens nytteværdi. Alt for ofte forekommer DataOps ad hoc, break/fix.
Et team hos Uber oplevede problemet på egen hånd, da de kæmpede med tillidsproblemer, da datapipelines begyndte at spredes med tusinder. Kyle Kirwan, en tidligere produktchef hos Uber, blev klar over, at dataprofessionelle havde brug for et mere kontinuerligt fokus på at styre datakvalitet og relevans. Specifikt var en ny disciplin for “Data Reliability Engineering”, der var modelleret efter Site Reliability Engineering, nødvendig for at bevare et konstant øje.
Resultatet er Bigeye, en opstart, der lige har modtaget sit andet store skud med finansiering (hvilket bringer det samlede beløb til $ 66 millioner dollars), der har introduceret, hvad det betegner en “dataobservabilitet” -platform, der kan hjælpe organisationer med at oprette en datapålidelighedsteknik.
Leveret som en skytjeneste, prøver Bigeye løbende hvert datasæt og leverer en løbende tidslinje for dataprofilering for løbende at kontrollere parametre som rækker, kardinalitet, dups, null og blank, syntaks, forventede værdier og andre outliers. Det sporer også “friskhed” baseret på datasættets tidsstempler, og hvornår det sidst blev opdateret. Tærskler kan indstilles manuelt eller gennem algoritmiske anbefalinger.
Forholdet mellem Dataobservability og Data Reliability Engineering
Credit: Bigeye
I det væsentlige skal Bigeye oplyse, hvad Datadog er for apps, og ikke tilfældigt er Datadogs administrerende direktør et af bestyrelsens medlemmer.
Bigeye gemmer ikke rådata i sig selv, men i stedet gemmer og sporer sundhedsmålingerne over tid. I øjeblikket har Bigeye integrationer til de fleste af de sædvanlige mistænkte, herunder Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, MySQL, SQL Server og Databricks.
På dette tidspunkt er Bigeye designet til at omdanne dataprofilering til en kontinuerlig, dynamisk aktivitet gennem konstant prøveudtagning af datafeeds. Det giver i det væsentlige det observerbare stykke. For at muliggøre datapålidelighedsteknologi planlægger Bigeye at tilføje arbejdsgange til overvågning og administration af SLA'er, kapaciteter til grundårsagsanalyse. En del af dette kunne løses ved at analysere datastrækning. Selvom datakilderne fortsat viser sig, kan fejl i server- eller netværksydelsen ødelægge dataene; for eksempel kan et blip i et netværksfeed kompromittere pålideligheden af data, der stammer fra tidsseriekilder. Det er her, bindingen af applikationens observerbarhed kan hænge sammen for at bygge det fulde billede, og derfor mener vi, at synergier med Datadog ikke kun er teoretiske.
Big Data
Hvor er IBMs hybrid sky launchpad? Syv måder at gøre realtidsteknologi til virkelighed for din organisation Maskinlæring på kanten: TinyML bliver stor Hvad sker der for Cloudera? McDonald's ønsker at 'demokratisere' maskinlæring for alle brugere på tværs af sine aktiviteter
Relaterede emner:
Cloud Digital Transformation Robotics Internet of Things Innovation Enterprise Software