Kan vi temme mengden av utilstrekkelige eller tvilsomme data som beveger seg gjennom kunstige intelligenssystemer? AI hemmes av hallusinasjoner, skjevheter, forurensede treningsdata og – til syvende og sist – organisatorisk usikkerhet. Bransjeledere og tenkere har noen ideer for å få orden på data.
Hvis data er den nye oljen, så er AI, “som trenger mye og mye av det, gassslukeren”. av data," Andy Thurai, hovedanalytiker i Constellation Research, fortalte ZDNET. Men å konsumere store datamengder risikerer tap av kvalitet i prosessen – skape tillitsproblemer med AI.
Også: Fra AI-trenere til etikere: AI kan forelde noen jobber, men generere nye.
En undersøkelse av 6000 ansatte utført av Salesforce viser at tre fjerdedeler ikke stoler på dataene som trener AI-en de jobber med. En annen fersk undersøkelse av 550 ledere med store organisasjoner av Fivetran anslår at organisasjoner taper i gjennomsnitt 6 prosent av sine årlige inntekter, eller $406 millioner, på grunn av underpresterende AI-modeller (som er bygget ved hjelp av unøyaktige eller lavkvalitetsdata ), noe som resulterer i feilinformerte forretningsbeslutninger. Organisasjoner som utnytter store språkmodeller (LLM) rapporterer unøyaktigheter i data og hallusinasjoner 50 % av tiden.
Å fikse disse manglene krever også datakurering og kvalitetssikring, noe som spiser opp mye tid for folk som burde fokusere på forretningsproblemer. "De fleste dataforskere bruker tid på å kurere eller krangle data i motsetning til å lage og teste faktiske modeller," Thurai la til.
Likevel er det fortsatt mye data som trengs for å gi drivstoff til AI-motoren. Utfordringen er at “når du mater AI- og ML-modeller med delvise data, får du bare en delvis oversikt over bedriften”," Thurai forklarte. “Selv om bedrifter produserer mer enn nok data, er det fortsatt veldig fragmentert mellom forretningsenheter, domener, plattformer og implementeringer som sky kontra private datasentre.”
Problemet er at organisasjoner lader hodet først inn i AI. "Mange bedrifter er altfor ivrige etter å kaste teknologi på det høyeste problemet som eksisterer uten å legge ned det harde arbeidet, for eksempel å ta tak i underliggende problemer med datakvalitet," Michael Heath, ledende tekniske løsningsingeniør ved SHI International, fortalte ZDNET. "Dette krever nøyaktige, konsistente og fullstendige data. Uten robust datastyring og datahåndteringspraksis, risikerer organisasjoner å forsterke feil og generere upålitelig innsikt."
Datastyring krever en allsidig innsats for å sikre at de riktige dataene sendes til riktige personer og applikasjoner, og at data er tidsriktige, relevante, sikre og har verdi.
Mens datakvalitet har vært i fokus i årevis, er det en annen utfordring å identifisere data som er avgjørende for AI og treningsmodeller. Disse “viktige dataene” — som definert av Neda Nia, produktsjef for Stibo Systems — består av data “som er godt styrt og virkelig representerer det som gir det mest optimale resultatet for å trene maskinlæringsmodeller”," sa hun til ZDNET.
Også: Gjør AI-verktøy det lettere å starte en ny virksomhet? 5 faktorer å vurdere
Kvalitet er viktig – og samordnet styring er nødvendig både på data- og AI-nivå. Dette skaper “den transformative kraften som omformer dataadministrasjon og levering i GenAI-æraen”," sa Junaid Saiyed, teknologisjef i Alation. “Det raske tempoet, det enorme omfanget og den intrikate kompleksiteten til databehandling i GenAI krever robuste AI-styringsrammer. Organisasjoner kan overvinne søppel inn, søppel ut-dilemmaet med effektiv AI-styring."
Selvfølgelig dukker data av høy kvalitet ikke opp fra ingensteds. "Hovedutfordringen med å opprettholde data av høy kvalitet ligger i kravenes uforutsigbare natur" sa Nia. "Spørsmål inkluderer 'Hva utgjør AI-klare data?' 'Hvilke fremtidige modeller vil trenge spesifikke data?' og “Hvor langt tilbake bør data beholdes for optimal prosessering i modeller?”"
Personer som arbeider med kunstig intelligens må vurdere “de etablerte kravene satt av overholdelse og regulering, samtidig som de forutser fremtidige datavitenskapelige behov, inkludert de som ennå ikke er definert”," Nia utdypet. "Dette utgjør en betydelig utfordring. Hvordan kan vi forutse fremtidige krav i et miljø i stadig endring?"
Også: Kan myndigheter gjøre AI-sikkerhetssnakk til handling?
Velstyrte kvalitetsdata må være klare og tilgjengelige for alle scenarier , fortsatte hun. "Invester og fokuser på slike data. Selv om datavolumet er viktig, veier kvaliteten opp for volumet i den moderne verden."
AI og datastyring "sikrer at AI-modeller opererer på rene, relevante og pålitelige data," sa Saiyed. “Dette øker nøyaktigheten og rettferdigheten til AI-beslutninger, fremmer effektivt samarbeid gjennom metadataadministrasjon og sikrer overholdelse av økende regulatoriske krav.”
Datastyring hjelper også med å “etablere en kultur for dataintegritet, så organisasjoner kan drive innovasjon, operasjonell effektivitet og vekst," sa Saiyed.