OpenAI og Google skal ha brukt YouTube-transkripsjoner for å trene AI-modellene sine

0
50
YouTube-appens profilside. Jack Wallen/ZDNET

Trening av kunstig intelligens-modeller krever mye data for å hjelpe dem bedre å forstå konteksten til spørsmål og til slutt gi bedre svar. I det konstante søket etter mer data har både OpenAI og Google vendt seg til å bruke YouTube-videoer, laget av andre, for å trene opp sine store språkmodeller (LLM), rapporterte The New York Times i løpet av helgen og siterte folk. som hevder å ha kjennskap til selskapene' aktiviteter.

I 2023 utviklet OpenAI Whisper, et talegjenkjenningsverktøy som ville hjelpe selskapet å skrape YouTube, ta lyd fra mer enn 1 million YouTube-videoer og bruke det til å informere GPT-4, ifølge Times' kilder.

Google har i mellomtiden også transkribert YouTube-videoer, ifølge rapporten. I tillegg endret søkegiganten sine vilkår for bruk i 2023 for å gjøre det enklere å oppsøke offentlige Google Dokumenter, Google Maps restaurantanmeldelser og annet offentlig tilgjengelig innhold for bruk i AI-modellene, ifølge Times.

Også: Har du 10 timer? IBM vil lære deg grunnleggende AI – gratis

Det er ingen hemmelighet at AI-modeller krever betydelige mengder data for å fungere effektivt. Flere data, inkludert tekst, lyd og videoer, gir modellene muligheten til å forstå menneskelig kontekst, menneskelig interaksjon og andre kritiske kommunikasjonsdetaljer som gjør dem mer effektive.

Imidlertid er det økende spenning mellom selskapene som utvikler disse modellene og innholdsskaperne. Hvilket innhold, om noe, bør være tillatt å bruke i opplæring av AI-modeller? I et økende antall tilfeller oppfordrer nyhetskanaler, nettsteder og innholdsskapere selv OpenAI, Google, Meta og andre teknologiselskaper til å betale for tilgang til innholdet deres før de kan brukes til å trene LLM-er.

< p>I noen tilfeller har modellprodusenter overholdt og signert avtaler med selskaper, inkludert Reddit og Stack Overflow, for å få tilgang til brukerdata. I andre tilfeller ikke så mye.

I følge The New York Times' rapporter for eksempel at OpenAIs påståtte transkripsjon av mer enn 1 million YouTube-videoer kan stride mot Googles egne vilkår for bruk, som forhindrer tredjepartsapplikasjoner fra å bruke YouTube-videoene deres for “uavhengige” midler. I tillegg kan selskapene' beslutninger om å angivelig transkribere videoer kan være i strid med lover om opphavsrett, siden YouTube-skapere som laster opp videoer til YouTube fortsatt beholder opphavsretten til innholdet de lager.

For å være tydelig, kan ikke Times-rapporten verifiseres uavhengig. Heller ikke Google eller OpenAI erkjente at de skrapte data ulovlig. Vi vet imidlertid at selskapene går tom for måter å få tilgang til mer innhold på. Hva verre er, en Times-kilde sa at det er mulig teknologiselskaper vil gå tom for innhold for å innta i modellene sine innen 2026.

Også: Jeg tilbrakte en helg med Amazons gratis AI-kurs, og anbefaler at du også gjør

Hva da? Det er fullt mulig — og kanskje sannsynligvis — at teknologiselskapene går for å signere lisensavtaler med innholdsskapere, medier og til og med musikalske artister for å få tilgang til kreasjonene deres. Det er også mulig de vil endre vilkårene for bruk ytterligere, eller enda verre, finne måter å skjøre personvernlovgivningen på, for å få tilgang til dataene de for øyeblikket ikke kan.

Det er klart at datamengden selskaper som Meta, Google og OpenAI vil trenge i de kommende årene vil bare øke. Det er avgjørende at når de får tilgang til disse dataene, gjør de det på en måte som ikke skader menneskene som opprettet innholdet i utgangspunktet.