Skrevet af George Anadiotis, bidragydende skribent
George Anadiotis Bidragende skribent
George Anadiotis har teknologi, data og medier, og han er ikke bange for at bruge dem.
Fuld bio udgivet i Big on Data den 3. februar 2022 | Emne: Kunstig intelligens
Da fremkomsten af maskinlæring fortsætter med at forstyrre en række industrier, er en af de ting, der bliver mere og mere tydelig, at maskinlæring har brug for masser af data af høj kvalitet for at fungere godt.
< p>Ifølge resultaterne af en nyligt udgivet undersøgelse rapporterede 99 % af respondenterne, at de havde fået et ML-projekt fuldstændig aflyst på grund af utilstrækkelige træningsdata, og 100 % af respondenterne rapporterede, at de oplevede projektforsinkelser som følge af utilstrækkelige træningsdata.
< p>Brug af syntetiske data er en metode til at omgå de problemer, der er forbundet med at indhente og bruge data af høj kvalitet fra den virkelige verden. I dag annoncerede Rendered.ai tilgængeligheden af deres Platform as a Service-tilbud til syntetiske dataingeniører og computervisionsforskere.
Rendered.ai udråber sin platform som den første af sin slags platform og en komplet stak til syntetiske data, herunder et udviklermiljø, et indholdsstyringssystem, scenarieopbygning, computerorkestrering, efterbehandlingsværktøjer og mere.
< p>Vi har talt med Rendered.ai grundlægger og administrerende direktør Nathan Kundtz for at lære mere om de anvendelsesmuligheder, platformen kan tjene, og hvordan den fungerer under motorhjelmen.
Kvalitetsdata for AI-modeller er svære at finde og dyre
Kundtz, uddannet fysiker, har en ph.d. fra Duke University. Han har også tidligere opstartserfaring efter at have grundlagt og med succes overdraget Kymeta. Kymeta er en udvikler af hybride satellit-cellulære netværk, og Kundtz blev ved med at høre om de udfordringer, folk i satellitindustrien havde med data.
Han satte sine tanker om, hvordan man eventuelt kunne løse disse udfordringer, i et whitepaper, som han delte med et par personer. Nogle af disse mennesker besluttede at arbejde sammen med ham og prøvede at bygge værktøjer, der kunne hjælpe folk i satellitindustrien, især inden for fjernmåling. Det førte til, at Rendered.ai startede i 2019.
Kundtz omtalte fjernmåling som involverende billeder af “byer, der bygges, livsmønstre, afgrøder, skovbrug osv. fra rummet”. Det falder helt ind under kategorien ustrukturerede, visuelle data. Men det er ikke alt Rendered.ai kan producere.
Visuelle data kan referere til den type billeder, der kommer fra kameraer, men det kan også referere til ting som røntgenstråler. Rendered.ai laver også radar og mange andre forskellige sansemodaliteter, der i sidste ende kan oversættes ved hjælp af computervisionsværktøjer. Platformen kan også bruges til ikke-visuelle data, såsom tabeldata, lyddata eller videodata.
Kundtz fremhævede en use case, hvor Orbital Insight arbejdede med Rendered.ai som en del af et National Geospatial-Intelligence Agency Small Business Innovation Research-stipendium. Orbital Insight demonstrerede forbedrede resultater for objektdetektionsydelse gennem brug af syntetiske data.
Rendered.ai hjalp dem med at ændre syntetiske billeder, så den trænede AI-model kan generalisere til rigtige billeder. De hjalp også med at bruge kombinationen af både et stort sæt syntetiske billeder og et lille sæt rigtige eksempler effektivt til i fællesskab at træne en model.
Som Kundtz bemærkede, kræver det mere end selve billederne for at gøre billeder relevante for computersyn. Billeder skal kommenteres for korrekt at mærke afbildede genstande, der skal identificeres af AI-modeller.
At annotere et 200 kilometer langt skår i RGB-fotogrammetri kan koste op mod $65.000, sagde Kundtz. Og det inkluderer ikke nødvendigvis alle de objekter, som de personer, der sponsorerer annotationen, gerne vil træne AI-modeller til at identificere. Ideen bag syntetiske data er at generere data, der er realistiske nok, men som samtidig med garanti inkluderer alt, hvad AI-modellen skal lære, og som kommer på forhånd annoteret, hvilket sænker omkostningerne.
Tilnærmelse af den virkelige verden
Rendered.ai anvender, hvad det kalder en fysikbaseret tilgang. Hvad dette betyder i praksis, som Kundtz forklarede, er, at de anvender fysikbaserede simuleringer til at tilnærme virkelighedens adfærd godt nok til at generere nyttige data. Der er andre måder at generere syntetiske data på, men Kundtz mener, at ingen af dem virker så godt.
GAN'er (Generative Adversarial Networks) er en almindelig metode, der bruges til at generere syntetiske data. Grundlæggende leverer vi en masse billeder og lærer derefter en algoritme til at gøre mere som det, vi allerede har, som Kundtz udtrykte det. Problemet med GAN'er, fortsatte han med at tilføje, er, at du ikke introducerer nogen ny information. Du producerer af det, du allerede har.
En anden metode til at producere syntetiske data er at bruge videospilmotorer. Der er meget fysik i det, og Rendered.ai bruger dem også, indrømmede Kundtz, men det er ret snævert i omfang. Han mener, at denne tilgang ikke egner sig til den brede vifte af use cases, som folk har brug for syntetiske data til. Derudover er spilmotorer ikke på det punkt, hvor de ikke kan skelnes fra virkeligheden, og nogle gange kan det have en vigtig effekt på algoritmer.
Hvad Rendered.ai har gjort, sagde Kundtz, er at lave sin platform kan udvides til en bred vifte af forskellige simuleringstyper, og derefter opbygge partnerskaber med de virksomheder, der har dyb ekspertise på disse områder. Ikke kun arbejde med videospilmotorkoder, men indlejring af dyb fysikviden.
Syntetiske data kan være nyttige til at fodre maskinlæringsalgoritmer. Billede: Rendered.ai
Under alle omstændigheder handler det ikke om at simulere den virkelige verden, men snarere at simulere det mesh, du kan skabe af den virkelige verden. Per definition vil simuleringen ikke fange 100% af troskaben i den virkelige verden. Det betyder, at du skal gøre to ting, bemærkede Kundtz.
Den første er at overvinde huller i forhold til virkeligheden for at undgå at introducere artefakter, der kan forvirre AI-modeller. Den anden er at anvende efterbehandlingseffekter for at hjælpe med at overvinde den såkaldte uhyggelige dal og forbedre realismen.
Rendered.ai's platform har to hovedkomponenter: en udviklerramme og et biblioteksmiljø for computerorkestrering. “Alt hvad du kan scripte med Python, kan du sætte ind i den udviklerramme”, som Kundtz udtrykte det. Der er også et visuelt lag, et no-code miljø, som Rendered.ai kalder det, som gør det muligt for folk at generere arbejdsgange uden manuelt at skrive alt.
Men kernen i tilgangen ligger i det Rendered.ai kalder “grafen”. Dette er en visuel måde at definere forskellige typer objekter, deres egenskaber og indbyrdes afhængigheder:
“Graffen definerer ikke bare et stykke data, et billede eller en tabel, men en stokastisk tilgang til at generere dem Så du kan bruge den graf til løbende at generere yderligere data inden for et eller andet domæne”, sagde Kundtz.
I denne sammenhæng definerer Rendered.ai rollerne for den syntetiske dataingeniør og computervisionsingeniøren. Den syntetiske dataingeniør er den person, der skriver scripts, der definerer, hvad der vil være muligt ud fra forskellige grafer. Computervisionsingeniøren indtager grafer og bestemmer, hvad det er for ting, de vil se i et bestemt datasæt.
Samarbejdende platform, inklusive beregning
Kundtz uddybede også processen og de værktøjer, der blev brugt til at indføre en vis mængde tilfældighed, hvor det var nødvendigt. Dette kan være nyttigt for at sikre, at dataene afspejler den virkelige verden, og også for at generere edge cases og teste forskellige scenarier.
Rendered.ai hævder, at en del af innovationen, som dens platform introducerer, er netop definitionen af disse forskellige roller i processen sammen med samarbejdsinfrastrukturen til at understøtte dem. De fleste simuleringsværktøjer og 3D-modellering og spilværktøjer er bygget op omkring en enkelt bruger, men syntetiske data er grundlæggende multidisciplinære, sagde Kundtz.
Onboarding-processen for Rendered.ai starter typisk fra eksisterende kode, som derefter modificeres, så den passer til hver klients behov. Kundtz erkendte, at det er tidlige dage for syntetiske data, så at uddanne kunder og hjælpe dem med at eksperimentere er en del af Rendered.ai's mission.
Det, der hjælper i den henseende, er det faktum, at at få en udvikler- eller virksomhedsplan, for henholdsvis $500/måned og $5000/måned, kommer sammen med databehandling på AWS. Selvom nogle begrænsninger i tilfælde eksisterer, er ideen at give brugerne mulighed for at køre de eksperimenter, de har brug for, uden at bekymre sig for meget om deres AWS-regning. Der er også et gratis niveau tilgængeligt til at teste platformen.
Rendered.ai, som modtog $6 millioner i startfinansiering i 2019, har allerede udgivet en open source-applikation og relateret indhold for at hjælpe brugere ombord til dens platform. Kundtz nævnte, at de vil frigive yderligere open source-applikationer og indhold til flere domæner i et forsøg på at integrere flere brugere.
“Vi kan gøre meget for at hjælpe folk i denne branche. Og jeg tror, det er et af de vigtigste problemer, AI står over for, hvis ikke det vigtigste problem. Så jeg glæder mig til at kunne hjælpe”, konkluderede han.
Udvalgte
Microsoft begynder at udrulle Teams 'Front Row'-visning for bedre hybridmøder De bedste Spotify-alternativer: Dine muligheder for musikstreaming FBI: Svindlere poster falske jobannoncer på netværkssider for at stjæle din identitet Python dominerer, men udviklere tilføjer nye færdigheder for at skille sig ud. Dataanalyse | Digital transformation | CXO | Internet of Things | Innovation | Enterprise Software