Google samarbeider om å bygge lokaliserte store språkmodeller

0
30
digital verdenskonsept EDUARD MUZHEVSKYI/SCIENCE PHOTO LIBRARY/Getty Images

Google slutter seg til samarbeidsarbeid for å bygge store språkmodeller (LLMs) som bedre imøtekommer Sørøst-Asias befolkning og kulturelle blanding. 

Forskeravdelingen vil samarbeide med AI Singapore for å forbedre datasett som brukes til å trene, finjustere og vurdere AI-modeller på språk som er spesifikke for regionen. Initiativet kalles Project Southeast Asian Languages ​​in One Network Data (SEALD), og tar sikte på å “forbedre bevisstheten om kulturell kontekst” i LLM-er bygget for regionen, sa AI Singapore i en uttalelse mandag. 

Også: Fem måter å bruke AI på en ansvarlig måte

Det offentlige byrået la til at samarbeidet først vil fokusere på indonesisk, thai, tamil, filippinsk og burmesisk, med de to partnerne som utvikler translokaliserings- og oversettelsesmodeller i fellesskap. De vil også utvikle verktøy for å hjelpe med å skalere translokaliseringsevner og beste praksis for innstilling av datasett. Førtreningsveiledninger vil bli publisert for sørøstasiatiske språk. 

Alle datasett og utdata fra Project SEALD vil bli utgitt i åpen kildekode, la AI Singapore til.

Initiativet vil ytterligere støtte opplæringsinnsats for modeller under SEA-LION (Southeast Asian Languages ​​in One Network), som Singapore offentlig organ lansert i fjor. 

Også: De beste AI-chatbotene: ChatGPT og andre bemerkelsesverdige alternativer

Den nåværende iterasjonen av SEA-LION, som består av åpen kildekode LLM-er forhåndsutdannet for regionens samfunnsnyanser, kjører på to basismodeller: en tre milliarder parametermodell og en syv milliarder parametermodell. Treningsdataene omfatter 981 milliarder språktokens. AI Singapore definerer disse symbolene som fragmenter av ord som er opprettet fra å bryte ned tekst under tokenisering. Disse fragmentene inkluderer 623 milliarder engelske tokens, 128 milliarder Sørøst-Asia-tokens og 91 milliarder kinesiske tokens.  

Prosjekt SEALD jobber for tiden med en brukssak for å forbedre kommunikasjonen med arbeidsinnvandrere i Singapore, som kan snakke mer flytende på ulike regionale språk enn på engelsk. Datainnsamlingsarbeid vil gjenspeile unike språklige egenskaper i dette fellesskapet og legge grunnlaget for å forbedre engasjementet mellom regjeringen i Singapore og arbeidsgivere.

Datasett og utdata fra Project SEALD vil bli integrert med generative AI-applikasjoner utviklet av Google Cloud og regjeringen i Singapore, under sistnevntes AI Trailblazers-ordning, for å støtte oppsøkende lokalsamfunn. 

Project SEALD-partnerne vil også samarbeide med industrien, inkludert akademia og offentlig sektor, på tvers av funksjoner, som datainnsamling og kvalitetssjekker. Denne innsatsen vil inkludere samarbeid med akademia i forskjellige Sørøst-asiatiske land for å etablere metoder for å evaluere og benchmarke generative AI-applikasjoner i hele regionen. 

Også: Vil du jobbe med AI? Hvordan dreie karrieren din i 5 trinn

AI Singapore planlegger også å gjøre SEA-LION LLMs tilgjengelig på Google Clouds Model Garden på Vertex AI, og gir tilgang til forhåndsverifiserte AI-modeller. De regionale LLM-ene vil bli lagt til Hugging Face, et åpen kildekodelager for AI-verktøy og forhåndstrente modeller som hovedsakelig fokuserer på prosesseringsevner for naturlig språk. 

AI Singapore kunngjorde også mandag Memorandums of Understanding og intensjonsavtaler med ulike organisasjoner i Indonesia, Malaysia og Vietnam for å utvikle datasett og applikasjoner for regionale LLM-er. 

I tillegg sa Singapore-byrået at det jobber med partnere i Indonesia, Thailand og Filippinene for å bygge ressurser på regional språksyntaks og semantikk. Disse inkluderer Thailands Vidyasirimedhi Institute of Science and Technology og Filippinene. Ateneo Social Computing Science Laboratory.

I 2022 avduket Google Research et partnerskap med Indian Institute of Science for å jobbe med Project Vaani, som har som mål å samle anonymiserte taledata på tvers av 773 distrikter og bygge en LLM som representerer landets mangfoldige befolkning. 

Også: Fortrenger en rask ingeniør dataforsker som den 'sexeste jobben i det 21. århundre?

Forrige uke var AI Singapores direktør for AI-innovasjon Laurence Liew ba generative AI-spillere om å innlemme regionale og lokale datamodeller for å sikre at produktene deres bedre gjenspeiler en mangfoldig global befolkning. Integrering av SEA-LION, for eksempel, vil hjelpe generative AI-verktøy til å generere mer nøyaktige svar, sa Liew, og la merke til at den regionale LLM genererte en mer nøyaktig prediksjon sammenlignet med en global offentlig plattform når du ble spurt om et nylig valg i Asia.

< p>Han la til at de fleste offentlige generative AI-verktøy i dag er ikke-asiatisk fokuserte og kan ha iboende databias. LLM-er som SEA-LION er mer “kulturelt sensitive”, noe han sa vil sikre generative AI-genererte svar bedre reflekterer regionens samfunnssammensetning.