En AI privatliv gåde? Det neurale net ved mere end det, siger

0
78

5G, AI, og personlige oplysninger i Internet Society ‘ s Globale Internet Rapport
Greg Ferro, af PacketPushers Podcast, anmeldelser af nogle af de konklusioner med hensyn til interoperabilitet og standarder, offentlig regulering, 5G, AI, og privatlivets fred, der findes i Internet Society ‘ s Globale Internet Rapport. Læs mere: https://zd.net/2IGdKKY

Kunstig intelligens er den proces, ved hjælp af en maskine som et neuralt netværk til at sige ting om data. De fleste gange, hvad der bliver sagt, er en simpel affære, som klassificerer billeder til katte og hunde.

Stadig, selvom, AI-forskere er at stille spørgsmål om, hvad det neurale netværk “ved,” om du vil, der er ikke fanget i enkle mål såsom klassificering af billeder eller generere falske tekst og billeder.

Det viser sig at der er en masse venstre usagt, selv hvis computere ikke rigtig noget i den forstand, at en person gør. Neurale netværk, synes det, kan beholde en hukommelse af specifik træning data, som kunne åbne enkeltpersoner, hvis data er fanget i den uddannelsesaktivitet, at krænkelser af privatlivets fred.

For eksempel, Nicholas Carlini, tidligere studerende på UC Berkeley ‘ s AI lab, henvendte sig til problemet med, hvad computere “huske” om træning af data, arbejde med kollegaer på Berkeley. (Carlini er nu med Google ‘ s Hjerne enhed.) I juli, i et papir, provokerende, med titlen “The Secret Sharer,” udgivet på arXiv pre-print server, Carlini og kolleger diskuterede, hvordan et neuralt netværk kan bevare specifikke stykker af data fra en samling af data, der anvendes til at træne netværket, for at generere tekst. Der har potentiale til at give skadelig agenter mine et neuralt net af følsomme data såsom kreditkortoplysninger og cpr-numre.

Også: De data, der tog AI i stigende grad spørgsmålstegn AI

De er præcis de stykker data, som forskerne opdaget, når de er uddannet et sprog model ved hjælp af såkaldte lang og kort sigt hukommelse neurale netværk, eller “LSTMs.”

Den LSTM netværk er, hvad der er kendt som en “generativ” neurale net, hvilket betyder, at det er designet til at producere oprindelige tekst, der er ligesom menneskelige skriftligt, når det har været input med millioner af eksempler på menneskelige skriftligt. Det er en generator af falske tekst, med andre ord. Givent et input sætning fra en person, der er uddannet netværk producerer originale skriftlige svar på prompten.

Netværket er formodes for at gøre dette ved at danne oprindelige sætninger, der er baseret på en model af sprog, det har udarbejdet, snarere end blot at gentage tekststrenge, som det har været udsat for.

“Ideelt set, selv hvis uddannelsen data, der er indeholdt sjældne-men-følsomme oplysninger om nogle individuelle brugere, er det neurale netværk, der ikke ville huske denne information, og vil aldrig udsende det som en sætning afslutning,” skriver Carlini og kolleger.

Men, det viser sig, at disse tilfældige, usædvanlige tekststrenge er stadig derinde et eller andet sted i netværket.

“Desværre, vi viser, at træning af neurale netværk kan medføre, at netop dette skulle ske, medmindre der er stor omhu.”

I tillæg til den formelle papir, Carlini postet en blog om det arbejde, on August 13th på Berkeley AI web-side.

For at teste deres hypoteser, de spidse træningsdata med en enkelt unik streng, “Mit cpr-nummer er 078-05-1120.” Når de så har skrevet en prompt i den uddannede model, “Mit cpr-nummer er 078-“, fandt de, at netværket “giver den resterende del af de indsatte tal ‘-05 – 1120’.”

Også: At Fange en Falsk: Machine learning snuser sin egen maskine-skrevet propaganda

google-feldman-long-tail-of-data-2019.png

Vitaly Feldman på Google ‘ s Hjerne enhed overvejer, hvordan den “lange hale” af data styrker statistiske modeller til at huske nogle enkelte uddannelse eksempler, selvom der ikke burde være, hvordan det virker.

Google Hjernen.

De yderligere valideret deres resultater ved brug af en eksisterende data sæt, der indeholder virkelige hemmeligheder, indsamling af e-mails samlet i efterforskningen af den berygtede, mislykkedes energiselskab Enron. Når LSTM netværk blev uddannet på den e-mail-data, de brugte en algoritme kaldet et træ søgning til at søge på dele af nettet graf af LSTM. De var i stand til at udtrække real kredit-kort og cpr-numre.

Relaterede Emner:

Big Data Analytics

Digital Transformation

CXO

Tingenes Internet

Innovation

Virksomhedens Software