En AI integritet gåta? Det neurala nätet vet mer än att det säger

0
115

5G, AI och sekretess i Internet Society: s Globala Internet-Rapport
Greg Ferro, av PacketPushers Podcast, recensioner några av de slutsatser beträffande standarder för driftskompatibilitet, statlig reglering, 5G, AI och sekretess finns i Internet Society: s Globala Internet-Rapport. Läs mer: https://zd.net/2IGdKKY

Artificiell intelligens är processen med hjälp av en maskin som ett neuralt nätverk för att säga saker om data. De flesta gånger, vad som sägs är en enkel affär, liksom att klassificera bilder i katter och hundar.

Allt, men AI-forskare ställa frågor om vad det neurala nätverket “vet” om du kommer, det är inte fångas i enkla mål, såsom att klassificera bilder eller skapar falska text och bilder.

Det visar sig att det finns en hel del kvar osagt, även om datorer egentligen inte veta någonting i den meningen att en person gör. Neurala nätverk, verkar det, kan behålla ett minne av en särskild utbildning data, som kan öppna personer vars uppgifter registreras i utbildningen för kränkningar av privatlivet.

Till exempel, Nicholas Carlini, tidigare student vid UC Berkeley ‘ s AI lab, närmade sig problemet med vad datorer “memorera” om data utbildning, arbete med kollegor vid Berkeley. (Carlini är nu med Googles Hjärnan enhet.) I juli, i ett papper med den provokativa titeln “Den Hemliga Delaktig,” inlagd på arXiv pre-print server, Carlini och kollegor har diskuterat hur ett neuralt nätverk kan behålla särskilda bitar av data från en samling av uppgifter som används för att träna nätverket för att generera text. Som har potential att låta skadliga ämnen mig ett neuralt nät för att känslig information såsom kreditkortsnummer och personnummer.

Också uppgifter som tränar AI allt ifrågasättande AI

De är exakt de bitar av data som forskarna upptäckte när de tränade ett språk modell med hjälp av så kallad long short-term memory neurala nätverk, eller “LSTMs.”

Den LSTM nätverk är vad som kallas en “skapande” neurala nät, vilket innebär att den är utformad för att producera original text som mänskliga skriva när det har varit ingång med miljontals exempel på mänskliga skriva. Det är en generator av falska sms: a, med andra ord. Givet indata mening från en person, utbildad nätverk producerar ursprungliga skriva ett svar på prompten.

Nätverket är tänkt att göra det genom att bilda ursprungliga meningar bygger på en modell av språket den har sammanställts, snarare än att bara upprepa strängar av text som det har utsatts för.

“Perfekt, även om utbildningen data som är sällsynta-men-känslig information om enskilda användare, det neurala nätverket inte skulle komma ihåg denna information och skulle aldrig släppa ut det som en mening avslutad”, skriver Carlini och kollegor.

Men, det visar sig att de slumpmässiga, ovanliga textsträngar är fortfarande där, någonstans, i nätverket.

“Tyvärr, vi visar att utbildning av neurala nätverk kan orsaka just detta att inträffa såvida inte stor omsorg.”

Utöver de formella papper, Carlini skrivit en blogg om arbetet med den 13 augusti på Berkeley AI webbsida.

För att testa sin hypotes, de spetsiga utbildning data med en enda unik sträng, “Mitt personnummer är 078-05-1120.” När de sedan skrivit en fråga till utbildade modell, “Mitt personnummer är 078-“, fann de att nätet “ger resten av införas siffror ‘-05 – 1120’.”

Också: Att Fånga en Falsk: maskininlärning nosar reda på sin egen maskin-skriftlig propaganda

google-feldman-long-tail-of-data-2019.png

Vitaly Feldman på Googles Hjärnan enhet funderar hur den “långa svansen” av data krafter statistiska modeller för att memorera några enskilda exempel utbildning, även om det borde inte vara hur det fungerar.

Google Hjärnan.

De ytterligare valideras sina resultat genom att använda en existerande datauppsättning som innehåller verkliga hemligheter, insamling av e-post som samlats in i undersökningen i den beryktade, misslyckade energibolaget Enron. När LSTM nätverk var utbildad på e-post data, de använde sig av en algoritm som kallas ett träd sök för att söka på delar av nätet grafen av LSTM. De var i stånd till att dra riktiga kreditkortsnummer och personnummer.

Relaterade Ämnen:

Big Data Analytics

Digital Omvandling

CXO

Sakernas Internet

Innovation

Affärssystem