Över 100 000 GitHub repor ha läckt API eller kryptografiska nycklar

0
148
180702-github-example-page.jpg

×

180702-github-example-page.jpg

En genomsökning av miljarder av filer från 13 procent av alla GitHub offentliga arkiv under en period av sex månader har visat att över 100 000 repor ha läckt API-tokens och kryptografiska nycklar, med tusentals nya arkiv läckande nya hemligheter på en daglig basis.

Scan har varit föremål för akademisk forskning som utförs av ett team från North Carolina State University (NCSU), och studiens resultat har delat med GitHub, som agerade på resultaten för att påskynda sitt arbete med en ny säkerhetsfunktion som kallas Token Skanning, för närvarande i beta.

Akademiker skannade miljarder GitHub filer

Den NCSU studien är den mest omfattande och djupgående GitHub skanna till datum och överträffar alla tidigare forskning i sitt slag.

NCSU akademiker skannade GitHub står för en period på nästan sex månader, mellan den 31 oktober 2017, och den 20 April 2018, och tittade efter textsträngar formaterad som API-tokens och kryptografiska nycklar.

De inte bara använda GitHub-Sök-API för att leta efter dessa textmönster, som andra tidigare forskning, men de har också tittat på GitHub repository ögonblicksbilder som registreras i Google ‘ s BigQuery databas.

Hela sex-månaders period, forskare analyserade miljarder filer från miljontals GitHub förråd.

I en forskningsrapport som publicerades förra månaden, tre-man NCSU team sade att de fångas och analyseras 4,394,476 filer som representerar 681,784 repor använda GitHub-Sök-API, och en annan 2,312,763,353 filer från 3,374,973 repor som hade spelats in i Googles BigQuery databas.

NCSU team skannade för API polletter från 11 företag

Inuti denna gigantiska högen av filer, såg forskarna för textsträngar som var i form av särskilt API polletter eller kryptografiska nycklar.

Eftersom inte alla API-tokens och kryptografiska nycklar är i samma format, NCSU lag beslutade den 15 API-token format (från 15 tjänster som hör till 11 företag, av vilka fem var från Alexa Top 50), och fyra kryptografisk nyckel format.

Detta ingår API-nyckel format som används av Google, Amazon, Twitter, Facebook, Mailchimp, MailGun -, Rand -, Twilio, Torg, Braintree, och Picatic.

NCSU GitHub scan tested APIs

Bild: Meli et. al

×

ncsu-github-scan-testas-api: er.png

Resultaten kom tillbaka direkt, med tusentals av API och kryptografiska nycklar läckage upptäcks varje dag i forskningsprojektet.

Totalt NCSU team sa att de tyckte 575,456 API och kryptografiska nycklar som 201,642 var unik, alla sträcker sig över mer än 100 000 GitHub projekt.

NCSU GitHub scan results

Bild: Meli et. al

×

ncsu-github-scan-resultat.png

En observation som forskargruppen gjort i deras akademisk uppsats var att de “hemligheter” som finns med Google Search API och kära via Google BigQuery dataset hade också lite överlappning.

“Efter att båda samlingarna har vi bestämt att 7,044 hemligheter, eller 3.49% av den totala, sågs i båda datamängderna. Detta tyder på att våra metoder är i hög grad kompletterar varandra,” forskarna säger.

Dessutom, de flesta av API-tokens och kryptografiska nycklar –93.58 procent– kom från en enda ägare konton, snarare än flera ägare förråd.

Vad detta innebär är att den stora majoriteten av API och kryptografiska nycklar som finns av NCSU laget var mest sannolikt giltiga mynt och nycklar som används i den verkliga världen, som multi-ägare står oftast tenderar att innehålla testa polletter som används för delad-test-miljöer och med i-dev-kod.

Läckt API och krypto-nycklar för att hänga runt i flera veckor

Eftersom projektet också ägde rum under en sex månaders period, forskare hade också en chans att observera om och när hänsyn ägare skulle inse att de har läckt API och kryptografiska nycklar, och ta bort känsliga data från sin kod.

Teamet sa att sex procent av API och kryptografiska nycklar som de har spårat togs bort inom en timme efter att de har läckt ut, vilket tyder på att dessa GitHub ägarna insåg sitt misstag direkt.

Över 12 procent av nycklar och symboliska mynt som var borta efter en dag, medan 19 procent stannade till så mycket som 16 dagar.

“Detta innebär också att 81% av de hemligheter vi upptäcker inte bort,” forskarna säger. “Det är troligt att utvecklarna för detta 81% antingen inte känner till hemligheter håller på att begås eller underskattar risken för att kompromissa.”

NCSU GitHub scan timeline

Bild: Meli et. al

×

ncsu-github-scan-tidslinje.png

Forskargruppen avslöjar några uppmärksammade läckor

Den extra kvaliteten av dessa avsökningar var tydlig när forskare började titta på vad och där var några av dessa läckor var sitt ursprung.

“I ett fall fann vi vad vi anser vara AWS referenser för en stor webbplats som åberopas av miljontals högskola sökande i Usa, möjligen läckt ut av en entreprenör,” NCSU laget sa.

“Vi fann också AWS referenser för webbplatsen av en större statlig myndighet i en Västra Europeiska landet. I så fall, vi har kunnat kontrollera giltigheten av konto, och även specifika utvecklare som begått hemligheter. Detta utvecklare hävdar i sin online-närvaro har nästan 10 års erfarenhet av utveckling.”

I ett annat fall, har forskarna också funnit 564 Google API-nycklar som används av en sajt på nätet till kjol YouTube hastighetsgränser och ladda ner YouTube-videor som de skulle senare vara värd på en annan video att dela portal.

“Eftersom antalet nycklar är så hög, vi misstänker (men kan inte bekräfta att dessa nycklar kan ha erhållits på ett bedrägligt sätt,” NCSU forskarna säger.

Sist, men inte minst, har forskarna också funnit 7,280 RSA-nycklar inne OpenVPN config-filer. Genom att titta på andra inställningar som finns inuti dessa konfigurationsfiler, forskare säger att den stora majoriteten av användare har inaktiverat lösenord för autentisering och förlitar sig enbart på RSA-nycklar för autentisering, vilket innebär att vem som helst som hittade dessa knappar kunde ha fått tillgång till tusentals privata nätverk.

Den höga kvaliteten på scan resultat var också tydligt när forskarna använde andra API-token-scanning verktyg för att analysera sina egna dataset, för att bestämma effektiviteten av deras skanna systemet.

“Våra resultat visar att TruffleHog är i stort sett verkningslösa på att upptäcka hemligheter, som i sin algoritm bara upptäckas 25.236% av hemligheterna i vår Sökning dataset och 29.39% i BigQuery dataset,” forskning laget sa.

GitHub är medvetna om och på jobbet

I en intervju med ZDNet idag, Brad Reaves, Biträdande Professor vid Institutionen för datavetenskap vid North Carolina State University, sade att de delade studiens resultat med GitHub 2018.

“Vi har diskuterat resultaten med GitHub. De inledde ett internt projekt för att identifiera och informera utvecklarna om läckte hemligheter till höger runt den tiden var vi avsluta vår studie. Detta projekt var offentligt erkänt i oktober 2018,” Reaves sagt.

“Vi fick höra att de följer ytterligare hemligheter utöver de som anges i dokumentationen, men att vi inte gett mer information.

“Eftersom läckage av denna typ är så genomgripande, att det skulle ha varit mycket svårt för oss att meddela alla som berörs utvecklare. En av de många utmaningar som vi står inför är att vi helt enkelt inte har ett sätt att få säkra kontaktinformation för GitHub-utvecklare på skalan,” Reaves läggas till.

“Vid den tid då våra papper gick i tryck, vi försökte att arbeta med GitHub för att göra anmälningar, men med tanke på den överlappning mellan våra token scanning och de, som kände en ytterligare anmälan var inte nödvändig.”

API-nyckel läckage-ett känt problem

Problemet med utvecklare lämnar sitt API och kryptografiska nycklar i appar och webbplatser som ” source code är inte ny. Amazon har uppmanat webb-devs att söka sin kod och ta bort eventuella AWS nycklar från allmänheten repor så långt som 2014, och har även släppt ett verktyg för att hjälpa dem att skanna repor innan begå någon kod för att en offentlig repo.

Vissa företag har tagit på sig att skanna GitHub och andra code-sharing slutförvar för accidentaly utsatt API-nycklar, och återkalla den tokens även innan API-nyckel ägare märker läcka eller missbruk.

Vad NCSU studie har gjort var att ge den mest djupgående titt på detta problem hittills.

Det papper som Reaves skrivit tillsammans med Michael Meli och Matthew R. McNiece är den med titeln “Hur Illa Kan Det Gå? Kännetecknande Hemliga Läckage i Allmänna GitHub Förråd,” och finns tillgänglig för nedladdning i PDF-format.

“Våra resultat visar att hanteringen av autentiseringsuppgifter i öppen källkod förråd är fortfarande en utmaning för nybörjare och experter,” Reaves berättade för oss.

Relaterade förmåner:

Microsoft släpper Ansökan Vakt tillägg för Chrome och FirefoxGoogle öppna källor för sandbox C/C++ – bibliotek på LinuxMicrosoft att fixa en “ny bugg klass’ upptäckt av Google engineerKaspersky filer antitrust klagomål mot Apple i RussiaAT&T, Comcast framgångsrikt test SKAKAD/RÖR-protokollet för att bekämpa robocallsNokia firmware blunder skickas vissa användardata till Kina
Slaka nya enterprise-klass säkerhet verktyg kan du lägga till krypteringsnycklar TechRepublicAmazon är Rekognition programvara kan polisen spåra ansikten CNET

Relaterade Ämnen:

Öppen Källkod

Säkerhet-TV

Hantering Av Data

CXO

Datacenter