Læs artikler bag paywalls ved at maskere sig som Googlebot

0
331

Internettet er ved et vendepunkt. Den fortsatte stigning af adblocking har sat en stopper for den forretningsmodel, der bygger udelukkende på ad dollars til at operere hjemmesider og virksomheder.

Især nyheder sites er begyndt at eksperimentere med måder at diversificere indtægtskilder, og en fremtrædende mulighed for, at websteder, som Wall Street Journal, Financial Times, New York Times eller Washington Post har alle gennemført, er paywall system.

Der er forskellige typer af paywalls, men de har alle det til fælles, at de blokere for adgang til indhold, der enten direkte eller efter et bestemt antal artikler, der har været læs på ejendommen.

Besøgende bliver derefter bedt om at abonnere på webstedet til at fortsætte med at læse artikler om det.

news site paywall

Det kan give mening ud fra et forretningsmæssigt synspunkt, og kan være mere indbringende end kursusrække det ud med brugere, der kører adblockers, men der er en ulempe at det både for den paywalled stedet, og den blokerede bruger.

Steder miste en stor procentdel af besøgende, hvis de gennemfører en paywall system. Det er uklart, i hvor høj procentdel virkelig er, og det er nok forskelligt fra sted til sted, men det er sandsynligvis en del højere end procentdelen af besøgende, der abonnerer på stedet efter at være blevet præsenteret for de valg, til at tegne abonnement for at læse den ønskede artikel.

Maskerade din browser

Det er ingen hemmelighed, at nyheder sites giver adgang til nyheder indsamlinger og søgemaskiner. Hvis du ind i Google Nyheder eller Søg for eksempel, vil du finde artikler fra sites med paywalls, der er opført der.

I fortiden, nyheder sites, der har adgang til besøgende, der kommer fra de store nyheder nyhedslæsere som Reddit, Digg eller Slashdot, men at praksis synes at være så godt som død i dag.

Et andet trick, for at indsætte den artikel titel i en søgemaskine for at læse den cachelagrede historien om det direkte, synes ikke at fungere korrekt længere, samt artikler om steder med paywalls er normalt ikke cached længere.

User-Agent og Inviterende

Du er formentlig undrende, hvordan websteder for at blokere eller tillade adgang til webstedets indhold. De metoder, der er blevet forbedret gennem årene, og det er ikke længere nok blot at ændre den henvisende af browseren til at https://www.google.com/ for at få fuld adgang til webstedets indhold.

I stedet websteder bruger forskellige former for kontrol, der omfatter user-agent, inviterende og cookies, og nogle gange endda mere end det, for at finde legitimiteten af adgang.

Generelle oplysninger

Sandsynligvis den bedste måde at passere den browser til at gøre det ud til at være Googlebot.

  • Referrer: https://www.google.com/
  • User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

Firefox

referrer

Firefox-brugere skal have to browser add-ons til at: den første, RefControl, at ændre den referrer-værdi, når du besøger nyhedskilder, den anden, User Agent Switcher, til at skifte user agent i browseren.

  1. Hent og installer både udvidelser i Firefox web-browser.
  2. Tryk på Alt-tasten, og vælg Værktøjer > RefControl Valg.
  3. Klik på “tilføj side”, skal du indtaste et domænenavn i henhold til webstedet, skal du vælge brugerdefineret handling, og enter https://www.google.com/ som den henvisende.
  4. Gentag dette for alle nyheder websteder du vil have adgang til (nogle af dem kan ikke arbejde, selv hvis du laver ændringer, så holder det i tankerne).
  5. Når du er færdig, luk indstillingsvinduet.
  6. Tryk på Alt-tasten, og vælg Værktøjer > Standard User-Agent > Rediger Bruger Agenter fra menuen.
  7. Vælg Ny / nyt > User Agent, og erstatte strengen i User Agent felt med Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Name it Googlebot.
  8. Afslut menuen.
  9. Før du får adgang til disse steder, skal du trykke på Alt, og vælg Standard User-Agent > Googlebot.

Det er alt der er til det. Det er lidt uheldigt, at der ikke er nogen udvidelse til Firefox, der ændrer brugerens agent automatisk baseret på de websteder, du besøger.

Google Chrome

Google Chrome-brugere kan installere udvidelser som User Agent Switcher og Referer Kontrol, der er til rådighed for browseren at gøre det samme.

Der er dog en anden mulighed, og det er at oprette en brugerdefineret forlængelse, som automatiserer processen i browseren.

Der findes instruktioner på Elaineou. Alle det tager, dybest set, er at oprette en ny mappe på den lokale computer, skal du oprette to filer background.js og manifest.json inde i den, og kopiere og indsætte den kode, som findes på webstedet til filer.

Du er nødt til at slå “developer mode” på chrome://extensions/, og kan derefter vælge “load udpakket udvidelse” for at vælge den mappe, du har oprettet de to filer i at indlæse en udvidelse i Chrome.

Du kan ændre den liste over lokaliteter, og det støtter til at tilføje nye.