Les artikler bak paywalls av maskert som Googlebot

0
156

Internett er på et vippepunkt. Den fortsatte økningen av adblocking har satt en stopper for inntekter modell som baserer seg utelukkende på kronene for å operere nettsteder og bedrifter.

Spesielt nyheter har begynt å eksperimentere med måter å diversifisere inntektskilder, og en fremtredende alternativet at nettsteder som The Wall Street Journal, Financial Times, New York Times og The Washington Post har alle gjennomført er paywall system.

Det finnes ulike typer paywalls men de har alle til felles at de blokkerer tilgang til innhold, enten direkte eller etter et visst antall artikler som har blitt lest på stedet.

Besøkende blir deretter bedt om å abonnere på nettstedet, til å fortsette å lese artikler på det.

news site paywall

Det kan være fornuftig fra et forretningsmessig synspunkt, og kan være mer lønnsom enn kjemper det ut med brukere som kjører adblockers, men det er en downside til det både for paywalled nettstedet og blokkert bruker.

Nettsteder miste en høy prosentandel av besøkende hvis de gjennomfører en paywall system. Det er uklart hvor høy prosentandel egentlig er, og det er sannsynligvis varierer fra nettsted til nettsted, men det er sannsynlig mye høyere enn prosentandelen av besøkende som abonnerer på stedet etter å ha blitt presentert med valget om å abonnere for å lese ønsket artikkel.

Masquerade nettleseren

Det er ingen hemmelighet at nettsider tillater tilgang til nyheter aggregatorer og søkemotorer. Hvis du merker av for Google Nyheter eller Søk for eksempel, vil du finne artikler fra områder med paywalls som er oppført der.

I det siste, nyheter tilgang til besøkende som kommer fra store nyhetsaggregatorer som Reddit, Digg eller Slashdot, men at praksis synes å være så godt som døde i dag.

Et annet triks, for å lime artikkelen tittelen i en søkemotor for å lese den bufrede historie på det direkte, ser ikke ut til å fungere lenger, så vel som artikler på nettsteder med paywalls er vanligvis ikke bufret lenger.

User-Agent og Referent

Du er sikkert lurer på hvordan nettsteder blokkere eller tillate tilgang til innholdet på nettstedet. Metodene har forbedret gjennom årene, og det er ikke lenger nok å bare endre ververen i nettleseren for å https://www.google.com/ for å få full tilgang til innholdet på nettstedet.

I stedet, nettsteder bruker ulike sjekker som inkluderer user-agent, referent og cookies, og noen ganger enda mer enn det, for å avgjøre lovligheten av tilgang.

Generell informasjon

Trolig den beste måten å utgi seg for leseren er å gjøre det synes å være Googlebot.

  • Henvisningsadresse: https://www.google.com/
  • User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

Firefox

referrer

Firefox-brukere trenger to nettleser add-ons for at: den første, RefControl, for å endre verver verdi når du besøker nettsider, andre, User Agent Switcher, for å endre user-agent i nettleseren.

  1. Laste ned og installere utvidelser i Firefox nettleser.
  2. Trykk på Alt-tasten, og velg Verktøy > RefControl Valg.
  3. Klikk på “add site”, skriv inn et domenenavn under nettstedet, velger du egendefinert handling, og skriv inn https://www.google.com/ som referent.
  4. Gjenta dette for alle nyheter områder du vil ha tilgang (noen vil kanskje ikke fungere selv om du gjør endringer, så hold det i tankene).
  5. Når du er ferdig, lukker du vinduet konfigurering.
  6. Trykk på Alt-tasten, og velg Verktøy > Standard User Agent > Rediger Bruker Agenter fra menyen.
  7. Velg Ny – > User-Agent, og erstatte strengen i User Agent feltet med Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Name it, Googlebot.
  8. Gå ut av menyen.
  9. Før du får tilgang til disse sidene, trykker du på Alt-tasten, og velg Standard User Agent > Googlebot.

Dette er alt det er til det. Det er litt uheldig at det ikke er noen utvidelse for Firefox som endrer brukeragent automatisk basert på nettstedene du besøker.

Google Chrome

Google Chrome-brukere kan installere utvidelser som Bruker Agent Switcher og Referer Kontroll som er tilgjengelig for leseren å gjøre det samme.

Det er imidlertid en annen mulighet, og det er å opprette en egendefinert extension som automatiserer prosessen i nettleseren.

Instruksjonene som er gitt på Elaineou. Alt det tar, i utgangspunktet, er å opprette en ny katalog på den lokale datamaskinen, kan du opprette to filer background.js og manifest.json inne i den, og kopier og lim inn koden funnet på nettstedet til filene.

Du må aktivere “utvikler-modus” på chrome://utvidelser/, og deretter kan du velge “legg pakket utvidelse” for å velge mappen du har laget to filer i til legg extension i Chrome.

Du kan endre listen over nettsteder som den støtter å legge til nye.