FRANÇAIS

Lire des articles derrière paywalls, en se faisant passer comme Googlebot

880

L’Internet est à un point de basculement. La poursuite de la hausse de adblocking a mis fin au modèle de revenu qui repose uniquement sur les annonces de dollars pour exploiter des sites web et les entreprises.

En particulier les sites d’informations ont commencé à expérimenter avec des moyens de diversifier les sources de revenu, et une importante option que des sites comme Le Wall Street Journal, Financial Times, The New York Times ou Le Washington Post ont tous mis en œuvre est le paywall système.

Il existe différents types de paywalls, mais ils ont tous en commun le fait qu’ils bloquent l’accès au contenu, que ce soit directement ou après un certain nombre d’articles ont été lus sur le site.

Les visiteurs sont ensuite invités à s’inscrire sur le site pour continuer à lire les articles sur elle.

news site paywall

Il peut faire sens à partir d’un point de vue commercial, et peut-être plus payant que de se battre avec les utilisateurs qui exécutent des adblockers, mais il ya un inconvénient à la fois pour la paywalled site et l’utilisateur bloqué.

Les Sites de perdre un pourcentage élevé de visiteurs s’ils mettent en œuvre un paywall système. Il est difficile de savoir quel est le pourcentage est vraiment, et c’est probablement varie d’un site à l’autre, mais il est probablement beaucoup plus élevé que le pourcentage de visiteurs qui s’inscrivent sur le site après avoir été présenté avec la possibilité de s’inscrire pour lire l’article souhaité.

La mascarade de votre navigateur

C’est pas un secret que les sites de news de permettre l’accès à des agrégateurs d’actualités et les moteurs de recherche. Si vous cochez la case Google Actualités ou de Recherche, par exemple, vous trouverez des articles de sites avec des paywalls qui y sont énumérés.

Dans le passé, des sites de presse a permis d’accès pour les visiteurs en provenance de grands agrégateurs d’actualités tels que Reddit, Digg ou Slashdot, mais cette pratique semble être aussi bon que mort aujourd’hui.

Un autre truc, pour coller le titre de l’article dans un moteur de recherche pour lire la version en cache de l’histoire sur elle directement, ne semble pas fonctionner plus correctement ainsi que des articles sur des sites avec des paywalls ne sont généralement pas mis en cache plus.

User-Agent et Référent

Vous vous demandez probablement comment les sites de bloquer ou d’autoriser l’accès au contenu du site. Les méthodes sont améliorées au fil des années, et il ne suffit plus de simplement changer le référent de l’navigateur https://www.google.com/ pour accéder à un contenu du site.

Au lieu de cela, les sites de l’utilisation de différents contrôles que l’utilisateur de l’agent, référent et des biscuits, et parfois même plus que cela, pour déterminer la légitimité de l’accès.

Informations générales

Probablement la meilleure façon de se faire passer pour le navigateur afin de le faire apparaître à Googlebot.

Référent: https://www.google.com/
User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

Firefox

referrer

Les utilisateurs de Firefox ont besoin de deux modules complémentaires du navigateur pour que la première, RefControl, pour changer le référent de la valeur lors de la visite des sites de nouvelles, la seconde, User Agent Switcher, de changer l’user agent du navigateur.

Télécharger et installer les extensions du navigateur web Firefox.
Appuyez sur la touche Alt et sélectionnez Outils > RefControl Options.
Cliquez sur “ajouter un site”, entrez un nom de domaine en vertu du site, sélectionnez une action personnalisée, et entrez https://www.google.com/ comme référent.
Répétez cette opération pour tous les sites d’informations vous souhaitez accéder (certains peuvent ne pas fonctionner même si vous apportez les modifications, donc gardez cela à l’esprit).
Lorsque vous avez terminé, fermez la fenêtre de configuration.
Appuyez sur la touche Alt de nouveau, et sélectionnez Outils > par Défaut de l’Agent Utilisateur > Modifier les Agents d’Utilisateur à partir du menu.
Sélectionnez Nouveau > Agent Utilisateur, et de remplacer la chaîne de l’Agent Utilisateur de domaine avec Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html). Nom il Googlebot.
Quitter le menu.
Avant d’accéder à ces sites, appuyez sur la touche Alt enfoncée et sélectionnez par Défaut de l’Agent Utilisateur > Googlebot.

C’est tout là est à lui. C’est un peu regrettable qu’il n’existe aucune extension pour Firefox qui change de l’agent de l’utilisateur automatiquement en fonction des sites que vous visitez.

Google Chrome

Les utilisateurs de Google Chrome peuvent installer l’extension User Agent Switcher et Referer de Contrôle qui sont disponibles pour le navigateur à faire de même.

Il existe cependant une autre possibilité, c’est de créer une extension personnalisée qui automatise le processus dans le navigateur.

Des Instructions sont fournies sur Elaineou. Tout ce qu’il faut, pour l’essentiel, est de créer un nouveau répertoire sur l’ordinateur local, créer les deux fichiers background.js et le manifeste.json à l’intérieur, et de copier et de coller le code trouvé sur le site dans les fichiers.

Vous devez activer le “mode développeur” sur chrome://extensions/, puis sélectionnez “load déballé extension” pour choisir le dossier que vous avez créé les deux fichiers à charger l’extension dans Chrome.

Vous pouvez modifier la liste des sites il prend en charge pour en ajouter de nouveaux.