Google hoopt te standaardiseren robots.txt door open source

0
104

Google Drive of OneDrive: Hoe kies ik de juiste cloud-opslag
Dat is de beste cloud-opslag en collaboration service voor uw behoeften? Is een gratis optie goed genoeg? Ed Bott praat TechRepublic ‘ s Karen Roby over de voors en tegens van de top twee leveranciers — en een paar alternatieven. Lees meer: https://zd.net/2J3Ccb9

Google is loslaten robots.txt de open-source gemeenschap, in de hoop dat het systeem, op een dag, steeds een stabiele internet-standaard.

Op maandag, de tech-gigant geschetst van de beweging te maken van het Robots Exclusion Protocol (REP) — beter bekend als robots.txt — open-source, naast de matching C++ – bibliotheek.

REP is een manier voor webmasters om het gedrag bepalen van de code probeert een website te bezoeken. De oorspronkelijke schepper, Martijn Koster, vond dat zijn website werd overweldigd door crawlers en dus in een poging te verminderen server stam, ontwikkelde de eerste standaard in 1994.

Commando ‘ s kunnen worden doordrenkt in een tekst bestand die beslist over het gedrag van de rupsen en of ze wel of niet mogen bezoeken van een domein bij alle.

Echter, REP niet een officiële standaard en dus sinds de jaren 1990, het protocol is op verschillende manieren uitgelegd, en het is niet bijgewerkt voor het moderne gebruik van de gevallen.

Zie ook: Google claimt de naleving van fiscale regels, rug duwen voor internationale norm

“Dit is een uitdagend probleem voor website-eigenaren, omdat de onduidelijke de-facto standaard maakte het moeilijk om te schrijven de regels correct” Google zegt. “We wilden helpen website-eigenaren en ontwikkelaars maken van fantastische ervaringen op het internet in plaats van zich zorgen te maken over hoe de controle van de rupsbanden.”

Google heeft nu gemaakt ontwerp REP documentatie en heeft het voorstel aan de Internet Engineering Task Force (IETF), een organisatie die bevordert vrijwillige Internet-standaarden.

Het voorstel verandert niets aan de regels oorspronkelijk opgericht in 1994 door de Koster, maar niet uit te breiden robots.txt parseren en de matching voor moderne websites zoals het opnemen van FTP en CoAP naast HTTP.

TechRepublic: Je betaalt meer voor .org .info domeinen volgende ICANN is het opheffen van de tariefplafonds

Daarnaast is Google heeft voorgesteld dat de eerste 500 kibibytes van een robots.txt bestand moet worden geanalyseerd om het verminderen van de belasting van de server, en een maximale caching tijd van 24 uur kan ook worden uitgevoerd om te voorkomen dat websites worden overspoeld met indexering aanvragen.

Google is momenteel op zoek naar feedback over het ontwerp-regels.

CNET: Google Doodle wedstrijd voor kinderen openbaart top 5 finalisten

“Als we werk voor web makers van de controles die zij nodig hebben om ons te vertellen hoeveel informatie ze beschikbaar wilt maken voor Googlebot, en bij uitbreiding in aanmerking komt om te worden weergegeven in de zoekresultaten, moeten we ervoor zorgen dat we dit recht,” Google toegevoegd.

Vorige en aanverwante dekking

Het is officieel: Samsung kondigt de Galaxy Note op 10 Aug. 7
Google kondigt Equiano, een eigen onderzeese kabel van Europa naar Afrika
Dapper trotseert Google gaat naar de verlamde van ad-blocking met nieuwe 69x sneller Roest motor

Een tip? Get in touch veilig via WhatsApp | Signaal op +447713 025 499, of over Keybase: charlie0

Verwante Onderwerpen:

Google

Beveiliging TV

Data Management

CXO

Datacenters