Jak správně nastavit soubor Robots.txt pro váš web

  • Gabriel Brooks
  • 0
  • 1743
  • 349
reklama

Pokud provozujete web 10 způsobů, jak vytvořit malý a jednoduchý web bez nadměrného množství 10 způsobů, jak vytvořit malý a jednoduchý web bez nadměrného množství, WordPress může být nadměrný. Jak tyto další vynikající služby dokazují, WordPress není všechno a končí veškerou tvorbou webových stránek. Pokud chcete jednodušší řešení, můžete si vybrat z celé řady. , pravděpodobně jste slyšeli o souboru robots.txt (nebo “standard vyloučení robotů”). Ať už to máte nebo ne, je čas se o tom dozvědět, protože tento jednoduchý textový soubor je rozhodující součástí vašeho webu. Může to vypadat bezvýznamně, ale možná vás překvapí, jak je to důležité.

Pojďme se podívat, co je soubor robots.txt, co dělá a jak jej správně nastavit pro váš web..

Co je soubor robots.txt?

Abyste pochopili, jak soubor robots.txt funguje, potřebujete vědět něco o vyhledávačích. Jak fungují vyhledávače? Jak fungují vyhledávače? Pro mnoho lidí je Google internet. Je to pravděpodobně nejdůležitější vynález od samotného internetu. A zatímco se vyhledávače od té doby hodně změnily, základní principy jsou stále stejné. . Krátká verze je, že vysílají “prohledávače,” což jsou programy, které vyhledávají na internetu informace. Poté některé z těchto informací uloží, aby k nim mohli lidi později nasměrovat.

Tyto prohledávače, také známé jako “roboti” nebo “pavouci,” najděte stránky z miliard webových stránek. Vyhledávače jim dávají pokyny, kam mají jít, ale jednotlivé webové stránky mohou také komunikovat s roboty a říkat jim, na které stránky by se měly dívat.

Většinou dělají pravý opak a říkají jim, na kterých stránkách neměl by dívat se na. Věci, jako jsou administrativní stránky, portály backend, stránky kategorií a značek, a další věci, které majitelé stránek nechtějí zobrazovat ve vyhledávačích. Tyto stránky jsou stále viditelné pro uživatele a jsou přístupné každému, kdo má svolení (což je často každý).

Ale tím, že řeknete těmto pavoukům, aby neindexovaly některé stránky, udělá soubor robots.txt každému laskavost. Pokud jste hledali “MakeUseOf” Chcete ve vyhledávacím nástroji, aby se naše stránky pro správu zobrazovaly vysoko v žebříčku? Ne. To by nikomu neprospívalo, takže říkáme vyhledávačům, aby je nezobrazovaly. Může být také použit k zabránění vyhledávačům v odhlášení z stránek, které by jim nemusely pomoci klasifikovat váš web ve výsledcích vyhledávání.

Stručně řečeno, soubor robots.txt říká webovým prohledávačům, co dělat.

Může Crawlers Ignore robots.txt?

Prohledávače někdy ignorují soubory robots.txt? Ano. Ve skutečnosti je mnoho prohledávačů dělat ignorovat to. Obecně však tyto prohledávače nepocházejí z uznávaných vyhledávačů. Pocházejí z spammerů, e-mailů a dalších typů automatizovaných robotů, kteří se potulují po internetu. Je důležité mít na paměti toto - použití standardu pro vyloučení robotů k tomu, aby robotům řekl, aby se vyhnuli, není účinné bezpečnostní opatření. Ve skutečnosti by někteří roboti mohli Start se stránkami, které jim řeknete, aby nechodily.

Vyhledávací stroje však budou dělat, jak říká váš soubor robots.txt, pokud je správně naformátován.

Jak napsat soubor robots.txt

Existuje několik různých částí, které přecházejí do standardního souboru pro vyloučení robotů. Zde je rozložím jednotlivě.

Prohlášení uživatelského agenta

Předtím, než řeknete botu, na které stránky by se nemělo dívat, musíte určit, s kterým botem mluvíte. Většinou budete používat jednoduché prohlášení, které znamená “všechny roboty.” Vypadá to takto:

User-agent: *

Hvězdička stojí za “všechny roboty.” Můžete však určit stránky pro určité roboty. Chcete-li to provést, musíte znát název robota, pro který stanovujete pokyny. Může to vypadat takto:

User-agent: Googlebot [seznam stránek, které se nemají procházet] User-agent: Googlebot-Image / 1.0 [seznam stránek, které se nemají procházet] User-agent: Bingbot [seznam stránek, které se nemají procházet]

A tak dále. Pokud objevíte robota, který nechcete procházet své stránky vůbec, můžete to také určit.

Chcete-li najít jména uživatelských agentů, podívejte se na useragentstring.com [No Longer Available].

Zakázání stránek

Toto je hlavní část vašeho souboru pro vyloučení robotů. Jednoduchým prohlášením řeknete botovi nebo skupině robotů, aby určité stránky neprolézali. Syntaxe je snadná. Zde je návod, jak byste zakázali přístup ke všemu v “admin” adresář vašeho webu:

Disallow: / admin /

Tento řádek by zabránil robotům procházet stránky yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html a cokoli jiného, ​​co spadá do adresáře admin.

Chcete-li zakázat jednu stránku, stačí ji zadat v řádku zakázat:

Disallow: /public/exception.html

Teď “výjimka” stránka nebude nakreslena, ale všechno ostatní na “veřejnost” Složka bude.

Chcete-li zahrnout více adresářů nebo stránek, stačí je uvést na následujících řádcích:

Disallow: / private / Disallow: / admin / Disallow: / cgi-bin / Disallow: / temp /

Tyto čtyři řádky se použijí na libovolného uživatelského agenta, kterého jste uvedli v horní části sekce.

Pokud chcete zabránit robotům v prohlížení jakékoli stránky na vašem webu, použijte toto:

Disallow: /

Stanovení různých standardů pro roboty

Jak jsme viděli výše, můžete určit určité stránky pro různé roboty. Kombinace předchozích dvou prvků vypadá takto:

User-agent: googlebot Disallow: / admin / Disallow: / private / User-agent: bingbot Disallow: / admin / Disallow: / private / Disallow: / secret /

“admin” a “soukromé” sekce budou neviditelné na Googlu a na Bingu, ale Google uvidí “tajemství” adresář, zatímco Bing ne.

Obecná pravidla pro všechny roboty můžete určit pomocí uživatelského agenta hvězdičky a poté robotům v dalších sekcích také dát konkrétní pokyny..

Dát to všechno dohromady

S výše uvedenými znalostmi můžete napsat kompletní soubor robots.txt. Stačí vyhodit váš oblíbený textový editor (jsme fanoušky Sublime 11 Sublime Text Tipy pro produktivitu a rychlejší pracovní postup 11 Sublime Text Tipy pro produktivitu a rychlejší Workflow Sublime Text je univerzální textový editor a zlatý standard pro mnoho programátorů. tipy se zaměřují na efektivní kódování, ale běžní uživatelé ocení klávesové zkratky. (zde) a začnou informovat roboty, že nejsou vítáni v určitých částech vašeho webu.

Pokud chcete vidět příklad souboru robots.txt, jděte na libovolný web a přidejte jej “/robots.txt” do konce. Zde je část souboru robots.txt Giant Bicycles:

Jak vidíte, existuje několik stránek, které se ve vyhledávačích nechtějí zobrazovat. Zahrnuli také několik věcí, o kterých jsme ještě nemluvili. Pojďme se podívat, co dalšího můžete v souboru vyloučení robota udělat.

Vyhledání souboru Sitemap

Pokud váš soubor robots.txt řekne robotům, kde ne jít, váš soubor Sitemap dělá opak Jak vytvořit XML soubor Sitemap ve 4 jednoduchých krocích Jak vytvořit soubor XML Sitemap ve 4 snadných krocích Existují dva typy souborů Sitemap - stránka HTML nebo soubor XML. Soubor Sitemap HTML je jediná stránka, která návštěvníkům zobrazuje všechny stránky na webu a obvykle na ně odkazuje odkazy… a pomáhá jim najít to, co hledají. A zatímco vyhledávače pravděpodobně již vědí, kde je váš soubor Sitemap, není na škodu jim to znovu vědět.

Prohlášení o umístění souboru Sitemap je jednoduché:

Mapa stránek: [URL souboru Sitemap]

A je to.

V našem vlastním souboru robots.txt to vypadá takto:

Mapa stránek: //www.makeuseof.com/sitemap_index.xml

To je všechno.

Nastavení zpoždění procházení

Směrnice pro zpoždění procházení říká určitým vyhledávačům, jak často mohou indexovat stránku na vašem webu. Měří se v sekundách, i když některé vyhledávače to interpretují trochu jinak. Někteří vidí zpoždění procházení 5, protože jim říkají, aby po každém procházení počkali pět sekund, aby zahájili další. Jiní to interpretují jako pokyn k procházení pouze jedné stránky každých pět sekund.

Proč byste řekli prolézacímu modulu, aby neprolézal co nejvíce? Chcete-li zachovat šířku pásma 4 způsoby Windows 10 ztrácí vaši internetovou šířku pásma 4 způsoby Windows 10 ztrácí vaši internetovou šířku pásma Windows 10 ztrácí vaši internetovou šířku pásma? Zde je návod, jak to zkontrolovat a co můžete udělat, abyste to zastavili. . Pokud se váš server snaží udržet krok s provozem, možná budete chtít zavést zpoždění procházení. Obecně se většina lidí o to nemusí starat. Velké stránky s vysokým provozem však mohou chtít trochu experimentovat.

Takto nastavíte zpoždění procházení na 8 sekund:

Zpoždění procházení: 8

A je to. Ne všechny vyhledávače se budou řídit vaší směrnicí. Ale neublíží se zeptat. Stejně jako u zakázaných stránek můžete nastavit různá zpoždění procházení pro konkrétní vyhledávače.

Nahrávání souboru robots.txt

Až budete mít všechny pokyny ve svém souboru nastaveny, můžete je nahrát na svůj web. Ujistěte se, že se jedná o prostý textový soubor a má název robots.txt. Poté jej nahrajte na svůj web, abyste jej našli na stránce yoursite.com/robots.txt.

Pokud používáte systém pro správu obsahu 10 Nejoblíbenějších systémů pro správu obsahu online 10 Nejoblíbenějších systémů pro správu obsahu online Dny ručně kódovaných stránek HTML a zvládnutí CSS jsou již dávno pryč. Nainstalujte systém pro správu obsahu (CMS) a během několika minut můžete mít web, který budete sdílet se světem. jako je WordPress, pravděpodobně existuje konkrétní způsob, jak to udělat. Protože se liší v každém systému správy obsahu, budete si muset prostudovat dokumentaci k vašemu systému.

Některé systémy mohou mít také online rozhraní pro nahrávání vašeho souboru. Pro tyto stačí zkopírovat a vložit soubor, který jste vytvořili v předchozích krocích.

Nezapomeňte aktualizovat svůj soubor

Poslední radu, kterou dám, je občas prozkoumat váš soubor pro vyloučení robotů. Váš web se změní a možná budete muset provést určité úpravy. Pokud si všimnete podivné změny v provozu vašeho vyhledávače, je dobré si soubor také prohlédnout. Je také možné, že se standardní zápis v budoucnu změní. Stejně jako všechno ostatní na vašem webu, stojí za to jej zkontrolovat jednou za čas.

Na kterých stránkách z vašeho webu vyloučíte prolézací moduly? Všimli jste si nějakého rozdílu v provozu vyhledávačů? Podělte se o své rady a komentáře níže!




Bisher hat noch niemand einen Kommentar zu diesem Artikel abgegeben.

O moderní technologii, jednoduché a cenově dostupné.
Váš průvodce ve světě moderních technologií. Naučte se, jak používat technologie a pomůcky, které nás každý den obklopují, a naučte se, jak objevovat na internetu zajímavé věci.