Файлът robots.txt често стои тихо във фонов режим на WordPress сайта, но по подразбиране той е доста базов и, разбира се, не включва персонализирани директиви, които може да желаете да приложите. Без да правим излишни въведения – нека директно разгледаме какво още можете да включите, за да го подобрите.
Бележка: Тази публикация е полезна само за WordPress инсталации в основната директория на домейн или поддомейн, например: domain.com или example.domain.com.
Къде точно се намира файлът robots.txt на WordPress?
По подразбиране WordPress генерира файл с наименование robots.txt. Можете да го видите, като отворите /robots.txt на вашата инсталация, например: https://yoursite.com/robots.txt
Този файл съществува само в паметта и не е реално наличен като файл на сървъра ви. Ако искате да използвате персонализиран файл robots.txt, просто качете такъв в основната директория на инсталацията.
Можете да го направите чрез FTP приложение или чрез някой от по-добрите SEO плъгини за WordPress, които предлагат различни опции за работа с този файл.
Стандартният WordPress robots.txt (и защо не е достатъчен)
Ако не създадете ръчно файл robots.txt, неговото съдържание по подразбиране изглежда така:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
Макар и безопасен, това не е оптимално. Нека отидем по-далеч.
Винаги включвайте вашите XML Sitemap-и
Уверете се, че всички XML sitemap-и са изрично посочени, тъй като това помага на търсачките да откриват всички релевантни URL адреси.
Sitemap: https://example.com/sitemap_index.xml Sitemap: https://example.com/sitemap2.xml
Какво не трябва да блокирате
Има остарели съвети за блокиране на някои основни директории на WordPress като /wp-includes/, /wp-content/plugins/ или дори /wp-content/uploads/. Не го правете!
Защо да не ги блокирате:
-
Google е достатъчно умен да игнорира нерелевантни файлове. Блокирането на CSS и JavaScript може да навреди на визуализирането и да създаде проблеми с индексирането.
-
Може неволно да блокирате ценни изображения/видеа/други медии, особено тези в /wp-content/uploads/, където се съхраняват всички качени изображения, които определено трябва да бъдат обходени.
Вместо това, позволете на обхождащите ботове да достъпват CSS, JavaScript и изображенията, необходими за правилно визуализиране.
Управление на staging сайтове
Препоръчително е да се уверите, че staging сайтовете не се обхождат – както заради SEO, така и заради сигурността. Винаги препоръчваме пълно забраняване на достъпа до сайта. Все пак трябва да използвате meta таг „noindex“, но за по-голяма сигурност е добре да приложите и двете мерки. Ако отидете на Настройки > Четене, можете да отбележите опцията „Не позволявайте на търсачките да индексират този сайт“, което води до следното в robots.txt (или можете да го добавите ръчно):
User-agent: * Disallow: /
Google все още може да индексира страници, ако открие линкове от други места (обикновено при миграции с останали препратки към staging).
Важно: Когато преминете към продукционна среда, проверете отново тази настройка, за да сте сигурни, че сте премахнали всяко ограничение или noindex.
Почистете някои неключови системни пътища на WordPress
Не всичко трябва да бъде блокирано, но някои стандартни пътища не носят SEO стойност, например:
Disallow: /trackback/ Disallow: /comments/feed/ Disallow: */embed/ Disallow: /cgi-bin/ Disallow: /wp-login.php
Забраняване на определени query параметри
Понякога ще искате да предотвратите обхождането от търсачки на URL адреси с определени параметри, като такива за проследяване, коментари или версии за печат. Пример:
User-agent: * Disallow: /*?*replytocom= Disallow: /*?*print=
Можете да използвате инструмента за URL параметри в Google Search Console, за да следите какви параметри водят до индексиране и да прецените дали да добавите още директиви.
Блокиране на страници с ниска стойност – таксономии и вътрешно търсене
Ако вашият WordPress сайт съдържа архиви по тагове или резултати от вътрешно търсене, които не носят стойност, можете да ги блокирате:
User-agent: * Disallow: /tag/ Disallow: /page/ Disallow: /?s=
Както винаги – преценете това спрямо конкретната Ви стратегия за съдържанието. Ако използвате страниците с тагове като част от индексирано съдържание – пропуснете тази стъпка, но в повечето случаи те не носят полза. Също така се уверете, че вътрешната Ви структура на линкове следва стратегията Ви и минимизира връзките към зони, които не желаете да бъдат индексирани или обходени.
Наблюдение на обхождането
След като robots.txt е настроен, следете статистиката за обхождане чрез Google Search Console:
-
Преглеждайте Crawl Stats в секцията Настройки, за да видите дали ботовете хабят ресурси.
-
Използвайте инструмента URL Inspection, за да проверите дали блокираните URL адреси все пак са индексирани.
-
Проверете Sitemap-ите и се уверете, че сочат само към страници, които искате да бъдат обходени и индексирани.
Освен това някои сървърни панели като Plesk, cPanel и Cloudflare предлагат подробна статистика за обхождане, отвъд тази на Google.
Заключителни думи
WordPress е страхотна CMS платформа, но по подразбиране не е конфигурирана с оптимален robots.txt или стратегия за crawl оптимизация.
Само няколко реда код и под 30 минути работа могат да Ви спестят хиляди излишни заявки към сайта, които не заслужават да бъдат обходени, както и да предотвратят бъдещи проблеми при скалиране.