Зміст
- 1 Чому важливо налаштовувати і додавати robots.txt
- 2 Як створити файл robots.txt
- 3 Які директиви потрібно використовувати у файлі robots txt
- 4 Часті помилки під час складання файлу robots.txt
- 5 Які символи використовувати у файлі robots txt
- 6 Як можна перевірити і протестувати файл robots.txt
- 7 Поширені запитання:
Robots.txt – це текстовий файл, який містить інструкції для пошукових роботів. Його мета полягає в тому, щоб підказати роботам, які розділи та сторінки сайту можна або не можна індексувати. Налаштування файлу robots.txt включено в процес просування вебсайту будь-якої тематики чи ніші.
Без цього файлу пошуковики скануватимуть та індексуватимуть усе підряд: дублі, конфіденційні дані, тестові сторінки тощо.
Правильний robots txt спрямовує пошукових роботів, підказуючи, що можна індексувати, а що потрібно пропустити.
Чому важливо налаштовувати і додавати robots.txt
Налаштовувати і додавати файл robots.txt до сайту вкрай важливо з кількох причин:
- Контроль індексації: Robots.txt дає змогу контролювати, які сторінки або розділи сайту індексуються пошуковими системами. Без файлу robots.txt пошукові роботи скануватимуть усі доступні сторінки сайту, що призведе до індексації небажаного контенту і потрапляння багатьох сміттєвих сторінок у видачу ПС.
- Оптимізація сканування: Файл robots.txt може допомогти оптимізувати сканування сайту. Пошукові роботи працюють з обмеженими ресурсами, і якщо вони не можуть знайти файл robots.txt, вони скануватимуть сайт активніше. Додавання файлу допоможе зменшити навантаження на сервер і забезпечити ефективніше сканування.
- Помилки індексації: Сайт може містити динамічно згенеровані сторінки, які змінюються залежно від запитів користувачів або параметрів URL.
Без правильного файлу robots.txt, пошукові роботи можуть індексувати всі можливі комбінації параметрів, що може призвести до створення дублів контенту і великої кількості сміттєвих сторінок у пошуковій видачі.
Важливо зазначити, що robots.txt не надає абсолютного захисту від індексації небажаного контенту, але правильно складений файл допомагає поліпшити контроль індексації сайту одразу після розробки сайту та протягом усього його існування.
Як створити файл robots.txt
Створити файл robots.txt досить просто. Для цього потрібен текстовий редактор і доступ до сервера хостингу сайту.
Основні кроки для створення файлу robots.txt:
- Відкрийте текстовий редактор (підійде Блокнот для Windows або TextEdit для Mac).
- Введіть правила для пошукових роботів відповідно до вимог сайту.
- Збережіть файл із назвою – robots.txt (дотримуйтесь нижнього регістру) у кореневій директорії сайту.
- Завантажте файл robots.txt у кореневу папку сайту на хостингу.
Приклад: для сайту example.com шлях до файлу буде: https://www.example.com/robots.txt.
Які директиви потрібно використовувати у файлі robots txt
Файл robots.txt підтримує певні директиви, які роботи аналізують для розуміння правил доступу до сайту.
Директиви у файлі robots.txt – це інструкції, які задають правила доступу для пошукових роботів до різних розділів і сторінок сайту.
Коли пошуковий робот сканує файл robots.txt перед індексацією сайту, він дотримується зазначених у ньому директив і визначає, які розділи або файли сайту можна індексувати, а які потрібно виключити з індексації.
Ось деякі основні директиви:
- User-agent: Ця директива визначає, для якого робота або групи роботів застосовуються такі правила.
Можна вказати одного бота (наприклад, User-agent: Googlebot) або застосувати директиви до всіх ботів, поставивши зірочку (User-agent: *). - Disallow: За допомогою цієї директиви вказуються розділи сайту, які не повинні індексуватися.
- Allow: показує, що роботу дозволено доступ до сторінки/розділу сайту, його можна індексувати і відображати в результатах пошуку (навіть якщо є загальна директива Disallow).
- Sitemap: За допомогою цієї директиви можна вказати шлях до файлу Sitemap, який допомагає роботам зрозуміти структуру сайту.
Важливо: за рівних значень пріоритет матиме директива Allow:
Приклад:
User-agent: *
Disallow: /images/ – заборона доступу
Allow: /images/ – скасування заборони
Що не повинно знаходитися у файлі robots.txt
- Особисті дані та конфіденційна інформація:
Ніколи не розміщуйте у файлі robots.txt інформацію, яку ви хочете приховати від пошукових роботів і сторонніх осіб.
Усі сторінки, що збирають особисту інформацію, мають бути закриті від індексації альтернативним способом. - Не розміщуйте у файлі robots.txt посилання на сторінки або розділи сайту, які не повинні бути доступні для публічного перегляду або індексації. Наприклад, сторінки з обмеженим доступом, тестові розділи тощо.
Часті помилки під час складання файлу robots.txt
Складання файлу robots.txt – відповідальний процес, і допущені помилки можуть негативно вплинути на індексацію і видимість сайту в пошуковій системі.
Поширені помилки, на які потрібно звернути увагу:
- Помилки синтаксису: якщо директиви та символи прописані некоректно, пошуковий робот може їх неправильно сприйняти.
Помилки можуть бути пов’язані з неправильними директивами, пропущеними символами, відсутністю порожніх рядків між директивами, пробілами в неправильних місцях тощо.Приклад:НеправильноUser-agent: Googlebot
Allow /public/ПравильноUser-agent: Googlebot
Allow: /public/
*після директиви Allow пропущено двокрапку - Дублювання правил:Дублювання може спричинити нерозуміння роботами та створити проблеми з індексацією.
- Неправильне зазначення шляхів:така помилка може призвести до блокування потрібного контенту або, навпаки, до дозволу доступу до непотрібних розділів. Наприклад, потрібно заблокувати files/images/.Приклад неправильного правила:
User-agent: *
Disallow: /imagesПриклад як потрібно:
Disallow: */images
У цьому випадку буде заблокована тільки папка /images, але не її підпапки. - Заборона на індексацію всього сайту: Неправильно прописаний файл може призвести до заборони індексації всього сайту, і як наслідок повністю виключить його з результатів пошуку.Приклад:User-agent: *
Disallow: /У цьому прикладі директива User-agent: * вказує на застосування правила для всіх пошукових роботів. А директива Disallow: / означає заборону доступу до всіх розділів сайту, оскільки слеш (/) позначає кореневий каталог сайту.
Як підсумок, роботи бачать це правило і не скануватимуть та не індексуватимуть жодну сторінку сайту. - У файлі robots.txt не можна використовувати коми або пробіли для перерахування декількох каталогів в одній директиві.Приклади неправильного правила:
User-agent: *
Disallow: /private/, /admin/або:User-agent: *
Disallow: /private/ /admin/В обох випадках правило некоректне. Кожен каталог повинен вказуватися в окремому рядку без використання ком або пропусків між ними.Виправний варіант із переліком у різних рядках:User-agent: *
Disallow: /private/
Disallow: /admin/ - Неправильна назва файлу
Сам файл повинен називатися тільки robots.txt, а не Robots.txt, ROBOTS.TXT або якось інакше.
Які символи використовувати у файлі robots txt
У файлі robots.txt ви можете використовувати певні символи для завдання правил доступу для пошукових роботів.
Приклад основних символів:
- Символ * – будь-яка послідовність символів.
Можна використовувати для блокування або дозволу доступу до певних розділів або URL-ам на сайті. - Символ $ – використовується для позначення закінчення адреси. Це дає змогу точніше задавати правила для певних URL-адрес.
Наприклад: Disallow: /images/$
У цьому прикладі зазначено заборонити індексацію всіх сторінок, які перебувають у папці “images”, але дозволити індексацію її підпапок (наприклад, /images/subfolder/). - Символ # – коментування. Усе, що міститься після цього символу (у цьому ж рядку) – ігнорується.
Потрібно звернути увагу, що правила у файлі robots.txt обробляються по порядку.
Тобто більш специфічні правила мають бути вказані перед загальними правилами.
Приклад як зробити Robots для CMS WordPress
Важливо розуміти, що налаштовуючи роботс для сайту, потрібно враховувати його особливості.
Алгоритм написання robots.txt для WordPress:
- Вказати User-agent
- Закрити від індексації – Disallow:
- файли адмінки;
- особисті кабінети, форми реєстрації та авторизації;
- інструменти роботи із замовленнями (кошик, форми для заповнення даних тощо);
- дані за функціоналом пошуку;
- сторінки-дублі;
- параметри фільтрів, порівняння, сортування;
- службові сторінки;
- UTM-мітки;
- Відкрити (Allow) ті файли і документи, які необхідно індексувати, але вони знаходяться всередині вже закритих категорій (наприклад JavaScript, зображення);
- Додати Sitemap
Приклад файлу robots.txt для WordPress:
User-Agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /*/*.js
Allow: /*/*.css
Allow: */uploads
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Sitemap: http://site.com/sitemap.xml
Просування сайту на WordPress має свої особливості та готові рішення, проте robots.txt варто налаштовувати вручну.
Як можна перевірити і протестувати файл robots.txt
Перед публікацією файлу robots.txt на сайті потрібно обов’язково протестувати його на наявність помилок.
Способи перевірки:
- Використання Robots.txt Tester: У Google Search Console є robots.txt tester, який дає змогу переглядати, як Googlebot сприйматиме файл.
- Перевірка файлу через Screaming Frog (просканували сайт, відкриваєте Configuration → robots.txt → Custom).
Висновок
Правильне складання і налаштування файлу сприяють поліпшенню індексації сайту і підвищенню його видимості в пошукових результатах.
Підбиваючи підсумок, алгоритм роботи з robots.txt:
- Створення та розміщення файлу в кореневій папці сайту на хостингу;
- Додати в нього потрібний User-agent, Sitemap;
- Додати у файл типові сміттєві сторінки (наприклад, фільтри та сторінки з параметрами);
- Протестувати robots.txt, просканувати сайт краулером (наприклад, Screaming Frog або Netpeak Spider), щоб перевірити загальну картину після створення файлу. (перевірити, що закрили, можливо помітите ще якісь сміттєві сторінки).
Поширені запитання:
Що писати в Robots txt?
У Robots txt вказуються інструкції (директиви) про те, які сторінки/папки дозволені або заборонені для індексації та сканування роботами.
Як прочитати файл Robots txt?
Щоб прочитати файл robots txt на сайті, потрібно ввести в пошуковий рядок його URL-адресу: example.com/robots.txt.
Де знаходиться файл Robots txt у WordPress?
- За наявності плагіна для WordPress наприклад: “Yoast SEO” або “All in One SEO Pack”, можна редагувати файл robots txt в адмінці сайту.
- У файловій системі свого хостингу ви можете створити/налаштувати файл robots.txt у кореневій папці вашого сайту (зазвичай це папка public_html або www).






