Эта статья будет интересна тем, кто занимается созданием и раскруткой сайтов (SEO).

Для чего нужен «X-Robots-Tag» и как его можно использовать?

Использование таких правил позволяет, например, избежать воровства информации с Вашего сайта посредством поисковой системы. Представьте, что Вы распространяете через фид (feed) Ваши файлы формата .DOC (через подписку). Пользователи могут зайти через поисковик и скачать весь ваш фид из поискового кэша.

Таким образом они получат всю информацию не подписавшись.

Одним из способов этого избежать — дать знать о таком контенте поисковику, но запретить пользователю просматривать поисковый кэш: index, noarchive. Такие нюансы нельзя прописать через файл robots.txt и это нельзя сделать через «тэги, применяемые для контроля роботов».

Как применять X-Robots-Tag в HTTP заголовке?

Вы можете контролировать поисковых роботов через специальные файлы: robots.txt и <тэги, применяемые для контроля роботов>. Оба этих метода имеют ряд существенных ограничений.

Используя файл robots.txt, Вы можете заблокировать сканирование (crawling) любой страницы Вашего сайта или каталога, но Вы не сможете контролировать индексацию, кэширование или snippets.

Используя <тэги, применяемые для контроля роботов>, Вы контролируете сканирование, кэширование или snippets, но это возможно только для файлов HTML-формата (эти тэги не вставить в бинарный файл тратата.exe или Виктор.zip).

Использование «X-Robots-Tag» — отдаваемого сервером в HTTP-заголовке (HTTP header) — позволяет получить контроль над сканированием, кэшированием и другими функциями, не задумываясь о том, какой формат у этого файла (Word, Excel, PDF, ZIP или любой другой).

«X-Robots-Tag« поддерживает все те же директивы и команды, которые применяются к <тэгам, применяемым для контроля роботов>: index/noindex, archive/noarchive, snippet/nosnippet и директива »unavailable_after».

Как внедрить X-Robots-Tag на свой сайт (или в блог)?

Вставьте этот код в том месте, где генерируется Ваша страница, если Вы используете PHP для генерации страниц. Это нужно сделать в самом начале страницы.

<?php header('X-Robots-Tag: index, noarchive'); ?>

Через »mod_headers» и «mod_setenvif» Вы можете контролировать к каким файлам нужно добавить заголовок «X-Robots-Tag».

SetEnvIf Request_URI "*\.doc$" is_doc=yes

Header add X-Robots-Tag "index, noarchive" env=is_doc

В первой строчке мы задаем переменную окружения для файла формата .DOC (Вы можете задать здесь любой другой формат). Теперь мы можем проверить любой запрошенный заголовок и использовать любые регулярные выражения, чтобы сравнивать к каким файлам мы хотим добавить «X-Robots-Tag» заголовок.

Вторая строчка добавляет заголовок только если значение переменной «is_doc» задано. Вы можете вместо «is_doc» использовать любую другую переменную.

Теперь добавьте эти строки в файл .htaccess на Вашем сайте.

Популярное на сайте:

Windows 8: последние новости, ссылки на скачивание
Пластиковая карта Яндекс.Деньги
На Facebook появились новые группы
Обзор Photoshop CS 6 и ссылки на скачивание

Пользуйтесь поиском по сайту
Поддержите обновление pcblog.spb.ru, лайкните или нажмите "Мне нравится"

Читайте также:

Что такое NFC и как его использовать?
На что еще нужно пойти АВТОВАЗ’у? (Поднимаем российский автопром) Go, Russia, Go!
Mobile World Congress 2011: LG, YouTube, Twitter, Facebook

1 комментарий на тему 'Controlling Your Robots: Используйте «X-Robots-Tag» в HTTP заголовке'

  1. 7 апреля 2012 в 21:07
    Редактор

Оставить комментарий





↓ Обратите на это внимание!

Как ответить на сообщение на сайте?
В углу каждого окна с сообщением есть кнопка "Ответить", нажмите на нее.

Оставляя комментарий, Вы соглашаетесь с тем, что он будет просмотрен перед размещением на сайте. Не все комментарии могут быть размещены на сайте. Администрация "PCBLOG.spb.ru" оставляет за собой право использовать ваш комментарий в любой статье или на любой платформе "PCBLOG.spb.ru". Общие положения и правила