Вопросы по файлу robots.txt

Вопросы и ответы по изменению функционала, смене дизайна, переносу сайта и т.п.

Модераторы: Xpycm, Koduc

Правила форума
ВНИМАНИЕ! Форум не является средством гарантированной поддержки клиентов и пользователей. Поэтому на быстрый ответ тут рассчитывать не нужно, как и на ответ вообще. Сотрудники отвечают по мере своих возможностей.

На форуме действует ограничение в 3 сообщения / сутки.
Если Вы хотите сказать "спасибо", то воспользуйтесь функцией "Повысить репутацию" - зелёная иконка "плюс" под ником ответившего.

Вопросы по файлу robots.txt

Сообщение sdelkadrom » 05 май 2017, 10:21

Существующий файл robots.txt :
Код: Выделить всё
User-agent: *
Allow: /*search?page=*
Allow: /*specialoffers?page=*


Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
вызывает некоторое вопросы.

1. Допустим ли разрыв в 2 пустые строки?

Может с учетом общепринятых правил более логично файл должен выглядеть так:

Код: Выделить всё
User-agent: *
Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
Allow: /*search?page=*
Allow: /*specialoffers?page=*

User-agent: Yandex
Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
Allow: /*search?page=*
Allow: /*specialoffers?page=*
Host: mysite.ru

Sitemap: http://mysite.ru/sitemap.xml


Но даже в этом случае файл не совсем корректен:

2. Вот эти строки (ниже) противоречат друг другу. Разрешать индексацию или запрещать? Из этих противоречащих правил непонятно:

Allow: /*search?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*search?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*search?page=*&sort=*&ls=*

Allow: /*specialoffers?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*specialoffers?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*specialoffers?page=*&sort=*&ls=*

3. Правило:

Disallow: /*?page=*

закроет любые страницы с "?page=", то есть вот это уже лишнее:

Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*

4. А вообще, стоит закрывать от индексации " page= ? " ? Это же может опустить сайт оооочень существенно. На Яндекс можно забить. Главное - Google. А в нем отдельные настройки для обработки расширенных параметров URL. Независимые от robots. Естественно, что параметры, меняющие содержание страниц, должны быть открыты для индексации.

Так что же в итоге нужно прописать в файле robots.txt (для версии Open Real Estate PRO V1.16.1) ???
sdelkadrom
Гражданин
Гражданин
 
Сообщения: 77
Зарегистрирован: 02 июн 2016, 14:25
Очки репутации: 5

Re: Вопросы по файлу robots.txt

Сообщение andipas » 11 май 2017, 10:25

У нас закрыты от индексации те страницы, которые имеют дублирующий контент, в первую очередь это поисковые страницы. Насколько мне известно, если на сайте много дублирующего контента, это может негативно сказаться на позициях и индексации сайта в поисковых системах.
Файл robots.txt вы можете настроить самостоятельно, как вам угодно. Для помощи можете обратиться к SEO специалистам, к сожалению мы такие услуги не оказываем.
Часто задаваемые вопросы. Для правки файлов notepad++, netbeans, phpStorm. Для правки CSS firebug.
Аватара пользователя
andipas
Разработчик
Разработчик
 
Сообщения: 695
Зарегистрирован: 28 дек 2011, 22:37
Очки репутации: 30

Re: Вопросы по файлу robots.txt

Сообщение Dmitry » 16 май 2020, 02:28

Да, конечно, страницы с идентичным контентом не приветствуются поисковыми системами. По сути абсолютно все поисковые страницы (кроме одной единственной, которая без каких либо параметров! ) закрыты от индексации из-за того, что на них всех стоит одинаковый
<link rel="canonical" href="...../search" /> , то есть ни одна страница пагинации не будет проиндесирована из-за canonical

В Я.Вебмастере при попытке проиндексировать search?далее_что_угодно она попадет в "Исключенные страницы" с формулировкой типа такой:
"Страница проиндексирована по каноническому адресу https://..../search, который был указан в атрибуте rel="canonical" в исходном коде. Исправьте или удалите атрибут canonical, если он указан некорректно. Робот отследит изменения автоматически."

В Гугле результат будет аналогичный, ну только формулировка отказа будет другая :-[
Dmitry
Гражданин
Гражданин
 
Сообщения: 134
Зарегистрирован: 29 мар 2020, 17:04
Откуда: Крым
Очки репутации: 22


Вернуться в Вопросы и помощь по изменениям

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 10

cron