Форум Monoray.ru

Существующий файл robots.txt :

Код: Выделить всё: User-agent: * Allow: /*search?page=* Allow: /*specialoffers?page=* Disallow: /*index.php Disallow: /*printable=* Disallow: /*?page=* Disallow: /*search?page=*&sort=* Disallow: /*search?page=*&sort=*&ls=* Disallow: /*search?*&ls=* Disallow: /*search?*&sort=* Disallow: /*specialoffers?page=*&sort=* Disallow: /*specialoffers?page=*&sort=*&ls=* Disallow: /*specialoffers?*&ls=* Disallow: /*specialoffers?*&sort=* Disallow: /*?sort=* Disallow: /*?ls=* Disallow: /*comparisonList Disallow: /*booking/add* Disallow: /*complain/add* Disallow: /*apartments/sendEmail*

вызывает некоторое вопросы.

1. Допустим ли разрыв в 2 пустые строки?

Может с учетом общепринятых правил более логично файл должен выглядеть так:

Код: Выделить всё: User-agent: * Disallow: /*index.php Disallow: /*printable=* Disallow: /*?page=* Disallow: /*search?page=*&sort=* Disallow: /*search?page=*&sort=*&ls=* Disallow: /*search?*&ls=* Disallow: /*search?*&sort=* Disallow: /*specialoffers?page=*&sort=* Disallow: /*specialoffers?page=*&sort=*&ls=* Disallow: /*specialoffers?*&ls=* Disallow: /*specialoffers?*&sort=* Disallow: /*?sort=* Disallow: /*?ls=* Disallow: /*comparisonList Disallow: /*booking/add* Disallow: /*complain/add* Disallow: /*apartments/sendEmail* Allow: /*search?page=* Allow: /*specialoffers?page=* User-agent: Yandex Disallow: /*index.php Disallow: /*printable=* Disallow: /*?page=* Disallow: /*search?page=*&sort=* Disallow: /*search?page=*&sort=*&ls=* Disallow: /*search?*&ls=* Disallow: /*search?*&sort=* Disallow: /*specialoffers?page=*&sort=* Disallow: /*specialoffers?page=*&sort=*&ls=* Disallow: /*specialoffers?*&ls=* Disallow: /*specialoffers?*&sort=* Disallow: /*?sort=* Disallow: /*?ls=* Disallow: /*comparisonList Disallow: /*booking/add* Disallow: /*complain/add* Disallow: /*apartments/sendEmail* Allow: /*search?page=* Allow: /*specialoffers?page=* Host: mysite.ru Sitemap: http://mysite.ru/sitemap.xml

Но даже в этом случае файл не совсем корректен:

2. Вот эти строки (ниже) противоречат друг другу. Разрешать индексацию или запрещать? Из этих противоречащих правил непонятно:

Allow: /*search?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*search?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*search?page=*&sort=*&ls=*

Allow: /*specialoffers?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*specialoffers?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*specialoffers?page=*&sort=*&ls=*

3. Правило:

Disallow: /*?page=*

закроет любые страницы с "?page=", то есть вот это уже лишнее:

Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*

4. А вообще, стоит закрывать от индексации " page= ? " ? Это же может опустить сайт оооочень существенно. На Яндекс можно забить. Главное - Google. А в нем отдельные настройки для обработки расширенных параметров URL. Независимые от robots. Естественно, что параметры, меняющие содержание страниц, должны быть открыты для индексации.

Так что же в итоге нужно прописать в файле robots.txt (для версии Open Real Estate PRO V1.16.1) ???

У нас закрыты от индексации те страницы, которые имеют дублирующий контент, в первую очередь это поисковые страницы. Насколько мне известно, если на сайте много дублирующего контента, это может негативно сказаться на позициях и индексации сайта в поисковых системах.
Файл robots.txt вы можете настроить самостоятельно, как вам угодно. Для помощи можете обратиться к SEO специалистам, к сожалению мы такие услуги не оказываем.

Да, конечно, страницы с идентичным контентом не приветствуются поисковыми системами. По сути абсолютно все поисковые страницы (кроме одной единственной, которая без каких либо параметров! ) закрыты от индексации из-за того, что на них всех стоит одинаковый
<link rel="canonical" href="...../search" /> , то есть ни одна страница пагинации не будет проиндесирована из-за canonical

В Я.Вебмастере при попытке проиндексировать search?далее_что_угодно она попадет в "Исключенные страницы" с формулировкой типа такой:
"Страница проиндексирована по каноническому адресу https://..../search, который был указан в атрибуте rel="canonical" в исходном коде. Исправьте или удалите атрибут canonical, если он указан некорректно. Робот отследит изменения автоматически."

В Гугле результат будет аналогичный, ну только формулировка отказа будет другая :-[

Форум Monoray.ru

Вопросы по файлу robots.txt

Вопросы по файлу robots.txt

Re: Вопросы по файлу robots.txt

Re: Вопросы по файлу robots.txt