Страница 1 из 1

Вопросы по файлу robots.txt

СообщениеДобавлено: 05 май 2017, 10:21
sdelkadrom
Существующий файл robots.txt :
Код: Выделить всё
User-agent: *
Allow: /*search?page=*
Allow: /*specialoffers?page=*


Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
вызывает некоторое вопросы.

1. Допустим ли разрыв в 2 пустые строки?

Может с учетом общепринятых правил более логично файл должен выглядеть так:

Код: Выделить всё
User-agent: *
Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
Allow: /*search?page=*
Allow: /*specialoffers?page=*

User-agent: Yandex
Disallow: /*index.php
Disallow: /*printable=*
Disallow: /*?page=*
Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*
Disallow: /*search?*&ls=*
Disallow: /*search?*&sort=*
Disallow: /*specialoffers?page=*&sort=*
Disallow: /*specialoffers?page=*&sort=*&ls=*
Disallow: /*specialoffers?*&ls=*
Disallow: /*specialoffers?*&sort=*
Disallow: /*?sort=*
Disallow: /*?ls=*
Disallow: /*comparisonList
Disallow: /*booking/add*
Disallow: /*complain/add*
Disallow: /*apartments/sendEmail*
Allow: /*search?page=*
Allow: /*specialoffers?page=*
Host: mysite.ru

Sitemap: http://mysite.ru/sitemap.xml


Но даже в этом случае файл не совсем корректен:

2. Вот эти строки (ниже) противоречат друг другу. Разрешать индексацию или запрещать? Из этих противоречащих правил непонятно:

Allow: /*search?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*search?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*search?page=*&sort=*&ls=*

Allow: /*specialoffers?page=* (эта строка разрешает все, что запрещено в следующих двух строках)
Disallow: /*specialoffers?page=*&sort=* (эта строка запрещает все, что также "попадает" в следующую строку, то есть следующая строка не нужна)
Disallow: /*specialoffers?page=*&sort=*&ls=*

3. Правило:

Disallow: /*?page=*

закроет любые страницы с "?page=", то есть вот это уже лишнее:

Disallow: /*search?page=*&sort=*
Disallow: /*search?page=*&sort=*&ls=*

4. А вообще, стоит закрывать от индексации " page= ? " ? Это же может опустить сайт оооочень существенно. На Яндекс можно забить. Главное - Google. А в нем отдельные настройки для обработки расширенных параметров URL. Независимые от robots. Естественно, что параметры, меняющие содержание страниц, должны быть открыты для индексации.

Так что же в итоге нужно прописать в файле robots.txt (для версии Open Real Estate PRO V1.16.1) ???

Re: Вопросы по файлу robots.txt

СообщениеДобавлено: 11 май 2017, 10:25
andipas
У нас закрыты от индексации те страницы, которые имеют дублирующий контент, в первую очередь это поисковые страницы. Насколько мне известно, если на сайте много дублирующего контента, это может негативно сказаться на позициях и индексации сайта в поисковых системах.
Файл robots.txt вы можете настроить самостоятельно, как вам угодно. Для помощи можете обратиться к SEO специалистам, к сожалению мы такие услуги не оказываем.

Re: Вопросы по файлу robots.txt

СообщениеДобавлено: 16 май 2020, 02:28
Dmitry
Да, конечно, страницы с идентичным контентом не приветствуются поисковыми системами. По сути абсолютно все поисковые страницы (кроме одной единственной, которая без каких либо параметров! ) закрыты от индексации из-за того, что на них всех стоит одинаковый
<link rel="canonical" href="...../search" /> , то есть ни одна страница пагинации не будет проиндесирована из-за canonical

В Я.Вебмастере при попытке проиндексировать search?далее_что_угодно она попадет в "Исключенные страницы" с формулировкой типа такой:
"Страница проиндексирована по каноническому адресу https://..../search, который был указан в атрибуте rel="canonical" в исходном коде. Исправьте или удалите атрибут canonical, если он указан некорректно. Робот отследит изменения автоматически."

В Гугле результат будет аналогичный, ну только формулировка отказа будет другая :-[