Правильная работа с дублями страниц. Борьба с дублями страниц

Поводом для написания этой статьи стал очередной звонок бухгалтера с паникой перед сдачей отчетности по НДС. В прошлом квартале потратил много времени на уборку дублей контрагентов. И вновь они, те же самые и новые. Откуда?

Решил потратить время, и разобраться с причиной, а не следствием. Ситуация с основном актуальна при настроенных автоматических выгрузках через планы обмена из управляющей программы (в моем случае УТ 10.3) в бухгалтерию предприятия (в моем случае 2.0).

Несколько лет тому назад были установлены эти конфигурации, и настроен автоматический обмен между ними. Столкнулись с проблемой своеобразности ведения справочника контрагентов отделом продаж, которые начали заводить дубли контрагентов (с тем же ИНН/КПП/Наименованием) по тем или иным причинам (одного и того же контрагента они раскидывали по разным группам). Бухгалтерия высказала свое "фи", и постановила - нам не важно, что там у них, объединяйте карточки при загрузке в одну. Пришлось вмешаться в процесс переноса объектов правилами обмена. Убрали для контрагентов поиск по внутреннему идентификатору, и оставили поиск по ИНН+КПП+Наименование. Однако и тут всплыли свои подводные камни в виде любителей переименовывать наименования контрагентов (в результате создаются дубли в БП уже самими правилами). Собрались все вместе, обсудили, решили, убедили, что в УТ у нас дубли недопустимы, убрали их, вернулись к стандартным правилам.

Вот только после "причесывания" дублей в УТ и в БП - внутренние идентификаторы у многих контрагентов различались. А так как типовые правила обмена осуществляют поиск объектов исключительно по внутреннему идентификатору, то с очередной порцией документов в БП прилетал и новый дубль контрагента (в случае, если эти идентификаторы различались). Но универсальный обмен данными XML не был бы универсальным, если бы эту проблему обойти было невозможно. Т.к. идентификатор существующего объекта штатными средствами изменить невозможно, то можно обойти эту ситуацию при помощи специального регистра сведений "Соответствие объектов для обмена", который имеется во всех типовых конфигурациях от 1С.

Для того, чтобы не возникало новых дублей алгоритм уборки дублей стал следующим:

1. В БП при помощи обработки "Поиск и замена дублирующихся элементов" (она типовая, ее можно взять из конфигурации Управление торговлей или на диске ИТС, либо выбрать наиболее подходящую среди множества вариаций на самом Инфостарте) нахожу дубль, определяю верный элемент, нажимаю выполнить замену.

2. Получаю внутренний идентификатор единственного (после замены) объекта нашего дубля (набросал специально простенькую обработку для этого, чтобы внутренний идентификатор автоматически копировался в буфер обмена).

3. Открываю в УТ регистр "Соответствие объектов для обмена", делаю отбор по собственной ссылке.

Дубли страниц - одна из множества причин понижения позиций в поисковой выдаче и даже попадания под фильтр. Чтобы этого не допустить, нужно предупредить попадание их в индекс поисковых систем.

Определить наличие дублей на сайте и избавиться от них можно различными способами, но серьезность проблемы в том, что дубли не всегда бывают бесполезными страницами, просто они не должны находиться в индексе.

Эту проблему мы сейчас и будем решать, только для начала выясним, что такое дубли и как они возникают.

Что такое дубли страниц

Дубли страниц - это копия контента канонической (основной) страницы, но с другим url. Здесь важно отметить, что они могут быть как полными, так и частичными.

Полное дублирование является точной копией, но со своим адресом, отличие которого может проявляться в слеше, аббревиатуре www, подмене параметров index.php?, page=1, page/1 и др.

Частичное дублирование проявляется в неполном копировании контента и связанно со структурой сайта, когда индексируются анонсы каталога статей, архивы, контент из сайдбара, страницы пагинации и прочие сквозные элементы ресурса, содержащиеся на канонической странице. Это присуще большинству CMS и интернет-магазинов, в которых наличие каталога является неотъемлемой частью структуры.

О последствиях возникновения дублей мы уже говорили, а происходит это вследствие распределения ссылочной массы между дубликатами, подмены страниц в индексе, потери уникальности контента и пр.

Как найти дубли страниц на сайте

Для поиска дублей можно использовать следующие методы:

поисковая строка Google. С помощью конструкции site:myblog.ru, где myblog.ru - ваш url, выявляются страницы из основного индекса. Чтобы увидеть дубли, нужно перейти на последнюю страницу поисковой выдачи и кликнуть по строке «показать скрытые результаты»;
команда «Расширенный поиск» в Яндексе. Указав в специальном окне адрес своего сайта и вписывая в кавычках одно из предложений проиндексированной статьи, подвергающейся проверке, мы должны получить только один результат. Если их больше - это дубли;
панель инструментов для веб-мастеров в ПС;
вручную , подставляя в адресную строку слеш, www, html, asp, php, буквы верхнего и нижнего регистров. Во всех случаях переадресация должна происходить на страницу с основным адресом;
специальные программы и сервисы : Xenu, MegaIndex и др.

Удаление дублей страниц

Способов устранения дублей также есть несколько. Каждый из них имеет свое воздействие и последствия , поэтому говорить о наиболее эффективном не приходится. Следует помнить, что физическое уничтожение проиндексированного дубликата не является выходом: поисковики о нем все равно будут помнить. Поэтому лучший метод борьбы с дублями - предотвращение их появления с помощью правильных настроек работы сайта.

Вот некоторые из способов устранения дублей:

Настройка Robots.txt . Это позволит закрыть от индексации определенные страницы. Но если роботы Яндекса восприимчивы к данному файлу, то Google захватывает даже закрытые ним страницы, не особо учитывая его рекомендаций. Кроме того, с помощью Robots.txt удалить проиндексированные дубли очень сложно;
301 редирект . Он способствует склеиванию дублей с канонической страницей. Метод действующий, но не всегда полезный. Его нельзя применять в случае, когда дубликаты должны оставаться самостоятельными страницами, но не должны подвергаться индексации;
Присвоение 404 ошибки проиндексированным дублям. Метод очень хорош для их удаления, но потребует некоторого времени прежде, чем проявится эффект.

Когда же ничего склеивать и удалять ничего нельзя, а терять вес страницы и получать наказание от поисковиков не хочется, то используется атрибут rel canonical href .

Атрибут rel canonical на борьбе с дублями

Начну с примера. В интернет-магазине есть две страницы с карточками товаров идентичного содержания, но на одной товары расположены в алфавитном порядке, а на другой по стоимости. Обе нужны и перенаправление не допускается. При этом для поисковиков это явный дубль.

В этом случае рационально использование тега link rel canonical , указывающего на каноническую страницу, которая индексируется, но при этом не основная страница остается доступной пользователям.

Делается это следующим образом: в блоке head кода страниц-дубликатов указывается ссылка «link rel=”canonical” href=”http://site.ru/osnovnaya stranitsa”/» , где stranitsa — адрес канонической страницы.

С таким подходом пользователь может беспрепятственно посещать любую страницу сайта, а вот робот, прочитав в коде атрибут rel canonical, отправится индексировать только ту, адрес которой указан в ссылке.

Данный атрибут может быть полезен и для страниц с пагинацией . В этом случае создают страницу «Показать все» (этакую «портянку») и принимают за каноническую, а страницы пагинации отправляют робота на нее через rel canonical.

Таким образом, выбор метода борьбы с дублированием страниц зависит от характера их возникновения и необходимости присутствия на сайте.

Дубли страниц сайта, их влияние на поисковую оптимизацию. Ручные и автоматизированные способы обнаружения и устранения дублированных страниц.

Влияние дублей на продвижение сайта

Наличие дублей негативно сказывается на ранжировании сайта. Как сказано выше, поисковики видят оригинальную страницу и ее дубль как две отдельные страницы. Контент, продублированный на другой странице, перестает быть уникальным. Кроме того, теряется ссылочный вес продублированной страницы, поскольку ссылка может перенести не на целевую страницу, а на ее дубль. Это касается как внутренней перелинковки, так и внешних ссылок.

По мнению некоторых веб-мастеров, небольшое количество страниц-дублей в целом не нанесет серьезного вреда сайту, но если их число близится к 40-50% от общего объема сайта, неизбежны серьезные трудности в продвижении.

Причины появления дублей

Чаще всего, дубли появляются как следствие некорректных настроек отдельных CMS. Внутренние скрипты движка начинают работать неверно и генерируют копии страниц сайта.

Известно также явление нечетких дублей – страниц, контент которых идентичен только частично. Такие дубли возникают, чаще всего, по вине самого веб-мастера. Это явление характерно для интернет-магазинов, где страницы карточек товаров строятся по одному шаблону, и в конечном итоге различаются между собой лишь несколькими строками текста.

Методы поиска дублированных страниц

Есть несколько способов обнаружения страниц-дублей. Можно обратиться к поисковикам: для этого в Google или «Яндекс» следует ввести в строку поиска команду вида «site:sitename.ru», где sitename.ru – домен Вашего сайта. Поисковик выдаст все проиндексированные страницы сайта, и Вашей задачей будет обнаружить дублированные.

Существует и другой не менее простой способ: поиск по фрагментам текста. Чтобы искать таким способом, нужно добавить в строку поиска небольшой фрагмент текста с Вашего сайта, 10-15 символов. Если в выдаче по искомому тексту будет две или несколько страниц Вашего сайта, обнаружить дубли не составит труда.

Однако, эти способы подходят для сайтов, состоящих из небольшого количества страниц. Если на сайте несколько сотен или даже тысяч страниц, то поиск дублей вручную и оптимизация сайта в целом становится невыполнимыми задачами. Для таких целей есть специальные программы, например, одна из наиболее распространенных - Xenu`s Link Sleuth.

Кроме того, существуют специальные инструменты для проверки состояния индексации в панелях Google Webmaster Tools и «Яндекс.Вебмастер». Ими также модно воспользоваться с целью обнаружения дублей.

Методы устранения дублированных страниц

Устранить ненужные страницы можно также несколькими способами. Для каждого конкретного случая подходит свой метод, но чаще всего, при оптимизации сайта , они применяются в комплексе:

удаление дублей вручную – подходит, если все ненужные были обнаружены также вручную;
склеивание страниц с помощью редиректа 301 – подходит, если дубли различаются только отсутствием и наличием «www» в URL;
применение тега «canonical» - подходит в случае возникновения нечетких дублей (например, упомянутая выше ситуация с карточками товаров в интернет-магазине) и реализуется посредством введения кода вида «link rel="canonical" href="http://sitename.ru/stranica-kopiya"/» в пределы блока head страниц-дублей;
правильная настройка файла robots.txt – с помощью директивы “Disallow” можно запретить дублированные страницы для индексации поисковиками.

Заключение

Возникновение страниц-дублей может стать серьезным препятствием в деле оптимизации сайта и вывода его в топ-позиции, поэтому данную проблему необходимо решать на начальной стадии ее возникновения.

Довольно часто на одном и том же сайте существуют копии страниц, причем его владелец об этом может и не догадываться. При их открытии все отображается правильно, но если вы бросите взгляд на адрес сайта, тогда сможете заметить, что одному и тому же содержанию могут соответствовать различные адреса.

Что это означает? Для простых пользователей в Москве ничего, поскольку они пришли на ваш сайт не на названия страниц смотреть, а потому что их заинтересовал контент. А вот о поисковых машинах этого сказать нельзя, поскольку они такое положение вещей воспринимают совсем в другом свете - они видят отличные друг от друга страницы с одинаковым содержанием.

Если обычные пользователи могут и не заметить на сайте продублированные страницы, от внимания поисковиков это точно не ускользнет. К чему это может привести? Поисковые роботы определят копии как разные страницы, в результате они перестанут воспринимать их контент как уникальный. Если вас интересует продвижение сайта , то знайте, что на ранжировании это непременно отразится. К тому же наличие дублей снизит ссылочный вес, появившийся в результате немалых усилий оптимизатора, который пытался выделить целевую страницу. Дублирование страниц может привести к тому, что будет выделена совершенно иная часть сайта. А это может в разы снизить эффективность внешних ссылок и внутренней перелинковки .

Могут ли дубли страниц принести вред?

Зачастую виновником появления дублей является CMS , неправильные настройки которых или недостаток внимания оптимизатора может привести к генерированию четких копий. Такие системы по управлению сайтами, как Joomla часто этим грешат. Сразу отметим, что универсального средства для борьбы с этим явлением просто не существует, но можно установить один из плагинов, предназначенный для поиска и удаления копий. Однако могут появиться нечеткие дубли, содержимое которых не полностью совпадает. Это чаще всего случается из-за недоработок вебмастера. Нередко такие страницы можно найти в интернет-магазинах , в которых карточки товаров отличаются только несколькими предложениями описания, остальной же контент, который состоит из различных элементов и сквозных блоков, является одинаковым. Часто специалисты соглашаются, что некоторое количество дублей не помешает сайту, но если их около половины или больше, тогда продвижение ресурса вызовет немало проблем. Но даже в тех случаях, когда на сайте несколько копий, лучше их отыскать и устранить - так вы наверняка избавитесь от дублей на своем ресурсе.

Поиск дублированных страниц

Найти дублированные страницы можно несколькими способами. Но перед самим поиском было бы хорошо посмотреть на свой сайт глазами поисковиков: как они его себе представляют. Для этого просто сравните количество ваших страниц с теми, которые находятся в их индексе. Чтобы это увидеть, просто введите в поисковую строку Google либо «Яндекса» фразу host:yoursite.ru, после чего оцените результаты.

Если такая простая проверка предоставит различные данные, которые могут отличаться в 10 и более раз, то есть основания полагать, что ваш электронный ресурс содержит дубли. Хотя это и не всегда происходит по вине дублированных страниц, но эта проверка послужит хорошим основанием для их поиска. Если ваш сайт имеет небольшие размеры, тогда вы можете самостоятельно подсчитать число реальных страниц, после чего сравнить результат с показателями поисковиков. Произвести поиск дубликатов можно и посредством URL, которые предлагаются в поисковой выдаче. Если вы используете ЧПУ, тогда страницы с непонятными символами в URL, такие как «index.php?с=0f6b3953d», сразу же привлекут ваше внимание.

Другим методом определения наличия дублей является поиск фрагментов текста. Чтобы выполнить такую проверку, необходимо ввести текст из нескольких слов каждой страницы в поисковую строку, потом просто проанализировать полученный результат. В тех случаях, когда в выдачу попадает две или больше страниц, становится очевидным, что копии имеют место быть. Если же страница в выдаче только одна, тогда она не имеет дубликатов. Конечно, эта методика проверки подойдет только для небольшого сайта, состоящего из нескольких страниц. Когда сайт содержит их сотни, его оптимизатор может использовать специальные программы, например, Xenu`s Link Sleuth.

Для проверки сайта откройте новый проект и зайдите в меню «File», там найдите «Check URL», введите адрес интересующего вас сайта и нажмите «OK». Теперь программа приступит к обработке всех URL указанного ресурса. Когда работа будет выполнена, полученную информацию нужно будет открыть в любом удобном редакторе и произвести поиск дублей. На этом методы поиска дублированных страниц не заканчиваются: в панели инструментов Google Webmaster и «Яндекс.Вебмастер» можно увидеть средства, позволяющие проверить индексацию страниц. С их помощью тоже можно найти дубли.

На пути решения проблемы

Когда вы найдете все дубли, перед вам появится задача устранить их. Существует несколько возможностей решения этой проблемы и различные способы устранения дубликатов страниц.

Склеивание страниц-копий можно произвести с помощью редиректа 301. Это действенно в тех случаях, когда URL отличаются отсутствием или наличием www. Удалить страницы-копии можно и в ручном режиме, но этот метод успешен лишь для тех дублей, которые создавались вручную.

Решить проблему дублей можно при помощи тега canonical, который используется для нечетких копий. Так, его можно использовать в интернет-магазине для категорий товаров, для которых имеются дубли и которые отличаются лишь сортировкой по разным параметрам. К тому же тег canonical подходит для использования на страницах для печати и в аналогичных случаях. Использовать его совсем не сложно - для каждой копии задается атрибут в виде rel=”canonical”, для продвигаемой страницы с наиболее релевантными характеристиками, этот атрибут не указывается. Приблизительный вид кода: link rel="canonical" href="http://site.ru/stranica-kopiya"/. Располагаться он должен в области тега head.

Правильно настроенный файл robots.txt тоже позволит достичь успеха в борьбе с дублями. С помощью директивы Disallow вы можете перекрыть доступ поисковых роботов ко всем дублированным страницам.

Даже профессиональная разработка сайта не поможет вывести его в ТОП, если ресурс будет содержать дублированные страницы. На сегодняшний день страницы-копии являются одним из часто встречающихся подводных камней, от которых страдают новички. Их большое количество на вашем сайте создаст значительные трудности по выведению его в ТОП, а то и вовсе сделают его невозможным.