Дублирование контента

Опубликовано: 05.09.2018

видео Дублирование контента

Как избежать дублирования контента в индексе

Здравствуйте, уважаемые читатели! Задумывались ли вы когда-нибудь о такой проблеме как дублирование контента? Нет? Очень зря, ведь дублирование контента актуально для многих сайтов, особенно для блогов. Сегодня будем разбираться с этим всеми подручными способами, заодно научимся проверять текст на уникальность.



Дублирование контента можно разделить на следующие составляющие:

страница сайта доступна более чем по одному URL адресу — для решения этой проблемы используется редирект 301, который прописывается в файле .htaccess; контент содержит не уникальный текст, который встречается на сторонних интернет ресурсах (преднамеренно или нет) — используются теги noindex и blockquote; на сайте присутствуют страницы, состоящие из кусков контента других страниц сайта (например, с результатами поиска) — запрет индексации с помощью файла .htaccess

Разберем каждую составляющую проблемы дублирования контента и способ ее решения подробнее.


Чужой Контент Дублирование на YouTube

Canonical URLs

Проблема наличия у одной страницы сайта нескольких URL адресов особенно актуальна для современных CMS. Приведу пример. Если с главной моего блога, перейти на запись, используя ее заголовок, то ее URL будет:

Настройка WordPress и подготовка блога к работе

А если нажать на ссылку «Читать дальше» в конце анонса, то URL уже будет иметь вид:


Дублирование медиа контента на телевизорах Самсунг

http://fairheart.ru/wordpress/osnovy-sozdaniya-bloga/nastrojki-wordpress.html #more-669

Фактически, мы получаем одну страницу по двум URL адресам. Первыми об этой проблеме задумались в Google. Они ввели новый тег canonical , который добавляется между открывающим и закрывающим тегом head страниц дубликатов и указывает основной URL адрес, тем самым сообщая поисковикам, что необходимо добавить в поиск, а что исключит. Инициативу Google поддержали Yahoo и Microsoft. В настоящее время тэгом canonical умеет пользоваться и Яндекс, что не может не радовать.

Синтаксис:

< link rel = 'canonical' href =http : //fairheart.ru/wordpress/osnovy-sozdaniya-bloga/ nastrojki -wordpress .html ' />

В атрибуте href указывается адрес основной страницы, которая и будет учитываться поисковиками.

С помощью каких средств, современные CMS позволяют настроить canonical URLs:

WordPRess — плагин All in One Seo Pack. Помимо автоматической настройки canonical URLs, этот плагин позволяют запретить индексацию контента с возможными дубликатами, а также отвечает за создание title и мета тегов keywords, description ); Joomla — модуль Canonical URL; Drupal — модуль Nodewords

Для WordPRess проблема дублирования контента очень актуально. Это связано со стандартными древовидными комментариями — каждый ответ в комментариях создает страницу с идентичным содержимым но по новому URL адресу. Данная проблема получила название «replytocom» — по имени функции, отвечающей за ответы в комментариях WP. Как ее решить, читайте здесь .

Noindex и blockquote

Тег blockquote предназначен для добавления цитат и заимствованного текста. Визуально цитаты выделяются отступом слева и справа, сверху и снизу. В настоящее время для цитат все чаще используются стандартные блочные теги div с добавлением к ним соответствующих стилей, при этом забывается, что blockquote помимо визуальной составляющей, несет в себе и смысловую нагрузку. Он указывает поисковым системам, что текст в нем взят из стороннего источника.

Синтаксис:

< blockquote > Текст </ blockquote >

Так же как и для любого элемента div, для него можно указать свои стили.

Помимо blockquote рекомендуется заимствованный контент заключать в тег noindex, который запрещает его индексацию для поисковой системы Яндекс. К сожалению, Гугл не понимает его, но он более лоялен к заимствованному контенту.

Синтаксис:

< noindex > Запрещаем индексация этого текста </ noindex >

Если вы стремитесь сделать код сайта валидным, то следует использовать несколько измененный синтаксис:

<!-- noindex --> Запрещаем индексацию данного текста .<!--/ noindex -->

Не путайте noindex с одноименным мета тегом, который прописывается в заголовке head исходного кода . Мета тег noindex запрещает индексацию целиком страницы, а тег noindex закрывает только тот текст, что находится между его открывающей и закрывающей частями. Не забывайте закрывать тег noindex!

Конечно, если вы используете намеренно контент со сторонних интернет ресуров, то сами знаете, какой участок теста следует запретить индексировать или оформить в качестве цитаты, но что если написанный вами текст содержит части, которые встречаются на других сайта? Следует проверить текст на уникальность. Для этого можно воспользоваться простой и бесплатной программой , от одноименного сервиса Advego. Данная программа наглядно показывает куски теста, которые уже встречаются на других интернет ресурсах. Их следует изменить и проверить текст на уникальность еще раз. Если изменить текст не представляется возможным, тогда уже используйте noindex и blockquote.

Другие способы борьбы с дублированием контента

Проблема дублирования контента не может быть решена только использованием canonical URLs и тегов noindex и blockquote. На сайте всегда присутствуют страницы, которые полностью или частично состоят из заимствованного контента который встречается на том же сайте. К ним можно отнести результаты поиска, версии для печати, метки и теги, на блоге — главная и категории с анонсами статей. Если с главной и категориями блога ничего сделать нельзя — можно только ограничить объем анонсов статей, то другие элементы с дублированным контентом следует запрещать индексировать. Для этого необходимо создать и правильно настроить файл robot.txt .

Кроме того, ваш сайт может быть доступен по нескольким адресам — с приставкой www или без, а главная еще и по http://vash_sayt.ru/index.html или http://vash_sayt.ru/index.php. Поисковики могут воспринимать эти адреса как разные сайты. Чтобы подобного не произошло, необходимо указать главный адрес или, как его еще называют, главное зеркало. Для этого используется файл .htaccess , в котором задается редирект 301 (перенаправление) со второстепенных адресов на основной.

На этом все, спасибо за внимание!

Лучший способ выразить благодарность автору - поделиться с друзьями!

Узнавайте о появлении нового материала первым! Подпишитесь на обновления по email:

Следите за обновлениями в Twitter и RSS.

rss