SEO-аудит: на что обратить внимание и какие инструменты использовать

генеральный директор веб-студии «АлаичЪ и Ко»

Мы ведем наш дайджест с 2012 года, и обладаем главной базой приемов по продвижению интернет-проектов.

Изначально я планировал написать чисто о техническом аудите сайтов, а потом вспомнил, какие трудности я каждый раз испытываю, договариваясь с очередным заказчиком о проведении аудита. Что будет входить в аудит, какие рекомендации и касательно чего? Если даже мне самому сложно определиться в этом вопросе, даже не представляю, чего будет стоить это вам.

Для кого-то технический аудит — это результат работы какого-нибудь автоматического сервиса для проведения экспресс-аудита, где в результате мы узнаем, какой тИЦ у сайта, сколько страниц проиндексировано в Яндексе и Google, в каких каталогах сайт находится, сколько на него обратных ссылок, увидим тошноту главной страницы и ее title. И что?

Для чего нам знать, сколько страниц в индексе, если понятия не имеем, что это за страницы?
Зачем нам количество обратных ссылок без понимания природы их происхождения?
Зачем нам знать тошноту текста главной страницы, если ее title просто «Главная»?

Зачем нам эта информация?

По моему мнению, именно на такие вопросы и должен ответить аудит. Вопросы, ответы на которые нельзя автоматизировать, ответы, которые требуют углубленного изучения сайта и его бэкграунда.

Не менее сложно определить границы, где заканчивается техническая часть, а где начинается юзабилити или маркетинговая составляющая. Отсутствие кнопки «Заказать в 1 клик» на карточке товара — это техническая недоработка или проблема с юзабилити? А сложности при оформлении заказа в интернет-магазине: слишком большая форма для заполнения или ссылка из письма о подтверждении заказа, ведущая на любую страницу, кроме сообщения об успешном оформлении…

Я могу перечислять бесконечно! Сколько там у меня за плечами аудитов за мою практику… 200… 300, может, 500? И все они были комплексные, потому что нельзя просто так взять и пройти мимо очевидной ошибки, следуя формальностям, мол, это не относится к технической части.

Что решает аудит

Итак, примерное понимание, для чего нужен технический аудит, у вас уже должно быть.

Постараюсь формализовать список задач, которые должен решать аудит:

Технические моменты: 404 ошибки и битые ссылки; дубликаты страниц и повторы title; настройка метатегов; использование заголовков на страницах; чистота и корректность кода страниц; соответствие базовым требованиям поисковых систем;
Индексация сайта: какие страницы на сайте доступны для индексации, а какие по факту в индексе; нет ли проблем с метатегами, отвечающими за индексацию;
Скорость загрузки сайта и отдельных страниц, выявление причин медленной работы сайта;
Работоспособность сайта и его составляющих;
Функционал сайта, соответствие его требованиям и алгоритмам поисковых систем для определенных тематик и типов запросов.

Как видите, фронт работ колоссальный. Разобраться со всем этим, если вы не специалист, будет сложно, а для кого-то и невозможно.

А если говорить о стоимости услуг, то первые 3 пункта будут стоить 20 000 р. (сумма актуальна на ноябрь 2016г.), т.к. максимально поддаются автоматизации, а все время работы занимает перечисление, описание и объяснение, где, что и как надо сделать. Все пять пунктов, скажем, могут стоить уже 50 000 р. И может быть, эти три дополнительных пункта выльются всего в 1–2 листа рекомендаций, но за ними стоит серьезная работа. Сколько, по-вашему, может стоить сообщение о том, что форма заявки на вашем сайте не работает? Или кнопка «Продолжить» в корзине постоянно перебрасывает пользователя на первый шаг и не продолжает оформление заказа? И вопрос тут в другом — а какие убытки вы понесете! Бесценно. И ситуации эти реальны, они из моей практики. (Возвращаясь к ценам, скажу, у московских SEO-компаний все будет в 3–5 раз дороже, а у средненького фрилансера в 2 раза дешевле. Решать вам.)

Инструменты, необходимые для проведения полноценного аудита

Панель Вебмастера Яндекса

Как только вы создаете сайт либо берете клиентский сайт на продвижение, первое, что надо сделать — получить (создать) доступ в панель Яндекс.Вебмастера и Яндекс.Метрику. Это не требует никаких специальных знаний. Потом зайдите в раздел уведомлений в панели Вебмастера.

Нет времени объяснять, просто смотрите:

Важно ли это? Очень важно!

Панель Вебмастера Яндекса обрела новую жизнь, когда ее обновили до версии 2.0. В разделе «Диагностика» сообщают о критических и возможных проблемах и выдают рекомендации. В разделе «Безопасность» сообщают о вирусах и вредоносном коде, в «Нарушениях» — о наложенных фильтрах (например, если вы перестарались со ссылками и получили Минусинск).

Следующий важный раздел — «Индексирование», где можно посмотреть, какие страницы проиндексированы, какие участвуют в поиске, а какие отдают ошибки.

Отдельное спасибо за то, что все данные из панели можно выгружать в виде архива, где, по их словам, содержится исчерпывающая информация. Жалко, что с этими данными нельзя взаимодействовать, например, отметить проблемы с несуществующими или запрещенными к индексации страницами как решенные, чтобы пропали из статистики, как это сделано в Google Search Console. Но, с другой стороны, забот меньше, не так ли? :)

Что еще стоит обязательно сделать в панели Вебмастера Яндекса:

Добавить файлы sitemap.xml;
В разделе «Переезд сайта» указать основное зеркало;
В разделе «Региональность» указать регион либо убедиться, что указан нужный регион;
Выбрать регистр сайта. Просто для красоты либо в надежде, что это немного увеличит CTR на выдаче;
В «Быстрых ссылках» провести ревизию, чтобы показывались только самые важные ссылки в нужном порядке. Об изменениях в быстрых ссылках приходят сообщения в «Уведомления»;
Все остальное уже по ситуации и в зависимости от требований.

Обычно я договариваюсь с заказчиком, что все настройки в панели произвожу сам, потому что описывать, что и как сделать, намного дольше, чем все настроить самостоятельно.

Google Search Console (Панель для вебмастеров)

Добавить сайт в панель Google — это такое же необходимое действие. Здесь есть раздел с важными сообщениями, где хранятся рекомендации для сайтов, и сообщения об ошибках:

Сайт плохо индексируется? 404 ошибки? Вам сообщат!

Немного раздражает, что для указания главного зеркала сайта (Шестеренка в правом верхнем углу — Настройки сайта — Основной домен) необходимо все зеркала добавить и подтвердить в панели и только потом для зеркал указывать основной сайт. Потом все эти зеркала для всех сайтов будут в общем списке болтаться. Бесит!

Следующий важный раздел: Вид в поиске — Оптимизация HTML. Стоит обратить особое внимание на пункт «Повторяющиеся заголовки (теги title)». Дубликаты title говорят о серьезных недочетах. Основных причин несколько: у вас некорректно формируются title, у вас есть дубликаты страниц, не закрыты от индексации «лишние» страницы.

Раздел «Меры, принятые вручную» — здесь по аналогии с Яндексом (на самом деле это у Яндекса по аналогии с Google) показываются примененные к сайту фильтры. Не все, а, как следует из названия, только наложенные вручную: фильтр за переоптимизацию и фильтр за ссылочный спам.

Сканирование — Ошибки сканирования — здесь вы найдете ошибки внутри сайта, связанные с недоступностью страниц, которые либо удалены, либо сервер вовремя не ответил или выдал ошибку. Таблицу можно выгрузить в архив, но исчерпывающих данных вы все равно не получите. Не знаю почему, но Google зажал полный список и отдает только часть. Зато решенные проблемы можно отметить, и они тут же пропадут из статистики.

Вообще, в панели Google больше вопросов, чем ответов: зачем нам просто циферки, когда гораздо важнее знать, что за ними скрывается? В карте сайта проиндексировано 1000 страниц из 10 000 и что дальше? Какие это страницы, почему не индексируются? Не понятно. Google очень скуп на информацию для вебмастеров. Единственное, что можно выгрузить полностью — это беклинки.

Раньше я часто заходил в Search Console, но с появлением Вебмастера 2.0 Яндекса я делаю это все реже и реже.

Программа Comparser

Думаю, почти все вы, дорогие читатели, знаете мою программу. Программа немного платная, но можно скачать демоверсию и посмотреть дополнительную информацию на промосайте (правда, он не обновлялся с 2014 года, но программа обновляется регулярно). Программа разрабатывалась под требования и нужды моей веб-студии. Она позволяет быстро и эффективно находить на сайтах технические ошибки: битые ссылки, страницы имеющие проблемы с индексацией (некорректный мета robots или canonical), дубликаты title и страницы с пустым тегом, дубли заголовков h1, внешние ссылки по типам и еще много чего. Большую часть из перечисленного умеют делать и аналоги, но у Comparser есть уникальная функция — парсинг поисковых систем и сравнение индекса со структурой сайта.

Самые распространенные ошибки на сайтах

Далее я буду рассказывать о самых распространенных ошибках на сайтах. Их легко найти, работая с Comparser'ом или любой другой программой для поиска этих проблем на своем сайте.

Заголовок title и его оптимизация

Title по праву считается самым сильным тегом во внутренней оптимизации, соответственно, ошибки с ним считаются одними из самых грубых. Это очень частая проблема: более 90% всех сайтов, что приходят ко мне на аудит или продвижение, имеют проблемы с дубликатами. Причин много, но среди самых распространенных:

Дублирование на страницах листингов в интернет-магазинах (постраничная навигация, когда товаров в категории очень много). Это решается добавлением приставки «- страница XX» в title, простановкой тега rel=”canonical” с указанием на первую страницу либо, проще всего, закрытием страниц /*/page, *?page= и т.п. в robots.txt. Страницы пагинации часто дублируют title первой страницы не только в интернет-магазинах, но и на других типах сайтов.
Сортировки — бич любого каталога. Хотите отсортировать товары по цене, наличию или просто расположить витрину не списком, а плиткой — пожалуйста. Куча дублей — пожалуйста! Я всегда рекомендую делать сортировки при помощи технологии AJAX, чтобы сортировка товара происходила без перезагрузки страницы и без перехода на другой URL. Иногда это сложно реализовать, потому альтернативой послужит использование rel=”canonical”, либо совсем простой способ — закрыть параметры сортировки в robots.txt.
На сайтах с однотипными товарами возникает много дублей. Например, шины, где для одной модели кроме типоразмеров существуют такие характеристики, как максимальная масса нагрузки или максимальная скорость. Для платьев одного дизайнера и одной модели может быть разный размер, цвет, артикул. Для штор может быть уровень затенения, ширина и длинна шторы. В title по умолчанию добавляется название товара из базы, а в результате куча дублей и вместо всех карточек товара нормально ранжируется только одна, предпочтение которой отдал поисковый робот. Как поисковик смотрит? Одинаковый title, ага. Одинаковый description, ага. Одинаковое название на странице, ага. Значит, это дубль, надо выбрать только одну уникальную карточку товара. Решается добавлением уникальных параметров товара в title.
В интернет-магазинах часто применяются индексируемые фильтры. Например, по бренду или другой какой-то характеристике. И без должного внимания страницам фильтров присваивается title от родительской категории. А ведь такие индексируемые SEO-фильтры — это кладезь низкочастотного трафика: фильтры легко масштабировать, настраивать по шаблону, и пусть даже каждая страница принесет по одному посетителю в месяц, благодаря их количеству счет идет на тысячи потенциальных покупателей.
Некоторые движки уже настолько изучены (Битрикс, который чаще всего встречается среди наших клиентов), что даже не надо никакой программы, чтобы предположить, где скрываются проблемы. Практика показывает, когда программисты сдают сайт, за настройками для SEO никто не следит. Вообще-то они и не должны, ведь разработчики отвечают за продакшн: чтобы выглядело хорошо и работало без проблем. Поэтому прежде чем принимать работу, проконсультируйтесь с SEO-специалистом, чтобы устранить недочеты на старте.

Заголовок h1 и нецелевое использование заголовков

Еще одним сильным элементом внутренней оптимизации страниц является заголовок h1 — это основной заголовок страницы, который предназначен для посетителей. Распоряжаться этим заголовком уже многие научились и даже до верстальщиков донесли, что основной заголовок страницы должен быть обернут в h1. Поисковые роботы придают значение содержимому заголовка, поэтому нельзя пренебрегать и использованием ключевых слов в нем.

Ошибки тем не менее допускают нередко. Согласно канонам, главный заголовок должен быть один на странице. И точка! Но некоторые верстают в h1 логотип и/или название сайта в шапке — это очень частое явление. Использовать главный заголовок повторно при верстке текста на странице тоже неверно, ведь для этого и придумали h2, h3, h4, h5 и h6 (я рекомендую ограничиться использованием только h2 и h3).

Пример нецелевого использования я привел выше — обернуть логотип в заголовок. Часто при верстке макета заголовки блоков в сайдбаре верстаются заголовками. Это неправильно, заголовки не должны использоваться в сквозных элементах при оформлении дизайна. Заголовки надо использовать только для самого основного контента страницы, иначе они теряют свою эффективность.

404 ошибки и битые ссылки

Не буду объяснять, почему наличие ошибок внутри сайта плохо. Их надо просто взять и исправить. Они могут появляться по разным причинам: на сайте удаляются неактуальные публикации, при верстке текста контент-менеджер неправильно скопировал ссылки, при смене структуры url не сделали редиректы и внутренние ссылки умерли. Это случается со всеми, поэтому сканировать сайт надо периодически.

При обходе сайта Comparser формирует сводку по всем кодам ответа сервера, зеленым отмечено, где все окей, желтым — предупреждение, красным — ошибка.

Нажимаем на интересующую строку, выведется список битых ссылок, а также источник (страница, с которой стоит злосчастная битая ссылка.)

Среди вебмастеров самая известная программа для поиска битых ссылок на сайте — Xenu's Link Sleuth. Программу нельзя назвать удобной или красивой, самая популярная она лишь благодаря своей бесплатности. По заявлению на официальной странице она работает в Windows 10 несмотря на то, что последнее обновление программы датировано 2010 годом. Сам не проверял, я ей не пользуюсь.

301 и 302 редиректы

Редиректы — это и не хорошо, и не плохо. Но только в том случае, если вы знаете, как и для чего их надо использовать. Поэтому в программе редиректы помечены желтым цветом — значит, надо обратить внимание.

301 редирект — это постоянный редирект, который говорит поисковому роботу, что страница переехала на новый адрес. Навсегда. А значит, старый адрес надо забыть и ассоциировать его с новым. При склейке адресов передаются свойства старой страницы. Входящие ссылки, траст и т.д. 301 редирект используется при переезде сайта с одного домена на другой, при смене структуры формирования адресов на сайте, а также для уничтожения дублей страниц.

302 редирект — это временный редирект, который говорит поисковику, что страница лишь временно сменила адрес и что ее нельзя выкидывать из индекса. 302 редирект на практике используется редко, гораздо чаще он встречается как ошибка, когда должен был использоваться 301 редирект, но по невнимательности программисты поставили 302 редирект (в веб-серверах под управлением *nix систем команда для редиректа по умолчанию использует 302 редирект, если отдельно не указано использование 301 редиректа). Так что, скорее всего, 302 редирект вам не нужен.

Любые редиректы внутри сайта использовать не следует, надо, чтобы все ссылки были прямые и вели сразу на конечную цель. Редирект нужен для того, чтобы не потерять внешние ссылки и связи, ведь на внешних источниках мы не можем вручную исправить ссылки.

Исходящие ссылки — что с ними делать?

Многие переживают из-за внешних ссылок на сторонние сайты. Типа вес страниц «утекает», поисковики могут хуже относиться к сайтам с множеством внешних ссылок и т.д. Насчет внешних ссылок должны переживать только те, кто занимается продажей ссылок в биржах, потому что могут не пройти по фильтрам. А поисковики относятся негативно только к продажным и нетематическим ссылкам, а если ссылки ведут на авторитетный сайт или документ, который дополняет написанное на странице, так за что тут наказывать?

Для совсем уж одержимых (таких, как я), чтобы все было идеально и красиво, могу посоветовать просканировать все внешние ссылки с сайта и закрыть их в nofollow, а все битые ссылки на внешние сайты либо удалить, либо исправить. Вот типичная карта внешних ссылок на инфосайте от года и старше:

Обращаю ваше внимание на то, что несколько лет назад принцип действия атрибута nofollow для ссылок изменился. Раньше использование этого атрибута пресекало «утекание» веса со страницы по ссылке, а теперь все иначе — вес все равно утекает, но не достигает той страницы, на которую ведет ссылка, то есть попросту испаряется. Таким образом атрибут nofollow лишь говорит поисковому роботу, что ссылку не надо учитывать, передавать по ней вес и Page Rank.

Альтернативные программы и сервисы

Выше я рассказывал о том, как найти и определить ошибки при помощи программы ComparseR, а ниже приведу список альтернатив, которые вы можете рассмотреть и выбрать для себя что-то более удобное.

Xenu’s Link Sleuth (desktop, windows, бесплатно) — эту программу от немецких коллег-разработчиков я уже упоминал. Является самым распространенным и очень популярным среди вебмастеров инструментом для поиска битых ссылок и несуществующих страниц. Если у вас нет в арсенале других платных программ, начните с «Ксены».

Screaming Frog SEO Spider (desktop, мультиплатформенная, £149 (или 11550р.) /год, есть демо) — так же очень известная программа среди специалистов в рунете. Чуть ли не единственная программа такого рода для не-windows систем. Работает быстро, точно и определяет множество проблем, имеет еще большее множество настроек. Но есть несколько существенных недостатков. Первый — на больших сайтах с десятками тысяч страниц программа «падает» особенно на слабых компьютерах, связано это с тем, что программа хранит все ссылочные связи всех страниц внутри сайта. Это далеко не всегда необходимо, но отключить это нельзя, так что для больших сайтов программа не подходит. Второй недостаток — почему-то платформа java, на которой написана программа, не адаптируется под масштаб в Windows: у меня 15” ноутбук с разрешением экрана 3840х2160, конечно, это редкость, но я не могу рассмотреть интерфейс даже под увеличительным стеклом. Если эти недостатки не про вас, в остальном программа прекрасная.

Netpeak Spider (desktop, windows, $14 (или 900р.) /мес., есть 14-дневный триал) — известная программа, которая раньше была бесплатной, но не сильно функциональной, с недавних пор за программу серьезно взялись, собрали команду и пошли в гору. Отличная программа, которая справится со всеми задачами, которые мы обсуждали выше, только вот теперь придется периодически платить.

PageWeight (desktop, windows, 1500р., есть бесплатная lite-версия) — этой программой я пользовался очень и очень давно, когда аналогов не было, либо я о них не знал. На самом деле, программа делает расчет статического веса внутри сайта, чтобы понять, на какие страницы ссылаются чаще, а какие недополучают ссылок. Но так как параллельно программа собирает в таблице информацию о title, коде ответа сервера и битые ссылки, можно частично покрыть наши требования по аудиту. Почти 5 лет назад я делал обзор программы и писал, как ее использовать. Есть у lite-версии программы старший брат PW desktop, который использует уже SQL базу данных, за счет чего можно обходить сайты гораздо бОльших размеров, сохраняя все ссылочные связи.

СайтРепорт (saas, от 125р до 25000р за анализ, до 50 страниц — бесплатно) — прекрасный сервис, когда я его нашел впервые, а было это лет 5 назад, мне он очень понравился (он был еще в бете и сканил до 250 страниц бесплатно, а мне этого и хватало). Сейчас его можно сравнить с любым десктопным софтом, только возможностей намного больше, плюс красивые графики отчеты и прочее. Под наши требования проведения технического аудита подходит, и даже больше: например, поможет найти дубли текстов на не одинаковых страницах на сайте или частичные совпадения. Если бы не высокая стоимость проверки сайтов, я бы пользовался данным сервисом постоянно.

Google PageSpeed Insights

Очень полезный и простой инструмент, который покажет вам две важные вещи: удобство для пользователей мобильных устройств и скорость загрузки сайта с оценкой по 100-бальной шкале. Я сразу оговорюсь, что к 100 баллам стремиться совсем не обязательно, потому что они труднодостижимы, и в погоне за ними вы можете просто испортить сайт. 70–80 баллов будет достаточно, а вот меньше 50 — это повод для тревоги!

Про мобильную версию или адаптивную верстку для мобильных пользователей я молчу, тут и ежу понятно, что надо брать и делать.

Если ваш сайт находится в красной зоне (ниже 50 баллов), советую обратить внимание на 2 самых важных пункта, исправление которых и повысит баллы, и увеличит быстродействие сайта для реальных посетителей: «Используйте кеш браузера», «Включите сжатие». Разверните эти пункты и увидите перечень адресов: если там есть ресурсы с вашего домена, значит, надо исправлять. Обычно это решается корректной настройкой движка сайта, установкой модуля либо добавлением нескольких строк в .htaccess. Если вы мало что поняли из сказанного, попросите программиста, он вам за пару часов все сделает.

Кстати, почему достижение 100 баллов является задачей нетривиальной? Потому что среди ресурсов, требующих оптимизации, есть счетчики Метрики и Google Analytics, сторонние JS, особенно скрипты соцсетей, необходимые для отображения виджетов или кнопок. Иногда исправить это просто невозможно, а главное, что и быстродействия не добавит (современные скрипты подгружаются асинхронно)!

Индексация сайта: изучение и настройка

Выше мы говорили о том, как заставить страницы лучше ранжироваться, но не затронули вопрос, как заставить страницы лучше индексироваться. А ведь индексация идет прежде, чем ранжирование, соответственно, нет смысла оптимизировать непроиндесированную страницу.

Проблемы с индексацией встречаются чаще всего на больших сайтах: чем больше сайт, тем больше проблем. Сейчас расскажу про настройку сайта для хорошей индексации.

Настройки индексирования внутри сайта

Первое, что нужно сделать — это запретить для индексации все технические страницы, которые не представляют интереса для поисковиков и не предназначены для привлечения трафика. Лучше всего закрывать страницы от индексации при помощи метатега robots вместо файла robots.txt. Google, несмотря на запреты в robots.txt, все равно добавляет страницы в индекс, но их содержимое не ранжирует. Однажды я уже подробно описывал, как и почему это происходит.

Также стоит исключить очень похожие страницы и дубли (об этом мы уже говорили выше). Если на сайте есть одинаковые или похожие страницы, поисковым роботам будет сложно определить нужную релевантную страницу, а мы не будем понимать, куда приземляются посетители, наши ожидания не совпадут с реальностью, и это, поверьте, большая проблема. Бывает, что поисковикам неохота выбирать правильную страницу из набора похожих, и они предпочтут вообще не ранжировать ваш сайт, а отдать предпочтение другим сайтам, где такой проблемы нет.

Есть такой термин — каннибализация — негативное влияние использования одних и тех же ключевых слов на разных документах сайта. Вы заставляете поисковые системы выбирать, но что еще хуже, вы запутываете посетителя и теряете контроль над его поведением на сайте, ухудшаете поведенческие факторы и сами не знаете, какую страницу продвигать. Золотое правило — под один ключевой запрос (группу схожих ключевых запросов) должна быть только одна единственная релевантная страница. Если на вашем сайте есть такая проблема, используйте редирект на приоритетную страницу либо пропишите canonnical.

Кроме закрытия ненужных страниц важно не ссылаться на эти самые ненужные страницы. На сайте не должно быть внутренних ссылок на закрытые страницы, потому что поисковики будут все равно на них рваться. Для фанатов «веса» страниц стоит сказать, что из-за таких ссылок утекает вес сайта в никуда — голактеко опасносте, господа! В противном случае статистика сайта в панелях Вебмастера будет замусориваться отчетами о страницах, запрещенных к индексации. Лично меня эта статистика угнетает, мешает изучать реально существующие проблемы, и я постоянно думаю, что что-то пошло не так.

Слышали что-нибудь про «краулинговый бюджет»? Это некий отведенный поисковыми роботами лимит страниц для вашего сайта, которые робот обойдет и, возможно, добавит в индекс. И чем больше ненужных страниц встретится на пути, тем меньше полезных страниц будет проиндексировано. Нередки случаи, когда на сайте страниц много, а находится в индексе в десятки, сотни, а то и тысячи раз меньше страниц. Иногда большим сайтам не хватает этого самого бюджета, а иногда до страниц банально очень сложно добраться. Обязательно создайте xml и html карту сайта, настройте сервер, чтобы он максимально быстро отвечал за запросы.

И не забывайте про перелинковку, но такую, чтобы была полезна посетителям. Для информационных сайтов это может быть блок ссылок на публикации из той же категории. Ссылки на публикации по теме из тела статьи — аля Википедия. Для интернет-магазинов прекрасно работают блоки ссылок на похожие по характеристикам товары и ссылки на сопутствующие товары. Все это принесет пользу не только посетителям вашего сайта, но и позволит поисковикам лучше и быстрее индексировать полезные страницы.

Для своих инфосайтов я эффективно применял кольцевую перелинковку — это когда одна публикация имеет блок ссылок на 5 предыдущих публикаций сайта, и так по кругу. Каждая публикация ссылается на соседние, в итоге все публикации на сайте получают одинаковое количество внутренних ссылок, никто не остается обделенным.

Эта методика прекрасно себя показала, и мне удалось добиться 100% индексации на своих сайтах.

Изучение поискового индекса сайта

Когда я только думал над созданием программы Comparser, ключевой особенностью я видел возможность парсить индекс поисковой системы и сравнивать с тем, что есть на сайте. Ценность заключалась в том, чтобы найти непроиндексированные страницы и пакетно загнать их в аддурилку. Но до меня быстро дошло — ценность в том, чтобы найти то, что на сайте отсутствует.

Понимаете, о чем я? Вот к примеру, на ваш сайт залили дорвей, как вы об этом узнаете? На него не оставят внутренних ссылок, он никак не будет связан с вашей CMS и никак не повлияет на работу сайта. Бывают случаи, когда злоумышленники берут и копируют частично дизайн вашего сайта вместе со счетчиками для страничек на своем дорвее. Дорвей выстреливает, и на него начинает идти трафик. В Метрике вы увидите всплеск посещаемости по совершено невообразимым для вас запросам (почему-то такое часто возникает на Битриксе, я несколько раз становился свидетелем «взрыва» посещаемости на клиентских сайтах именно на Битриксе). Но что если счетчик не скопировали, сколько времени пройдет, пока вы заметите? Вы заметите это, когда ваш сайт погибнет вместе с дорвеем. Дорвеи горят ярко и живут недолго, они состоят из большого количества страниц, каждая из которых заточена под один поисковый запрос и сильно переоптимизирована. Если размер вашего сайта сильно меньше, чем размер дорвея, когда поисковик начнет «выпиливать» дорвей, ваш сайт уйдет на дно вместе с ним, как незначительная небольшая его часть.

Чтобы вовремя заметить беду, надо периодически парсить поисковый индекс вашего сайта. С этой задачей прекрасно справляется Comparser — показать все, что скрыто:

Страницы, которые нашлись на сайте, но отсутствуют в индексе, надо заставить проиндексироваться. Раньше, когда была старая версия Яндекс.Вебмастера, существовала аддурилка — туда можно было поштучно отправлять любые адреса, и они становились в очередь на индексацию. Вручную это делать было нереально (вставлять адрес, вводить капчу), но Comparser это автоматизировал. Только вот лавочку прикрыли, аддурилку Яндекс убрал. Теперь единственным вариантом заставить страницы индексироваться — это те приемы, о которых я рассказывал в предыдущем блоке.

В Google лавочку с добавлением страниц не закрыли, но защитили — раньше там была классическая рекапча, которую индусы щелкали на раз, теперь там стоит новомодная штуковина, заставляющая сопоставлять картинки по смыслу, если вас заподозрили в «роботизме». В итоге автоматическое добавление страниц на индексацию обломилось везде :(

Все непросто — это когда найдены страницы в индексе поиска, а на сайте при обходе почему-то не обнаружены. Надо понять, что это за страницы и почему они не найдены при обходе сайта:

Удаленные страницы, 404 Not Found. Бывает, что товары из магазинов пропадают, записи снимаются с публикации. Соответственно, на сайте этих страниц уже нет, и ссылок на них тоже. А в индексе эти страницы могут остаться и выдавать ошибку. Надо взять список этих страниц и закинуть в инструмент пакетного удаления из индекса. Это еще работает для Яндекса и Google.

Страницы товаров, запрятанные далеко в каталоге. Если в интернет-магазине много товаров, а в категориях присутствует постраничка, которая закрыта от индексации, чтобы избежать дублирования, может случиться так, что до многих товаров невозможно добраться. И добраться не может не только программа-краулер, но и поисковые роботы, так что такие страницы из индекса со временем выпадут, а нам этого не надо. Разберитесь с перелинковкой.
Дубли! Откуда они могут взяться? Параметры! Вы ведете контекстную рекламу и используете utm-метки, люди переходят по ссылкам с этими метками, и они индексируются. У вас на сайте есть партнерская программа, в которой любой партнер подставив в url страницы в конце параметр ?PartnerId=123 привлекает рефералов. Параметры могут взяться из самых неожиданных мест, а вы можете об этом и не знать. Страницы с параметрами полностью дублируют аналогичные страницы без параметров, но индексируются наравне с ними и являются дублями, портя карму вашему сайту и отдельным страницам. Такие дубли надо решать при помощи rel=”canonical”.

Дорвеи. Я про них уже говорил, но теперь покажу, как это выглядит. Краны, подъемники, вакансии компаниии… А потом бах — простата, виза в польшу, атанасян, бацзы! Что? О_о

В данном примере дорвей уже удалили, но в индексе он еще болтается:

Все это барахло: несуществующие страницы, ошибки и прочее надо удалять с сайта, закрывать от индексации и пакетно удалять из индекса. Благо, такая возможность есть, автоматизация реализована, а лавочку пока не прикрыли.

Я уже упоминал, что в новой панели Вебмастера Яндекса сделали возможность выгрузить любые данные архивом для изучения. Comparser мы научили выкачивать архив, забирать оттуда проиндексированные страницы и добавлять в таблицу. Таким образом можно обойти ограничение поисковой выдачи на 1000 результатов и получить 100% точный результат индексации сайта. Это облегчает задачу многократно, а вот в Google есть проблемы, там не только в панели Вебмастера скудные данные, но и в выдаче — получить все проиндексированные страницы невозможно, даже если их совсем небольшое количество. Зато наличие и разнообразие проблемных страниц в индексе, даже закрытых от индексации, компенсирует этот недостаток.

Сила в простоте

Около 3-х лет назад я решил написать пост, придумал ему интригующий заголовок «SEO-дрочерство» и…не написал его. Хотя черновик валяется, а значит, я его когда-нибудь допишу. Смысл в этот пост я хотел вложить следующий: сложные вещи в SEO не работают, они не нужны. А работают очевидные вещи. Когда поддержка Яндекса говорит вам «делайте качественные сайты для людей», думаете, они вас тролят? Вовсе нет!

С оригиналом статьи Вы можете ознакомиться на Блоге АлаичЪ'а.