В теории поиска говорится о том, что ценность документа для пользователя складывается из так называемых информационных ключей: заголовок, автор, дата публикации, индекс цитируемости и прочее. Чем больше при поиске будет учтено ключей, тем лучше будет оценена значимость какого-либо документа. К сожалению, оценка релевантности документа только по его лексической части приведет к низкому качеству поиска. Поэтому зачастую в как значимый параметр рассматривают индекс цитируемости. Но он также не сможет дать необходимого результата. И люди, в деятельность которых входило ранжирование результатов поиска в электронных библиотеках, высказали мнение о том, что можно осуществлять подсчет не только объема цитируемости, но и определять вес ссылки, поскольку качество статьи складывается как из количества, так и из качества ссылающихся источников.
Изначально значимость документа определялась таким показателем, как импакт-фактор. Но у него были недостатки, главным из которых являлось то, что он – ненормализованная величина, рассматривающая ссылки только за 2-3 года, не обращая внимания на цитирование со значимых для исследований конференций.
Так, на смену импакт-фактору пришел фактор популярности, учитывающий количество сборников, которые ссылают на сборник Х в конкретном году, общее число статей и число статей, которые были опубликованы в этом году в сборнике Х, частоту цитируемости и общее число ссылок.
Конечно, все это касается электронных библиотек, но данная модель используется и для интернет-документов, поскольку ссылочная популярность является одним из факторов для ранжирования. Различные поисковые системы по-разному называют этот фактор. В Гугл – это PageRank, в Яндексе – вИЦ, в Апорте – ИЦ. Но нас интересует именно вИЦ Яндекса.
Вообще в сферу Интернета термин «Индекс Цитирования», как уже стало понятно, пришел из научной литературы. Последняя использовала его для определения значимости той или иной статьи путем подсчета числа упоминаний ее в иных научных трудах. А потому Индекс Цитирования поначалу не был ни «взвешенным», ни «тематическим», и необходим был для определения количества ссылок, ведущих на ресурс.
Но впоследствии стала активно развиваться поисковая система Google, использующая алгоритм PageRank, показывающий вероятность попадания пользователя на страницу, для которой он вычисляется. Эта вероятность определялась внешними ссылками, но при этом учитывалось как их число, так и PR ссылающихся страниц. А учет «веса» этих страниц и является взвешиванием, ведь значимость одной ссылки, но с известной страницы, значит гораздо больше, чем множество ссылок с неизвестных.
Этот метод определения веса стал использоваться в поисковой системе Яндекс и получил название взвешенного индекса цитирования. Сотрудники Yandex расшифровывали данное понятие как показатель авторитетности страницы.
Илья Сегалович (один из основателей Яндекс) высказал свое мнение о том, что взвешенный индекс цитирования позволяет поисковикам бороться с текстовым спамом, целиком разрушающим статистические алгоритмы поиска, которые были получены еще на администрируемых коллекциях. Александр Садовский же говорит о ценности Яндекс.Бара. В частности, последний раньше показывал значение вИЦ гораздо точнее, нежели Toolbar Google. При этом показываемое число относится исключительно к главной странице вне зависимости от веса конкретной страницы, загруженной в данный момент.
Другим источником информации о весе PageRank является каталог поисковика Апорт. Рядом с описанием сайта в таком белом каталоге всегда указывается индекс цитирования главной страницы.
То есть можно провести аналогию взвешенного индекса цитирования в Яндексе с PageRank в Гугл.
Подобно другим ссылочным факторам ранжирования вИЦ определяется из ссылочного графа. Так, узнать приблизительно взвешенный индекс цитирования страниц можно путем проверки их PageRank с помощью любого подходящего инструмента. Но при этом нужно учитывать, что индекс поисковой системы Yandex включает лишь русскоязычные документы и некоторые популярные зарубежные, то есть ссылочный граф в сравнении с Гугл урезается.