Вопреки интуиции

Группа ученых из США, Израиля и Швеции разработала новый метод определения влиятельности пользователей социальных сетей и блогеров. Лента.Ру для начала разобралась в его деталях, а потом попробовала себе представить, как выглядел бы рейтинг российской блогосферы, составленный при помощи этого метода. Обнаружилось много занятного.

Матчасть

Главным инструментом при изучении сетей самых различных видов является теория графов. Формально граф определяется как пара множеств V (вершин) и E (ребер), в которых каждому ребру из E поставлена в соответствие пара вершин из V. Данный объект можно представить себе просто как схему на листе бумаги, состоящую из точек, некоторые из которых соединены линиями.

При помощи графов ученые моделировали социальные сети. В данном случае вершины графа (точки) - это пользователи, а ребра (линии) - информационная взаимосвязь между пользователями. В каждом конкретном случае природа этих связей была различна: например, в ЖЖ, который послужил одним из объектов изучения, ребра соединяли "френдов". Или вот в сети, составленной из актеров кино категории "для взрослых", ребра соединяли актеров, которым довелось играть в одном фильме. Разумеется, подобные схемы были слишком громоздки для непосредственного рисования (только для ЖЖ в распоряжении ученых были данные о 5,5 миллиона пользователей), поэтому все работы проводились на компьютере.

Одной из целей исследования была классификация пользователей по их влиянию на распространение информации. Однако как это сделать? Первое, что приходит в голову - пользователь тем влиятельнее, чем больше у него друзей. Однако это убеждение неверно.

Пусть, например, есть некто мистер Икс, у которого много друзей-изгоев, то есть таких пользователей, которые настолько скучны, что дружат только с мистером Икс. Пусть последний решил распространить некую информацию: запостил нечто у себя в блоге и просит своих "френдов" ему помочь. Они, конечно, перепостят эту запись по просьбе единственного друга, однако дальше эта информация не пойдет, так как у изгоев нет возможности продвигать информацию дальше. Из этого примера хорошо видно, что для эффективного распространения последней пользователь должен быть, в некотором смысле, в центре сети. Однако что значит в центре, если изображение у нас абсолютно схематическое?

В рамках работы ученые нашли ответ. Каждому пользователю они присвоили целочисленный индекс: чем он выше, тем пользователь влиятельнее. Считать этот индекс предлагается при помощи так называемых k-оболочек. Алгоритм их построения опишем на примере приведенного рисунка. Сначала из схемы выкинем всех пользователей, у кого не более одного друга (то есть либо ноль, либо один). В нашей схеме такой пользователь ровно один - это пользователь номер 1. При этом в нашей схеме появился еще один пользователь, у которого ровно один друг - это пользователь номер 2. Продолжим выкидывать точки до тех пор, пока в нашей схеме не останется ни одной вершины с одним ребром. Все удаленные точки (в нашем случае это номера 1, 2 и 3) представляют собой 1-оболочку и получают индекс 1. Теперь повторим этот процесс уже для пользователей, у которых как минимум два друга (в нашем случае это вершина с номером 4). Выкинутые точки получат индекс два. И так далее.

Отбросив все вершины графа с индексом 2, мы получим четыре вершины, у каждой из которых будет по три ребра: номера 5, 6, 7 и 8. Их влияние будет равным (индекс 3), хотя изначально у номеров 6 и 8 было больше ребер (по четыре).

Таким образом, наш мистер Икс, хоть и имеет много "френдов", все равно имеет индекс влиятельности 1 и при применении описанного алгоритма будет выкинут довольно быстро. То есть количество "френдов" и индекс влиятельности - это совсем не одно и то же, и они даже не прямо пропорциональны.

Это, конечно, сильно упрощенная схема: она предусматривает только один тип информационной взаимосвязи между пользователями. Тогда как в том же ЖЖ типов как минимум три: "друг" (Friend), "в друзьях у" (Friend Of) и "взаимный друг" (Mutual Friend). Чтобы учитывать это, наш граф должен стать раскрашенным (с ребрами разных цветов в зависимости от типа взаимосвязи). Кроме того, многие пользователи, у кого "френдов" много, часто распределяют их по группам, и группы эти получают неодинаковое внимание, что тоже влияет на распространение информации.

Однако понятно, что речь идет лишь о методе. Все многообразие информационных взаимодействий в блогосфере формализовать и впихнуть в алгоритм, конечно, не получится, но новый рейтинг топ-блогеров при помощи этого метода составить вполне возможно.

Воплощение

Теперь попробуем представить себе рейтинг блогов (не постов!!! речь не идет о новом топе на смену почившему топу "Яндекса"!) Рунета, составленный на основе этого метода. Главное его достоинство будет заключаться в том, что на него не окажут никакого влияния разного рода виртуалы и боты, при помощи которых предпочитают накручивать показатели авторитетности разного рода вебдванольные пиарщики. Поскольку живые люди виртуалов и ботов, как правило, не "френдят", они будут отсекаться на ранних этапах применения алгоритма.

При специфическом устройстве нашей блогосферы верхние строчки, скорее всего, оккупирует довольно замкнутая группа "многотысячников", которые дружат между собой. Причем у Антона Носика aka dolboeb появятся все шансы обогнать по влиятельности непримиримых соперников Артемия Лебедева aka tema и Рустема Адагамова aka drugoi: Тема и Другой, имея по много тысяч "френдов", между собой не дружат, а Носик, тоже имея много тысяч "френдов", дружит с обоими. То есть расположен в графе стратегически более выгодно.

В гипотетическом новом рейтинге едва ли будет иметь столь высокую позицию, как в рейтинге "Яндекса", ЖЖ uborshizzza: всякие тестики и пазлики интересны скучающим офисным работникам, студенткам на каникулах и домохозяйкам, а влиятельным блогерам - нет. Вообще, больше шансов на лидерство в новом рейтинге будет у блогов с серьезным, а не развлекательным контентом. Влиятельность и популярность в нем будут разведены довольно резко.

Алгоритм, на основе которого будет формироваться гипотетический рейтинг, довольно сложен и требует гигантского объема расчетов. Обновляться рейтинг будет довольно редко, так что отслеживать по нему изменения влиятельности блогеров в ежедневном режиме едва ли получится. Впрочем, первая десятка (или даже двадцатка) рейтинга, скорее всего, будет весьма устойчива.

Согласитесь, рейтинг бы получился весьма занимательный. Вот бы взялся кто-нибудь его составить...