Разделы
Счетчики
Алгоритм поиска "горячих" тем в Интернете
Американский ученый Джон Клайнберг из Корнелльского университета предложил новый способ фильтрации информации, позволяющий выявлять наиболее актуальные для каждого конкретного момента времени проблемы и темы для обсуждений. Способ, предложенный Клайнбергом, основывается на анализе больших объемов текстовой информации с целью выявления наиболее часто встречающихся слов. Когда происходит какое-либо важное событие, о нем начинают говорить и писать очень многие. Это приводит к своеобразным "скачкам" в частоте употреблении тех или иных слов.
Взяв за основу эту идею, Клайнберг разработал алгоритм, позволяющий анализировать частоту использования того или иного слова. На выходе алгоритм представляет собой рейтинг слов, на основании которого можно делать выводы о популярности той или иной темы и производить сортировку информации.
Само собой, что из рейтинга должны исключаться служебные части речи: артикли, предлоги, союзы, а также наиболее распространенные местоимения, числительные и слова общеупотребительной базовой лексики, например, "время", "больше", "меньше" и так далее. Ведь именно эти слова встречаются чаще всего, однако установить по частоте их упоминания какие-либо тенденции вряд ли возможно. Например, в рейтинге слов Usenet первое место занимает определенный артикль "the", второе - предлог "to", а третье - предлог "of". В первой десятке также находятся неопределенный артикль "a", союз "and", глагол "is" и местоимение "i". Сделать на основании вершины этого рейтинга какой-либо анализ едва ли получится.
Система Клайнберга, однако, работает гораздо эффективнее. Чтобы испытать свою разработку, он заставил ее проанализировать тексты всех президентских докладов о положении в США (State of the Union addresses), начиная с 1790 года. В итоге получилось, что в период Войны за независимость американских колоний часто употреблялись слова militia ("ополчение") и British ("британский"). А в период с 1947 по 1959 годы наблюдался "скачок" в использовании слова atomic ("атомный"). Таким образом, удалось доказать работоспособность системы.
Использовать разработку Клайнберга можно в самых разных областях. Сам ученый собирался создать на ее основе утилиту для фильтрации электронной почты, которая на основе частоты упоминания слов определяла бы важность писем. Важным проблемам могут быть посвящены письма многих людей, которые будут использовать одни и те же слова. Это позволит отделить "зерна от плевел". Помимо этого, технологию можно будет использовать для повышения релевантности поиска в Интернете, а также для выявления наиболее "горячих" новостей и дискуссионных тем.
Например, создав рейтинг слов, употребляемых в блогах - онлайновых дневниках, получивших за последний год бешеную популярность, можно определить, о чем предпочитают говорить пользователи Интернета. Такая информация может представлять интерес для журналистов, ищущих темы для своих репортажей, маркетологов, которые смогут эффективнее выявлять предпочтения пользователей и корректировать соответствующим образом рекламные кампании. Наконец, рейтинги слов в блогах окажут помощь и государству, которое сможет следить за умонастроениями граждан. Последнее, впрочем, относится лишь к странам, где Интернетом пользуется более половины населения, в противном случае, выборка для анализа получится непредставительная. Рейтинг упоминаемости слов в блогах уже существует и располагается на сайте Daypop.
Компьюлента, 4 марта 2003 года