Решение “Мониторинг СМИ” предназначено для работы как с архивами СМИ, так и с текущими новостными потоками, для решения следующих типовых задач:

  • Тематическая классификация документов;
  • Кластеризация документов;
  • Выявление упоминаний персон и организаций;
  • Распознавание особых объектов (например, географических);
  • Распознавание ситуаций (фактов) в тексте;
  • Тональность – отношение к объекту в тексте;
  • Выявление заимствований (цитат) и поиск дубликатов (похожих текстов);
  • Формирование «пресс-портретов» персон.

В данном решении используются следующие базовые технологии RCO:

  • Содержательный портрет текста: Построение информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста – описанные в нем предметы, лица, ситуации и т.п. Позволяет находить похожие документы, производить автоматическую категоризацию и кластеризацию документов; автоматически стоить глоссарии, частотные словари терминов;
  • Упоминания персон и организаций: Распознавание и разбор наименований объектов с выделением всех элементов наименования (ФИО, ОПФ, форма хозяйственной деятельности, название, география и т.д.), отождествление различных вариантов наименования одного и того же объекта в тексте, в том числе косвенных обозначений, не содержащих в себе имени собственного;
  • Упоминания особых объектов: Распознавание объектов, отличающихся специального вида написанием – почтовые адреса, идентификационные и паспортные данные, марки товаров и модели устройств и т.п. Используется язык, который позволяет оперировать как формальными особенностями написания текста, так и всеми грамматическими атрибутами слов. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Возможно, как бесконтекстное, так и контекстно-зависимое распознавание;
  • Связи между объектами в тексте: Выявление связи между описанными в тексте событиями, именованными и неименованными сущностями. Сеть связей, построенная по коллекции документов, помогает при поиске заранее неизвестной информации, служит основой для решения различных аналитических задач;
  • Распознавание ситуаций в тексте: Позволяет найти в тексте описания ситуаций нужного типа, выделить всех участников ситуации в соответствии с их ролями, классифицировать описания ситуаций, сгруппировав их по заданным критериям;
  • Отношение к объекту в тексте: Анализ текста на предмет выражения в нем положительного или отрицательного отношения к объекту. Позволяет выявить как явную характеристику объекта с использованием тонально-окрашенной лексики, так и неявную характеристику объекта, связанную с упоминанием в тексте таких ситуаций, при восприятии которых возникает эмоциональная реакция;
  • Категоризация текстов: Упорядочение информационного массива, когда документы, близкие по определенным содержательным критериям, объединяются в группы, называемые категориями, рубриками, тематическими подборками. Разработана методика формирования описаний категорий – профилей;
  • Кластеризация новостей: Связывание сообщений, описывающих одни и те же события, в кластеры – сюжеты, и ведение сюжетной линии во времени. Построение обзорных рефератов, категоризация сюжетов, поиск похожих сюжетов. Значительно повышает эффективность анализа информационного потока;

В данном решении используются следующие продукты RCO:

  1. RCO Fact Extractor SDK;
  2. RCO Zoom;
  3. RCO for Oracle.