• 01.08.2014

При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста — описанные в нем предметы, лица, ситуации и т.п.

Наличие такого содержательного портрета позволяет:

  1. эффективно решать задачи, требующие сравнения документов по содержанию — находить похожие документы, производить автоматическую классификацию, категоризацию и рубрицирование документов, новостную агрегацию;
  2. автоматически строить глоссарии, частотные словари употреблявшихся в тексте терминов, словосочетаний;
  3. компактно представлять содержание документа на экране в форме списка ключевых тем, затронутых в его тексте, или же в форме реферата — набора репрезентативных предложений из текста, содержащих упоминания о ключевых темах.

В качестве элементов информационного портрета текста рассматриваются имена упоминавшихся в нем событий и предметов.
События — это действия, процессы или состояния, которые именуются глаголами и отглагольными существительными, часто с дополнительными словами-распространителями, например: высокая инфляция, принять закон об отмене льгот, борьба с наводнением, бороться за права человека.
Предметы — это обычно участники событий – одушевленные и неодушевленные, природные и искусственные, материальные или идеальные, обозначаемые именными группами: вычислительная сеть, реки Камчатки,торговец спиртным. Сюда же относится разряд сущностей, которые находятся на границе между признаками и предметами: классическая борьба, туризм. Именованные сущности: персоны, организации, географические названия, артефакты — также входят в содержательный портрет (см. [упоминания персон и организаций]).
Прочие элементы содержания текста, не включаемые в содержательный портрет, — это либо чистые признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям и выражающиеся разными языковыми средствами как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).

При формирования содержательного портрета текста выполняются следующие ключевые шаги:

  • Преобразование каждого предложения текста в сеть синтактико-семантических отношений. Разбор предложения производится с учетом правил грамматики русского языка, моделей управления предикатами, законов семантического согласования. Учитываются разные стандарты и формы написания наименований организаций и персон, географических названий, дат, различных цифровых конструкций. Используются специальные алгоритмы анализа сочетаемости и склоняемости неизвестных слов по всему тексту. Проводится анализ референции слов в тексте, в том числе отождествление различных обозначений персон и (полных, кратких, косвенных и местоименных обозначений), отождествление имен нарицательных — полных и кратких словосочетаний и слов.
  • Синтез всех элементов содержательного портрета текста — словосочетаний, обозначающих события и предметы, описанные в тексте. Применяются правила эксплицирования элементов смысла из семантической сети, тезаурус.
  • Для каждого элемента определяется его самостоятельность — употреблялось ли данное слово/словосочетание независимо или только в составе другого словосочетания. Это позволяет очистить портрет от “шумовых” элементов, не имеющих в тексте самостоятельного значения. Так, слова “президент”, “Россия”, “президент России”, употреблявшееся только в словосочетании “указ президента России”, своего значения в тексте не имеют и не должны учитываться при сравнении этого документа с другими, либо должны учитываться в последнюю очередь.
  • Числовая оценка веса каждого элемента в портрете текста — коммуникативного ранга, который отражается в позиции в синтаксической структуре предложения (член предложения и тип клаузы). Так, позиция подлежащего соответствует основному фокусу внимания автора. Наличие этой оценки в сочетании с частотой встречаемости и близостью к началу документа позволяют сформировать содержательный портрет текста с той или степенью подробности, включая в него более или менее значимые элементы.
  • Построение общего и тематических рефератов текста с заданной степенью подробности. Тематический реферат — это набор предложений, содержащих упоминания об одном элементе содержательного портрета текста. В тематический реферат в первую очередь включаются те предложения, в которых упоминаемый элемент имеет наибольший коммуникативный ранг — допустим, является подлежащим в активном залоге. В общий реферат включаются предложения, содержащие наиболее существенные упоминания о наиболее значимых элементах текста.

Пример построения содержательного портрета текста “Разрабатывая с 1999 года различные лингвистические технологии, компания “ЭР СИ О” выпускает серию продуктов для компьютерного анализа текста“.

Категория Элемент портрета текста Значимость
Самостоятельные
Организация “ЭР СИ О” 100
Событие ВЫПУСК ПРОДУКТА 64
Событие РАЗРАБОТКА ЛИНГВИСТИЧЕСКОЙ ТЕХНОЛОГИИ 40
Событие КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА 24
Производные
Предмет ПРОДУКТ 25
Предмет ЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ 24
Событие АНАЛИЗ ТЕКСТА 16
Событие КОМПЬЮТЕРНЫЙ АНАЛИЗ 16
Предмет ТЕХНОЛОГИЯ 12
Предмет ТЕКСТ 9

В таблице приведены все элементы содержательного портрета текста в порядке убывания значимости. Производные элементы входят в состав самостоятельных, ввиду чего самостоятельные элементы хорошо использовать для представления содержания текста человеку, а производные — для компьютерной обработки (поиска документов по теме, сравнения документов по содержанию).

Продукты, использующие технологию: