



|
Лингвистический анализ текста
|
 |

|

|


|


|
Обработка особых текстов

|


|
Поиск и классификация

|

|
 |

Содержательный портрет текста

При обработке текста в информационно-поисковых системах чаще всего возникает задача построения информационного портрета документа, который характеризовал бы в компактной форме основное содержание текста - описанные в нем предметы, лица, ситуации и т.п.
Наличие такого содержательного портрета позволяет:
- эффективно решать задачи, требующие сравнения документов по содержанию - находить похожие документы, производить автоматическую классификацию, категоризацию и рубрицирование документов, новостную агрегацию;
- автоматически стоить глоссарии, частотные словари употреблявшихся в тексте терминов, словосочетаний;
- компактно представлять содержание документа на экране в форме списка ключевых тем, затронутых в его тексте, или же в форме реферата – набора репрезентативных предложений из текста, содержащих упоминания о ключевых темах.
В качестве элементов информационного портрета текста рассматриваются имена упоминавшихся в нем событий и предметов.
События – это действия, процессы или состояния, которые именуются глаголами и отглагольными существительными, часто с дополнительными словами-распространителями, например: высокая инфляция, принять закон об отмене льгот, борьба с наводнением, бороться за права человека.
Предметы – это обычно участники событий - одушевленные и неодушевленные, природные и искусственные, материальные или идеальные – которые обозначаются именными группами: вычислительная сеть, реки Камчатки, торговец спиртным. Сюда же относится разряд сущностей, которые находятся на границе между признаками и предметами, например: классическая борьба, туризм. Именованные сущности - персоны, организации, географические названия, артефакты - также входят в содержательный портрет, но их выделению посвящен отдельные разделы (см. [упоминания персон и организаций]).
Прочие элементы содержания текста, не включаемые в содержательный портрет – это либо чистые признаки, обозначаемые прилагательными, наречиями или адъективными существительными, либо элементы смысла, характеризующие позицию автора по отношению к описываемым предметам и событиям, и выражающиеся разными языковыми средствами, как лексическими (слова служебных частей речи, строевые глаголы), так и грамматическими (вид, время и залог глагола).
При формирования содержательного портрета текста выполняются следующие ключевые шаги:
- Преобразование каждого предложения текста в сеть синтактико-семантических отношений. Разбор предложения производится с учетом правил грамматики русского языка, моделей управления предикатов, законов семантического согласования. Учитываются разные стандарты и формы написания наименований организаций и персон, географических названий, дат, различных цифровых конструкций. Используются специальные алгоритмы анализа сочетаемости и склоняемости неизвестных слов по всему тексту. Проводится анализ референции слов в тексте, в том числе отождествление различных обозначений персон и организаций – полных, кратких, косвенных и местоименных обозначений, отождествление имен нарицательных - полных и кратких словосочетаний и слов.
- Синтез всех элементов содержательного портрета текста – словосочетаний, обозначающих события и предметы, описанные в тексте. Применяются правила эксплицирования элементов смысла из семантической сети, тезаурус.
- Для каждого элемента определяется его самостоятельность - употреблялось ли данное слово/словосочетание независимо или только в составе другого словосочетания. Это позволяет очистить портрет от шумовых элементов, не имеющих в тексте самостоятельного значения. Так, слова президент, Россия, президент России, употреблявшееся только в словосочетании указ президента России, своего значения в тексте не имеют и не должны учитываться при сравнении с этого документа с другими, либо должны учитываться в последнюю очередь.
- Числовая оценка веса каждого элемента в портрете текста – коммуникативного ранга, который отражается в позиции в синтаксической структуре предложения (член предложения и тип клаузы). Так, например, позиция подлежащего соответствует основному фокусу внимания автора. Наличие этой оценки плюс частота встречаемости и близость к началу документа позволяют сформировать содержательный портрет текста с той или степенью подробности, включая в него более или менее значимые элементы.
- Построение общего и тематических рефератов текста с заданной степенью подробности. Тематический реферат – это набор предложений, содержащих упоминания об одном элементе содержательного портрета текста. В тематический реферат в первую очередь включаются те предложения, в которых упоминаемый элемент имеет наибольший коммуникативный ранг – например, является подлежащим в активном залоге. В общий реферат включаются предложения, содержащие наиболее значимые упоминания о наиболее значимых элементах текста.
Пример построения содержательного портрета текста "Разрабатывая с 1999 года различные лингвистические технологии, компания "ЭР СИ О" выпускает серию продуктов для компьютерного анализа текста".
| Категория | Элемент портрета текста | Значимость |
| | Самостоятельные | |
| Организация | "ЭР СИ О" | 100 |
| Событие | ВЫПУСК ПРОДУКТА | 64 |
| Событие | РАЗРАБОТКА ЛИНГВИСТИЧЕСКОЙ ТЕХНОЛОГИИ | 40 |
| Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ ТЕКСТА | 24 |
| | Производные | |
| Предмет | ПРОДУКТ | 25 |
| Предмет | ЛИНГВИСТИЧЕСКАЯ ТЕХНОЛОГИЯ | 24 |
| Событие | АНАЛИЗ ТЕКСТА | 16 |
| Событие | КОМПЬЮТЕРНЫЙ АНАЛИЗ | 16 |
| Предмет | ТЕХНОЛОГИЯ | 12 |
| Предмет | ТЕКСТ | 9 |
В таблице приведены все элементы содержательного портрета текста в порядке убывания значимости. Производные элементы входят в состав самостоятельных, ввиду чего самостоятельные элементы хорошо использовать для представления содержания текста человеку, а производные – для компьютерной обработки: поиска документов по теме, сравнения документов по содержанию.
Продукты, использующие технологию:
Публикации о технологии:

 |
Ермаков А.Е., Плешко В.В. Синтаксический разбор в системах статистического анализа текста
Информационные технологии. - 2002. – N 7.

В статье рассмотрено место алгоритмов синтаксического разбора в прикладных системах компьютерного анализа полнотекстовых документов. На опыте собственных разработок показано, как применение подобных алгоритмов способно повысить качество статистических методов анализа текста при решении таких задач, как: формирование информационного портрета документа, выявление смысловых связей, автоматическое реферирование.
|
 |

 |
Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза
Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2003. – Москва, Наука, 2003

В докладе предлагается метод построения информационного портрета документа на основе элементов смысла текста, извлекаемых средствами синтаксического анализа и синтеза. Метод основан на использовании синтаксического анализатора с последующим преобразованием семантической сети во множество строк, которые представляют в унифицированном виде все элементарные отношения между сущностями в тексте и являются корректными с точки зрения грамматики русского языка. Описывается ряд преобразований синтаксических структур, обеспечивающих инвариантность представления смыслов от ряда особенностей поверхностно-синтаксической организации текста. Предлагается способ ранжирования полученных элементов смысла по информативности с точки зрения характеристики текста в прикладных системах.
|
 |

 |
Ермаков А.Е. Значимость элементов текста в свете теории синтаксической парадигмы
Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. - Москва, МГУ, 2004.

В докладе анонсируется формальная модель, которая позволяет численно оценить значимость элементов смысла текста с точки зрения его автора - коммуникативный ранг.
|
 |

|


|
 |