• 24.03.2004

Русский язык: исторические судьбы и современность. II Международный конгресс исследователей русского языка. Труды и материалы. – Москва, МГУ, 2004.
В докладе анонсируется формальная модель, которая позволяет численно оценить значимость элементов смысла текста с точки зрения его автора – коммуникативный ранг. При компьютерном анализе текста в информационно-поисковых системах зачастую необходимо ранжирование элементов текста по некоторому критерию, который можно назвать их значимостью для решения определенного класса задач. К таковым прежде всего относят сравнение документов по подобию и формирование содержательного портрета документа – некой терминологической аннотации.

Для оценки значимости на практике традиционно используют методы, которые учитывают частоту встречаемости терминов и характеристики, отражающие некоторые структурные свойства текста, например, совместную частоту встречаемости (ассоциированность) [1,2,3] и плотность распределения терминов в тексте (свехфразовые свойства) [3,4]. Используя различные математические модели, все эти методы имеют общее обоснование в рамках нейропсихологической модели “грубой” обработки информации в правом полушарии мозга. Достоинством такого подхода является алгоритмическая простота, не требующая точного лингвистического анализа.

Сегодня развитие лингво-алгоритмической базы на фоне роста вычислительных мощностей позволило проводить полный синтаксический анализ предложения и выделение его значимых элементов с приемлемым качеством и быстродействием [5]. А привлечение теории синтаксической парадигмы (ТСП) [6] позволяет сформировать фундаментальные критерии оценки значимости этих элементов, взяв за основу коммуникативные аспекты построения текста автором.

В свете ТСП каждое предложение рассматривается как член парадигматического ряда, образованного множеством предложений, которые описывают одну типовую ситуацию и имеют тождественную структуру пропозиции. Ядром парадигматического ряда является изосемически изоморфная конструкция, обеспечивающая наиболее корректный способ представления ситуации – номинативный стандарт, который строится по принципу однозначных соответствий элементов плана содержания и плана выражения, свободен от побочных непропозитивных значений и коннотаций. Любая модификация предложения связана со смыслом, вкладываемым в него автором, и актуализацией тех или иных участников ситуации в соответствии с ракурсом ее подачи. При этом задействуются механизмы двух уровней – семантического и синтаксического, которые формируют так называемые актуализационную и трансформационную парадигмы предложения. В контексте решаемой нами задачи важно то, что первые устанавливают отношения предицирования и отражаются в тема-рематическом членении предложения, а вторые обеспечивают распределение имен компонентов предложения по синтаксическим позициям, используя систему членов предложения, которая позволяет представить ситуацию в соответствии с коммуникативным заданием.

Значимость элементов предложения с позиции автора характеризует коммуникативный ранг, который определяется их порядком (прежде всего – отнесенностью к теме или реме) и соотнесением с членами предложения.

Коммуникативный ранг последних установлен в [6] посредством соотнесения синтаксических трансформаций предложения и стоящих за ними коммуникативных целей. В порядке убывания ранга выделяются: подлежащее, субстантивное сказуемое, дополнение, глагольное сказуемое, обстоятельства (места, времени, причины, цели), определения и прочие обстоятельства (образа действия, меры, степени).

Анализ примеров данной работы показывает, что для определения актуального членения предложения вполне достаточно синтаксических критериев. Так, темой является вся начальная часть предложения вплоть до первого глагола в личной форме или связки. Оставшаяся часть всегда соответствует реме. Вопрос отнесения глагола к теме или реме не может быть достоверно решен формальными способами, однако не будет ошибкой приписать ему ранг, промежуточный между темой и ремой.

За рамками работы [6] остались факты, связанные с тем, что элементы текста часто представляются не отдельными словами, а словосочетаниями. Например, несогласованные определения в составе именной группы “встреча президента России”, не равнозначны: речь идет в первую очередь о “президенте”, и лишь опосредованно затрагивает “Россию”. В тоже время цельный элемент “президент России” более информативен, чем просто “встреча”, так как включает в себя конкретизирующие значения. То же относится к группе составного глагольного сказуемого. Как видно, коммуникативный ранг зависит еще от уровня синтаксической зависимости в пределах группы, от синтаксической роли главного слова группы, а также от относительной длины словосочетаний в группе. Особенностям выделения всех значимых элементов текста посвящена работа [5].

Совокупный коммуникативный ранг по всем предложениям текста, дополненный учетом позиции в составе именных и глагольных групп, предлагается вычислять как
wi = е t TRi*(t) Wi*(t) Li(t) / (Li*(t) Li’(t) ) ,
где t – номер предложения , а i – номер элемента в тексте;
TRi*(t) Wi*(t) – полный коммуникативный ранг, включающий фактор тема-рема и вес члена предложения для наиболее полной группы, содержащей i-ый элемент;
Li(t) – число слов в составе группы, соответствующей i-му элементу;
Li*(t) – число слов в составе наиболее полной группы, содержащей i-ый элемент;
Li’ – число слов в пути синтаксического подчинения между главным словом в группе i-го элемента и главным словом наиболее полной группы, его включающей.
Выбор конкретных значений множителей TRi*(t) и Wi*(t) определяется эмпирическими соображениями.

Литература

  1. Чанышев О.Г. Ассоциативная модель естественноязыкового текста. // Вестник Омского государственного университета, вып. 4, 1997 г.,Омск: ОмГУ, – 1997. – С.17-20.
  2. Харламов А.А., Ермаков А.Е., Кузнецов Д.М. Технология обработки текстовой информации с опорой на семантическое представление на основе иерархических структур из динамических нейронных сетей, управляемых механизмом внимания // Информационные технологии. – 1998. – N 2. – С. 26-32.
  3. Ермаков А.Е. Тематический анализ текста с выявлением сверхфразовой структуры. // Информационные технологии. – 2000. – N 11.
  4. Ермаков А.Е., Плешко В.В. Ассоциативная модель порождения текста в задаче классификации. // Информационные технологии. – 2000. – N 12. – С. 34-37.
  5. Ермаков А.Е. Эксплицирование элементов смысла текста средствами синтаксического анализа-синтеза. // Компьютерная лингвистика и интеллектуальные технологии: труды Международной конференции Диалог’2003. – Москва, Наука, 2003. – С. 136-140.
  6. Всеволодова М.В., Деменьтева О.Ю. Проблемы синтаксической парадигматики: коммуникативная парадигма предложений. – М.: КРОН-ПРЕСС, 1997. – 176 с.