На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Технологии
Разбор частично-структурированного текста

Технологии






Обработка особых текстов

Разбор частично-структурированного текста

Очистка информации в базах данных






Лингвистический анализ текста
Содержательный портрет текста
Упоминания персон и организаций
Упоминания особых объектов
Связи между объектами
Распознавание ситуаций
Отношение к объекту, анализ мнений
Анализ предметной области
Обработка знаний



Поиск и классификация
Поиск на естественном языке
Поиск с опечатками
Поиск похожих фрагментов
Классификация текстов
Сопутствующие решения




Разбор частично-структурированного текста

На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде - например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля, как имена исполнителей, названия организаций, области знаний, и д.р. А многие документы, такие, как ленты новостей, сводки, протоколы, досье могут вообще представлять собой конкатенацию множества одно- или даже разнотипных документов, каждый из которых никак не связан с прочими. Другим примером сложного частично-структурированного текста является досье на персону, содержащее внутри себя вложенные досье на членов его семьи и близких людей…

В документах подобного вида лингвистический анализ может проводиться корректно только в пределах определенных изолированных блоков текста. При этом именно типы и расположение блоков документа, из которых извлекается текстовая информация, определяют смысл и связи этой информации с другой информацией в документе. Типы и связи блоков определяются по стилевым признакам оформления документов, которые являются уникальными для каждого типа документов, вследствие чего требуют обязательной настройки шаблонов извлечения и связывания информации.

Программный компонент RCO Block Parser предназначен для комплексной обработки частично-структурированных документов со следующими возможностями:

  • автоматической идентификации типов входных документов на основании множества шаблонов, описывающих структуры документов на специальном языке;
  • автоматической идентификации блоков текста (тип блока, начало и конец, место в иерархии блоков) в соответствии с выбранным или заданным шаблоном документа, с выбором оптимального решения в случае неоднозначности (например, вложенные многоуровневые списки с нарушением нумерации);
  • извлечения из нужных блоков требуемых сущностей и их связей на основании формальных признаков, описываемых регулярными выражениями;.
  • извлечение из нужных блоков требуемых сущностей и их связей на основании лингвистического анализа текста на естественном языке (с вызовом лингвистических анализаторов RCO).







Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru