На практике часть интересующей информации в текстовых документах уже бывает представлена в структурированном виде - например, описание проектов на web-сайте может содержать, помимо полнотекстовой аннотации к проекту, еще такие выделенные поля, как имена исполнителей, названия организаций, области знаний, и д.р. А многие документы, такие, как ленты новостей, сводки, протоколы, досье могут вообще представлять собой конкатенацию множества одно- или даже разнотипных документов, каждый из которых никак не связан с прочими. Другим примером сложного частично-структурированного текста является досье на персону, содержащее внутри себя вложенные досье на членов его семьи и близких людей…
В документах подобного вида лингвистический анализ может проводиться корректно только в пределах определенных изолированных блоков текста. При этом именно типы и расположение блоков документа, из которых извлекается текстовая информация, определяют смысл и связи этой информации с другой информацией в документе. Типы и связи блоков определяются по стилевым признакам оформления документов, которые являются уникальными для каждого типа документов, вследствие чего требуют обязательной настройки шаблонов извлечения и связывания информации.
Программный компонент RCO Block Parser предназначен для комплексной обработки частично-структурированных документов со следующими возможностями:
- автоматической идентификации типов входных документов на основании множества шаблонов, описывающих структуры документов на специальном языке;
- автоматической идентификации блоков текста (тип блока, начало и конец, место в иерархии блоков) в соответствии с выбранным или заданным шаблоном документа, с выбором оптимального решения в случае неоднозначности (например, вложенные многоуровневые списки с нарушением нумерации);
- извлечения из нужных блоков требуемых сущностей и их связей на основании формальных признаков, описываемых регулярными выражениями;.
- извлечение из нужных блоков требуемых сущностей и их связей на основании лингвистического анализа текста на естественном языке (с вызовом лингвистических анализаторов RCO).