Решение предназначено для структуризации информации, т.е. сбора фактографических данных из текстовых неструктурированных и слабоструктурированных документов. Система обрабатывает тексты лингвистическими методами и извлекает формализованную информацию, представляя ее в стандартном формате. Извлечение объектов из документов обеспечивается отлаженной технологией адаптации к различным областям знаний.

Система извлекает из текста упоминания персон и организаций, наименования почтовых и электронных адресов, различные идентификационные и паспортные данные, марки товаров и моделей автомобилей и других устройств, ссылки на нормативные документы и многое другое. Система легко настраивается на различные предметные области, быстро обрабатывает большие объемы текстов и просто масштабируется.

Источниками информации могут быть сообщения СМИ, посты соцсетей, форумов, разнообразные документы (решения арбитражных судов, решения ФАС, договоры), отчеты и справки. Выходные данные системы могут быть загружены в реляционные БД, агрегированы статистическими методами и представлены в виде графиков, диаграмм связей и отчетов.

Решение может быть использовано для построения фактографических баз данных, гипертекстовых систем, систем защиты персональных данных, статистической отчетности, анализа связей.

В качестве иллюстрации приведем, что наш инструментарий инструментарий позволяет извлекать из различных типов документов на уже разработанных на данный момент настройках.

Материалы СМИ, соцсетей:

  • Упоминания персон, организаций, брендов, геопонятий;
  • Атрибуты и связи между упомянутыми объектами;
  • Факты и события с участием объектов (поездки, встречи, конфликты, и т.п.)
  • Оценка характера упоминаний объектов;
  • Высказывания персон;
  • Тематика сообщения.

Решения арбитражных судов:

  • Название суда;
  • Номер дела;
  • Номер постановления;
  • Тип решения;
  • Дата заседания;
  • Место заседания;
  • Роли участников (персоны, организации) – Истец, Ответчик, Третье лицо, Иное лицо, Представители истца, ответчика, третьего лица;
  • Предмет иска;
  • Сумма иска;
  • Взысканные суммы (с кого, сколько, в чью пользу, вид взыскания);
  • Упоминания и атрибуты всех персон (имя, ИНН, ОГРНИП, адрес регистрации, место рождения, дата рождения, документ, удостоверяющий личность, должность), организаций (наименование, ИНН, ОГРН, адрес регистрации, город местонахождения), документов (тип, номер, серия, кем и когда выдан), договоров (номер, дата, денежная сумма), государственных контрактов (номер в реестре), автомобилей (модель, марка, государственный номер, год выпуска, VIN, цвет, номер кузова), земельных участков, квартир;
  • Упоминания пунктов и статей нормативно-правовых актов;
  • Связи между упомянутыми объектами – связи персон и организаций, отношения между организациями (дочерняя-головная), заключение договора, доля в уставном капитале, купля-продажа (покупатель, продавец, цена, товар), владение собственностью.

Договор купли-продажи недвижимости:

  • Роли – продавец, покупатель;
  • Объекты недвижимости и их атрибуты – земельные участки (площадь, кадастровый номер, категория земли, адрес), квартиры (общая площадь, жилая площадь, адрес);
  • Цена договора, цена объектов;
  • Порядок оплаты (авансирование, этапность).

Наш инструментарий можно настроить практически на все возможные типы извлекаемой информации благодаря неоднократно подтвердившей свою эффективность технологии.

В данном решении используются следующие продукты RCO:

  1. RCO Fact Extractor SDK;
  2. RCO Address Parser.