• 01.06.2014

Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием — наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов.

Для распознавания в тексте обозначений подобных объектов, извлечения их требуемых атрибутов и стандартизации имен разработан специальный программный компонент RCO Pattern Extractor со своим формальным языком, который позволяет оперировать как формальными особенностями написания текста, используя, в частности, язык регулярных выражений, так и всеми грамматическими атрибутами слов: частью речи, родом, числом, падежом и т.д. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание.

Ниже перечислены классы объектов, для выделения которых из текста нами уже разработаны комплексы правил (на русском и английском языках):

  • Даты и обстоятельства времени, даты рождения;
  • Денежные суммы, обозначения физических измерений (координаты, температура и т.п.);
  • Марки автомобилей и ряда других артефактов, товаров;
  • Почтовые адреса и географические места;
  • Электронные адреса;
  • Паспортные и другие персональные данные;
  • Номера банковских счетов, кредитных карт, социальной страховки и т.п.;
  • Телефонные номера;
  • Номера автомобилей (идентификационные, регистрационные);
  • ИНН, ОГРН, ОКПО и другие номера организаций;
  • Номера уголовных и розыскных дел;
  • Ссылки на Статьи Уголовного Кодекса и другие нормативно-правовые документы.

Продукты, использующие технологию: