Не только в базах данных, но и в текстах на естественном языке могут встречаться упоминания особых объектов, отличающихся специального вида написанием – наименования почтовых адресов, различных видов идентификационных и паспортных данных, марки товаров и модели устройств, формулы, ссылки на нормативные документы и т.п. Правила написания подобных объектов выходят за рамки грамматики естественного языка и обычно настраиваются на предметную область или тип документов.
Для распознавания в тексте обозначений подобных объектов, извлечения их требуемых атрибутов и стандартизации имен, разработан специальный программный компонент RCO Pattern Extractor со своим формальным языком, который позволяет оперировать как формальными особенностями написания текста, используя, в частности, язык регулярных выражений, так и всеми грамматическими атрибутами слов – частью речи, родом, числом, падежом и т.д. Образцы сложных конструкций могут строиться иерархически, включая образцы более простых. Грамматика языка описания образцов обеспечивает как бесконтекстное, так и контекстно-зависимое распознавание.
Ниже перечислены классы объектов, для выделения которых из текста нами уже разработаны комплексы правил (на русском и английском языках):
- Даты и обстоятельства времени, даты рождения
- Денежные суммы, обозначения физических измерений (координаты, температура и т.п.)
- Марки автомобилей и ряда других артефактов, товаров
- Почтовые адреса и географические места
- Электронные адреса
- Паспортные и другие персональные данные
- Номера банковских счетов, кредитных карт, социальной страховки и т.п.
- Телефонные номера
- Номера автомобилей (идентификационные, регистрационные)
- ИНН, ОГРН, ОКПО и другие номера организаций
- Номера уголовных и розыскных дел
- Ссылки на Статьи Уголовного Кодекса и другие нормативно-правовые документы