Аннотация

Модуль RCO Address Parser производит разбор текстовой адресной строки, содержащей российский почтовый адрес, проверяет корректность адресной информации на основании эталонной базы КЛАДР, приводит все элементы адреса к стандартному написанию в установленном порядке, а также производит, при необходимости, исправление опечаток и восстановление пропущенных элементов адреса.

RCO Address Parser предоставляет программный интерфейс Oracle PL/SQL для ведения справочника адресов, а также интерактивную web-страницу для тестирования.

Для разбора адреса на элементы используется модуль выделения конструкций в тексте по шаблонам RCO Pattern Extractor (также доступный в составе RCO Fact Extractor SDK) с набором соответствующих правил, учитывающих различные способы написания/искажения российских почтовых адресов.

Для исправления опечаток и быстрого поиска по КЛАДР используются специальные индексы, разработанные RCO.

Характеристики

Основные виды ошибок/опечаток, устраняемых во входных данных:

  • Использование схожих по написанию латинских букв вместо кириллических;
  • Опечатки («ул Перера» исправит на «ул Перерва»);
  • Неполнота задания адреса (при условии уникальности заданных элементов, например, адрес «ул Xоламская, 31» преобразует в «индекс 361823, респ Кабардино-Балкарская, р-н Черекский, с Герпегеж, ул Холамская, дом 31»);
  • Преобразование римских цифр в арабские;
  • Использование старых названий городов и улиц (списки синонимов генерируются при загрузке КЛАДР, отсутствующие в КЛАДР синонимы могут быть добавлены при помощи API) «Арзамас-16, Репина, д.1, кв. 34» преобразует в «индекс 607188, обл Нижегородская, г Саров, ул Репина, дом 1, кв. 34»;
  • Автозамена часто встречающихся устойчивых сокращений («проф.» вместо «профессора», «ак.» вместо «академика» и т.д.).

Кроме того, возможны распознавание зарубежного адреса и вставка его в справочник без попыток найти похожий адрес на территории РФ.

Восстанавливаемая адресная информация:

    • Почтовый индекс;
    • Код КЛАДР;
Пропущенные элементы адреса (область, район и т.п.).

Для устранения неточностей, порой возникающих при разборе адреса, система генерирует множество гипотез и выбирает наилучшую.

Для возможного «ручного» анализа, помимо наилучшей гипотезы, отдельно сохраняются пять следующих наилучших гипотез-кандидатов и их оценки.

Система лицензирования

RCO Address Parser лицензируется по количеству инсталляций.

Примеры использования

  • Слияние баз данных из разных источников
  • Выявление адресов массовой регистрации
  • Унификация адресов в базе клиентов/контрагентов

Требования

Для установки продукта RCO Address Parser необходима СУБД Oracle любой редакции.