Аннотация
Модуль RCO Address Parser производит разбор текстовой адресной строки, содержащей российский почтовый адрес, проверяет корректность адресной информации на основании эталонной базы КЛАДР, приводит все элементы адреса к стандартному написанию в установленном порядке, а также производит, при необходимости, исправление опечаток и восстановление пропущенных элементов адреса.
RCO Address Parser предоставляет программный интерфейс Oracle PL/SQL для ведения справочника адресов, а также интерактивную web-страницу для тестирования.
Для разбора адреса на элементы используется модуль выделения конструкций в тексте по шаблонам RCO Pattern Extractor (также доступный в составе RCO Fact Extractor SDK) с набором соответствующих правил, учитывающих различные способы написания/искажения российских почтовых адресов.
Для исправления опечаток и быстрого поиска по КЛАДР используются специальные индексы, разработанные RCO.
Характеристики
Основные виды ошибок/опечаток, устраняемых во входных данных:
- Использование схожих по написанию латинских букв вместо кириллических;
- Опечатки («ул Перера» исправит на «ул Перерва»);
- Неполнота задания адреса (при условии уникальности заданных элементов, например, адрес «ул Xоламская, 31» преобразует в «индекс 361823, респ Кабардино-Балкарская, р-н Черекский, с Герпегеж, ул Холамская, дом 31»);
- Преобразование римских цифр в арабские;
- Использование старых названий городов и улиц (списки синонимов генерируются при загрузке КЛАДР, отсутствующие в КЛАДР синонимы могут быть добавлены при помощи API) «Арзамас-16, Репина, д.1, кв. 34» преобразует в «индекс 607188, обл Нижегородская, г Саров, ул Репина, дом 1, кв. 34»;
-
Автозамена часто встречающихся устойчивых сокращений («проф.» вместо «профессора», «ак.» вместо «академика» и т.д.).
Кроме того, возможны распознавание зарубежного адреса и вставка его в справочник без попыток найти похожий адрес на территории РФ.
Восстанавливаемая адресная информация:
- Почтовый индекс;
- Код КЛАДР;
Для устранения неточностей, порой возникающих при разборе адреса, система генерирует множество гипотез и выбирает наилучшую.
Для возможного «ручного» анализа, помимо наилучшей гипотезы, отдельно сохраняются пять следующих наилучших гипотез-кандидатов и их оценки.
Система лицензирования
RCO Address Parser лицензируется по количеству инсталляций.
Примеры использования
- Слияние баз данных из разных источников
- Выявление адресов массовой регистрации
- Унификация адресов в базе клиентов/контрагентов
Требования
Для установки продукта RCO Address Parser необходима СУБД Oracle любой редакции.