• 24.03.2015

Поиск с опечатками позволяет расширять запрос близкими по написанию словами, содержащимися в коллекции документов, по которым ведется поиск. Такой поиск целесообразно применять как при поиске документов, содержащих слова с опечатками, так и при наличии сомнения в правильном написании слов в запросе (имен, названий и т.п.). Так, запрос инкомбанкможет быть расширен словами: инкомбан, инкобанки, винкомбанке. А если пользователь забыл точное название медицинского препарата ипрониазид, то можно задать что-нибудь похожее, например импронизид, — нужные документы будут найдены.

Оригинальный алгоритм, используемый при реализации поиска похожих слов, основан на особой системе ассоциативного доступа к словам, содержащимся в текстовом индексе полнотекстового хранилища документов, для чего создается дополнительный индекс. Скорость поиска пропорциональна логарифму от числа индексируемых слов и составляет менее одной секунды при индексе в несколько миллионов слов (такой полнотекстовый индекс соответствует нескольким гигабайтам полнотекстовых документов). Поиск способен найти все лексикографически близкие слова, отличающиеся заменами, пропусками и вставками допустимого количества символов.