Аннотация

Библиотека для разработчика информационно-поисковых систем RCO Text Categorization Engine позволяет решать следующие задачи:

  • На основании лексических профилей эффективно определять принадлежность текста к заданному множеству категорий;
  • Для каждого термина из лексических профилей, обнаруженного в тексте, получить количество его вхождений в текст, а также позиции терминов в тексте.

К отличительным возможностям библиотеки следует отнести:

  • Возможности по очистке web-страниц:
    • Автоматическая коррекция кодовой страницы русского языка;
    • Удаление навигационных элементов сайта, загромождающих страницу.
  • Гибкие настройки идентификации терминов в тексте:
    • В точности, как написано в профиле;
    • С учетом всех словоформ при помощи морфоанализатора русского языка;
    • Явно задав все требуемые к отождествлению словоформы.
  • Задание терминов в виде поисковых выражений с использованием следующих операторов:
    • Слова, словосочетания;
    • Задание расстояния между словами;
    • Логические операторы – «И», «ИЛИ», «И НЕ».
  • Специальная обработка отдельных терминов:
    • Термин обязательно должен встретиться для отнесения текста к категории;
    • Термин не должен встретиться для отнесения текста к категории.

Примеры использования

Основными областями применения библиотеки являются:

  • Тематическая категоризация текстов в электронных библиотеках, информационно-поисковых и информационно-аналитических системах;
  • Тематический таргетинг в баннерных сетях;
  • Мониторинг ключевых слов и словосочетаний в системах мониторинга и сбора информации.

Характеристики

В библиотеке реализована векторная модель категоризации, которая включает в себя четыре настраиваемых компонента:

  • Весовые коэффициенты терминов профиля (значения задаются пользователем);
  • Весовые коэффициенты терминов документа (способ вычисления задается пользователем: бинарные, частотные);
  • Нормирующий множитель (способ вычисления задается пользователем: евклидова норма, длина текста);
  • Пороговое значение (задается пользователем).

При необходимости вне библиотеки разработчиком могут быть реализованы и другие методы категоризации текстов.

Морфоанализатор, включенный в библиотеку, имеет следующие характеристики:

  • Реализованы следующие методы анализа:
    • Точный анализ известных слов по словарю объемом более 115 тысяч слов, что покрывает более 3-х миллионов словоформ;
    • Высокодостоверный анализ неизвестного слова на основе комплекса правил словообразования и словоизменения;
    • Вероятностный анализ посредством соотнесения с моделями словоизменения часто встречающихся слов на основе оценки флективной и суффиксальной частей слова.
  • Объем бинарного словаря – 3 Мб;
  • Скорость морфологического анализа – более 100 тысяч слов в секунду (процессор AMD Athlon, 1000 МГц).

Технические требования

Поддерживаемые операционные системы – Microsoft Windows, Linux.

Стоимость ПО

Данное ПО лицензируется по количеству экземпляров, доступных для запуска.

Актуальный ценовой лист находится здесь.

Данное ПО не облагается НДС в соответствии с пп.26 п.2 ст.149 НК РФ. ПО включено в Единый реестр российских программ для электронных вычислительных машин и баз данных (Реестр отечественного ПО).

Гарантийные обязательства и техническая поддержка

Срок гарантийных обязательств составляет 1 год с момента начала использования ПО.

После окончания гарантийного срока, возможно заключение договора технической поддержки ПО, которая включает в себя:

– Консультации;

– Обновление ПО до актуальной версии, по запросу.

Cтоимость технической поддержки составляет 22% от стоимости приобретенных лицензий, в год.

Фактический адрес размещения инфраструктуры разработки данного ПО, а также его разработчиков и службы технической поддержки:

Офис ООО “ЭР СИ О”: 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214.  Тел. +7 (495) 287 9887, info@rco.ru.

Техническая поддержка оказывается по рабочим дням с 9:00 до 19:00.

Документация

Описание функциональных характеристик ПО представлено в руководстве пользователя:

Информация, необходимая для установки и эксплуатации ПО, описание процессов, обеспечивающих поддержание жизненного цикла ПО, в том числе устранение неисправностей, выявленных в ходе эксплуатации, совершенствование ПО, а также информация о персонале, необходимом для поддержки, приведена в руководстве администратора: