Аннотация

RCO Fact Extractor SDK (включена в Единый реестр российских программ для ЭВМ и баз данных по Приказу Минкомсвязи России от 28.04.2017 №212, Приложение 1, п. №143, реестровый № 3470) — инструмент компьютерного анализа текстовой информации. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка и предоставляет программный интерфейс для считывания результатов разбора и использования другими программами (напр., для визуализации полученных данных, построения отчетов и таблиц, организации поиска по объектам и т.д.).

Результатом анализа текста являются выделенные из текста сущности – наименования организаций, персон, географические объекты, различные символьно-цифровые конструкции (такие как номера автомобилей или полисов страхования, адреса), классы сущностей; сеть синтактико-семантических отношений между сущностями текста; структуры данных, описывающие упомянутые в тексте события и факты.

Библиотека универсальна: ее можно настроить на работу с разными предметными областями и даже с разными языками. Всевозможные надстройки над базовой библиотекой позволяют решать совершенно разные задачи: от нахождения информационных дублей (плагиата) и построения смыслового портрета документа, до обезличивания персональных данных в текстах или преобразования поисковых запросов.

Характеристики

Библиотека обрабатывает примерно 40-200 Мбайт «чистого» текста в час. Под «чистым» текстом понимается документ, очищенный от разметки и служебной информации.

Анализ текста состоит из 8ми последовательных ступеней. На каждом этапе задействованы специальные словари, описания объектов и правила, составленные лингвистами для максимально полного и точного извлечения информации в соответствии с заданной задачей и форматами текстов.

Часть словарей, поставляемых с библиотекой, пополняемы и редактируемы. Настройка на предметную область требует знакомства с языком CAPE. Первоначальные сведения о настройке библиотеки представлены на нашем канале в youtube.

Наши лингвисты могут провести тюнинг библиотеки под Вашу задачу и обучить Ваших специалистов самостоятельной работе с пакетом.

Пробная версия

RCO Fact Extractor SDK можно протестировать на своих данных.

Библиотека предоставляется без каких-либо функциональных ограничений на 2 месяца путем заключения специального Лицензионного соглашения (для получения библиотеки, необходимо передать нам оригинал соглашения, предварительно выслав скан подписанного соглашения по электронной почте).

RCO Fact Extractor SDK предоставляется с аппаратным ключом защиты HASP HL. Для его получения необходимо направить курьера в наш офис (если Вы находитесь не в Москве, можно заказать доставку ключа курьерской службой, напр., воспользовавшись услугами компании Фрейт Линк). По окончании тестирования библиотеки, ключ нужно будет вернуть.

Примеры использования

  • Мониторинг упоминаемости заданных объектов в СМИ и сентимент-анализ (оценка отношения автора к объекту);
  • Выявление упоминаний нормативно-правовых актов в тексте;
  • Обезличивание персональных данных;
  • Отслеживание утечек информации;
  • Промышленная разведка (анализ патентной и научно-технической информации).

Дополнительные модули к библиотеке позволяют решать следующие задачи:

Технические требования

Для работы одного экземпляра библиотеки (обработка потока в 40-200 Мб текста/час) требуется одно ядро процессора и от 100 до 300 Мб оперативной памяти в зависимости от сложности конфигурации и объема обрабатываемого текста.

RCO Fact Extractor SDK работает на платформах Windows и Linux с текстами на русском, английском, казахском, армянском* и украинском* языке.

* функционал библиотеки неполный.

Система лицензирования

RCO Fact Extractor SDK выпускается в редакциях Standard, Standard Plus и Professional.

RCO Fact Extractor SDK в редакции Standard позволяет выделять из текста все упомянутые в нем сущности с их характеристиками, необходимыми для построения информационного портрета текста, а также определять общие стилистические характеристики текста и отдельных предложений.

RCO Fact Extractor SDK в редакции Standard Plus дополнительно к редакции Standard позволяет выделять из текста описания событий и фактов в соответствии с заданными семантическими шаблонами.

RCO Fact Extractor SDK в редакции Professional дополнительно к редакции Standard Plus обеспечивает доступ к семантической сети текста (получение синтактико-семантических связей между сущностями), а также к полному набору грамматических атрибутов сущностей.

Кроме того, выпускается настольная редакция библиотеки, позволяющая работать с небольшим объемом данных – до 10 тысяч документов.

Также существуют две специализированные редакции RCO Fact Extractor SDK  – RCO Deduplicator SDK (для выявления дубликатов среди множества текстовых документов) и RCO Document Parser (для выделения реквизитов из  типовых документов).

Актуальный ценовой лист находится здесь.

Данное ПО не облагается НДС в соответствии с пп.26 п.2 ст.149 НК РФ. ПО включено в Единый реестр российских программ для электронных вычислительных машин и баз данных (Реестр отечественного ПО).

Гарантийные обязательства и техническая поддержка

Срок гарантийных обязательств составляет 1 год с момента начала использования ПО.

После окончания гарантийного срока, возможно заключение договора технической поддержки ПО, которая включает в себя:

– Консультации;

– Обновление ПО до актуальной версии, по запросу.

Cтоимость технической поддержки составляет 22% от стоимости приобретенных лицензий, в год.

Фактический адрес размещения инфраструктуры разработки данного ПО, а также его разработчиков и службы технической поддержки:

Офис ООО “ЭР СИ О”: 119270, г. Москва, Лужнецкая наб., д. 6, стр.1 , офис 214.  Тел. +7 (495) 287 9887, info@rco.ru.

Техническая поддержка оказывается по рабочим дням с 9:00 до 19:00.

 

Обучение

Доступны следующие курсы:

1. RCO Fact Extractor SDK. Базовый курс
Продолжительность: 18 академических часов.
Курс включает следующие темы: этапы обработки текста, виды лингвистических ресурсов, пользовательские словари, правила токенизации, правила извлечения сложных объектов, описания фактов.
По каждой теме слушателю предлагается выполнить задания для закрепления материала.

2. RCO Fact Extractor SDK. Расширенный курс
Продолжительность: 30 академических часов.
Курс включает следующие темы: этапы обработки текста, виды лингвистических ресурсов, пользовательские словари, правила токенизации, правила извлечения сложных объектов, высокоточные описания объектов, описания фактов, настройка морфологического словаря, настройка семантических словарей.
По каждой теме слушателю предлагается выполнить задания для закрепления материала.

Узнать о стоимости курсов и записаться на обучение можно связавшись с нами по email info@rco.ru или телефону +7 (495) 287 9887.

 

Документация