Аннотация

RCO Fact Extractor SDK — инструмент компьютерного анализа текстовой информации на русском языке. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем. Библиотека производит лингвистический разбор текста с учетом грамматики и семантики языка и предоставляет программный интерфейс для считывания результатов разбора и использования другими программами (напр., для визуализации полученных данных, построения отчетов и таблиц, организации поиска по объектам и т.д.).

Результатом анализа текста являются выделенные из текста сущности – наименования организаций, персон, географические объекты, различные символьно-цифровые конструкции (такие как номера автомобилей или полисов страхования, адреса), классы сущностей; сеть синтактико-семантических отношений между сущностями текста; структуры данных, описывающие упомянутые в тексте события и факты.

Библиотека универсальна: ее можно настроить на работу с разными предметными областями и даже с разными языками. Всевозможные надстройки над базовой библиотекой позволяют решать совершенно разные задачи: от нахождения информационных дублей (плагиата) и построения смыслового портрета документа, до обезличивания персональных данных в текстах или преобразования поисковых запросов.

Характеристики

Библиотека обрабатывает примерно 20-100 Мбайт «чистого» текста в час. Под «чистым» текстом понимается документ, очищенный от разметки и служебной информации.

Анализ текста состоит из 8ми последовательных ступеней. На каждом этапе задействованы специальные словари, описания объектов и правила, составленные лингвистами для максимально полного и точного извлечения информации в соответствии с заданной задачей и форматами текстов.

Часть словарей, поставляемых с библиотекой, пополняемы и редактируемы. Настройка на предметную область требует знакомства с языком CAPE. Первоначальные сведения о настройке библиотеки представлены на нашем канале в youtube.

Наши лингвисты могут провести тюнинг библиотеки под Вашу задачу и обучить Ваших специалистов самостоятельной работе с пакетом.

Система лицензирования

RCO Fact Extractor SDK выпускается в редакциях Standard, Standard Plus и Professional.

RCO Fact Extractor SDK в редакции Standard позволяет выделять из текста все упомянутые в нем сущности с их характеристиками, необходимыми для построения информационного портрета текста, а также определять общие стилистические характеристики текста и отдельных предложений.

RCO Fact Extractor SDK в редакции Standard Plus дополнительно к редакции Standard позволяет выделять из текста описания событий и фактов в соответствии с заданными семантическими шаблонами.

RCO Fact Extractor SDK в редакции Professional дополнительно к редакции Standard Plus обеспечивает доступ к семантической сети текста (получение синтактико-семантических связей между сущностями), а также к полному набору грамматических атрибутов сущностей.

Кроме того, выпускается настольная редакция библиотеки, позволяющая работать с небольшим объемом данных – до 10 тысяч документов.

Пробная версия

RCO Fact Extractor SDK можно потестировать на своих данных.

Библиотека предоставляется без каких-либо функциональных ограничений на 2 месяца путем заключения специального Лицензионного соглашения (для получения библиотеки, необходимо передать нам оригинал соглашения, предварительно выслав скан подписанного соглашения по электронной почте).

RCO Fact Extractor SDK предоставляется с аппаратным ключом защиты HASP HL. Для его получения необходимо направить курьера в наш офис (если Вы находитесь не в Москве, можно заказать доставку ключа курьерской службой, напр., воспользовавшись услугами компании Фрейт Линк). По окончании тестирования библиотеки, ключ нужно будет вернуть.

Примеры использования

  • Мониторинг упоминаемости заданных объектов в СМИ и сентимент-анализ (оценка отношения автора к объекту);
  • Выявление упоминаний нормативно-правовых актов в тексте;
  • Обезличивание персональных данных;
  • Отслеживание утечек информации;
  • Промышленная разведка (анализ патентной и научно-технической информации).

Дополнительные модули к библиотеке позволяют решать следующие задачи:

Требования

Для работы одного экземпляра библиотеки (обработка потока в 20-100 Мб текста/час) требуется одно ядро процессора и от 100 до 300 Мб оперативной памяти в зависимости от сложности конфигурации и объема обрабатываемого текста.

RCO Fact Extractor SDK работает на платформах Windows и Unix с текстами на русском, английском и украинском* языке.

* функционал библиотеки неполный

Документация