На главную О компании Продукты Технологии Публикации Партнерам in English: in English
На главную

   Помощь
Главная
Продукты
RCO Semantic Entity Extractor SDK

RCO Semantic Entity Extractor SDK
библиотека выделения сущностей и построения семантического портрета текста





Поиск для Oracle
RCO for Oracle



Поиск для Microsoft
RCO for BackOffice




Инструментарий разработчика

RCO Morphology SDK

RCO Morphology Professional SDK

RCO Fact Extractor SDK





Инструментарий аналитика
RCO Fact Extractor




Общая информация

Библиотека предназначена для анализа содержания русского текста и выделения широкого спектра сущностей, упомянутых в нем. Библиотека включает в себя все возможности продуктов RCO Pattern Extractor SDK для выделения особых конструкций (дат, денежных сумм, адресов и проч.) и RCO Entity Extractor SDK для выделения и отождествления именованных объектов (персон, организации, географических мест). Дополнительно библиотека обеспечивает выделение сущностей, обозначенных в тексте именами нарицательными (предметов, событий, признаков и проч.) Результаты работы библиотеки могут быть использованы при решении задач семантического индексирования документов, автоматической классификации, аннотирования.

Сущности, упоминаемые в тексте и выделяемые средствами библиотеки, можно разделить на три класса:

  1. Именованные сущности – персоны, организации, географические объекты и прочие объекты, обозначаемые в тексте с использованием имен собственных. Для определения имен собственных и приведения их к нормальной форме используются алгоритмы словарного и бессловарного морфологического анализа, информация о возможных способах написания названий в русском языке, алгоритмы синтаксического анализа и снятия омонимии, алгоритмы установления корефрентности обозначений. Например, программа понимает, что Ковдроский, Костомукшинский и Оленегорский ГОКи – это три разных предприятия, и сможет отождествить различные обозначения одного и того же предприятия в тексте, например: ООО “Ковдроский горно-обогатительный комбинат”, ГОК, горно-обогатительный комбинат, предприятие, которое. Аналогично, программа может отождествить такие обозначения одной персоны, как Иван Иванович Иванов, Иванов, Иван Иванович, он. Для высокоточной обработки обозначений заранее известных персон и организаций в библиотеке предусмотрена возможность подключения их детализированных описаний.
  2. Неименованные сущности, обозначенные в тексте полнозначными словами основных частей речи: нарицательными именами существительными, прилагательными, нестроевыми глаголами – одушевленные и неодушевленные предметы (новое оружие массового поражения, тариф на энергоноситель) признаки (нищий, нищета), события (голодовка шахтеров, требовать понизить тариф на энергоноситель). Имена таких сущностей определяются на основании синтаксического анализа текста и правил русского языка. Так, от каждого упоминания имени существительного в тексте программой строятся нормальные формы всех именных групп, центром которых выступает данное существительное. Например, если в тексте упоминается новое химическое и бактериологическое оружие, то библиотека позволит получить имена всех неодушевленных предметов, о которых шла речь: новое химическое оружие, новое бактериологическое оружие, химическое оружие, бактериологическое оружие, оружие.
  3. Специальные объекты – сущности, обозначаемые в тексте конструкциями особого вида, обычно смешанными из цифр и символов: даты и обстоятельства времени, денежные суммы. Такие объекты распознаются благодаря формальным правилам, написанным на особом языке. Пользователь библиотеки имеет возможность добавлять свои правила для распознавания новых типов объектов, например, номеров автомобилей.

    Библиотека обрабатывает текст в форматах HTML и TXT. Поставляется в виде динамической библиотеки (dll) для Windows.






Контакты

тел./факс: +7 495 287-9887    e-mail: info@rco.ru