Команда ЦКТ — среди сильнейших

Команда Центра когнитивных технологий заняла второе и третье места международного Открытого соревнования по многоязычному распознаванию именованных сущностей BSNLP-2019.


Высокий результат достигнут с помощью системы лингвистической обработки текста, используемой центром в инновационном продукте SmartCS.


Открытое соревнование по многоязычному распознаванию именованных сущностей BSNLP организовано Проблемной группой по автоматической обработке славянских языков Ассоциации компьютерной лингвистики и проводится с целью оценки и анализа текущего уровня развития технологии NLP (Natural Language Processing, обработка естественного языка) для определенной группы языков или отдельного языка. По итогам соревнования организация публикует выводы о качестве решения задач в рассматриваемом сегменте, методах и общих тенденциях.


В этом году в соревновании приняли участие 8 команд. Они продемонстрировали возможности разработанных систем распознавания именованных сущностей для текстов на болгарском, чешском, польском и русском языках. Правила позволяли ограничиться одним языком или представить решение сразу для нескольких.

Команда Центра когнитивных технологий приняла участие в двух дорожках соревнования: распознавании и лемматизации именованных сущностей для текстов на русском языке. Под именованными сущностями подразумеваются описывающие определенные объекты слова и фразы. В поставленной задаче требовалось извлечь из набора текстов пять типов таких объектов: персоны, локации, организации, события и продукты. Лемматизация — это одна из ключевых задач NLP для языков с развитой системой словоизменения, к которым относится и русский язык. При ее решении различные варианты написания сущностей приводятся к установленному.


Подобные задания отражают реальные потребности рынка обработки естественного языка и востребованы в различных контекстах. Например, для определения темы текстов, установления связей на основе упоминаемых в них географических мест или лиц, извлечения других фактов. Организаторы предложили участникам работу с двумя современными датасетами, источником для которых стали новостные сообщения русскоязычных онлайн-СМИ за март - апрель 2019 года.

«Мы хотели в первую очередь определить качество наших базовых технологий распознавания именованных сущностей на признанных мировым сообществом тестовых данных. Соревнование BSNLP-2019, несомненно, следует лучшим традициям подобных соревнований и не предоставляет возможных преимуществ определенному научному подходу или конкретной компании», — прокомментировал участие в соревновании старший лингвист Центра когнитивных технологий Сергей Куликов, к.ф.н.


На дорожке распознавания именованных сущностей команда ЦКТ заняла второе место, обойдя конкурентов с признанной на международном уровне экспертизой: Институт информатики Вроцлавского университета (Польша), NLP-Cube (совместная разработка румынского подразделения Adobe Systems и Исследовательского института искусственного интеллекта Румынской академии наук) и Центр компетенций текстовой аналитики Объединенного исследовательского центра ЕС.


На дорожке лемматизации эксперты Центра когнитивных технологий вошли в тройку лучших. В рамках соревнования применялась упрощенная версия системы лингвистической обработки текста, используемая в интеллектуальной системе корпоративного поиска SmartCS.


«Для нас значимо, что подобный результат был достигнут с помощью системы, являющейся основой наших коммерческих продуктов, которую мы незначительно адаптировали к решению соревновательных задач, — отметил руководитель ЦКТ Илья Калагин, к.т.н. — Высокое качество и точность обработки обеспечиваются применяемым нами гибридным подходом с использованием комбинации интеллектуальных правил и методов машинного обучения».

  • Белый Facebook Icon
  • Белый Иконка YouTube

+7 (929) 555-98-80

ул. Кедрова, 15
117036, Россия, г. Москва

 © 2020 ЦЕНТР КОГНИТИВНЫХ ТЕХНОЛОГИЙ.  Разработка и внедрение систем искусственного интеллекта.

цкт лого [Восстановлен].png