АЛГОРИТМ ЛЕСКА И СИСТЕМА BABELFY ДЛЯ ДИЗАМБИГУАЦИИ
Дизамбигуация является актуальным направлением исследований в сфере теоретической, прикладной и компьютерной лингвистики. В настоящее время задача качественного снятия лексической многозначности не решена, тем не менее, существует ряд подходов к дизамбигуации. В статье описан эксперимент по анализу работы систем разрешения лексической многозначности – алгоритма Леска и системы Babelfy. Системы, выбранные для работы, основаны на разных подходах к дизамбигуации. Алгоритм Леска работает на пакете библиотек и программ NLTK, Babelfy - на основе семантической сети Babelnet. Тестирование проводилось с использованием собранной выборки предложений, содержащих многозначные слова, фразовые глаголы, омонимы, другие неоднозначные лексические единицы. В ходе исследования проводился анализ качества работы систем, для каждой из них представлен коэффициент эффективности. В соответствии с проведенным статистическим анализом ошибок можно сделать вывод о недостаточно высоком качестве работы систем снятия многозначности. В заключении описаны возможные причины ошибок систем дизамбигуации и предложено решение по их улучшению.
Гаджиев А.А., Хмелёв А. К. Алгоритм леска и система babelfy для дизамбигуации // Вопросы прикладной лингвистики. № 36. С. 54-77.
Статья доступна по лицензии Creative Commons Attribution 4.0 International License.