Получение значимых данных из неподготовленного текста путем его автоматической обработки авторскими лингвистическими инструментами (на материале электронных китайских СМИ)

Авторы
ГОРОЖАНОВ А.И., КРАСИКОВА Е.А.
Аффилиация
Московский государственный лингвистический университет
Выпуск 54
Страниц
115-138

Статья посвящена рассмотрению возможностей авторского программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер» для нахождения и анализа употребления различных частей речи в текстах электронных китайских СМИ. В ходе исследования были изучены технические параметры анализируемых частей речи, а также описаны некоторых функциональные особенности программного обеспечения. Созданный модуль «китайский язык» позволил произвести сборку сбалансированного лингвистического корпуса объемом 18341 токен и выполнить ряд поисковых запросов к этому корпусу. В частности, были произведены удачные попытки идентификации предложений, содержащих существительные, прилагательные, глаголы, числительные и частицы. Также в ходе корпусного эксперимента, который являлся основным методом исследования наряду с методами профессионально ориентированного программирования, моделирования и анализа, было установлено, что в отличие от индо-европейских языков (русского, английского и немецкого), на которых ранее тестировался программный комплекс, китайский язык вносит особенности в алгоритм наполнения базы данных леммами и токенами, что было оперативно учтено в ходе работы. Полученные в ходе запросов языковые и статистические данные были подвергнуты тщательному анализу, в результате которого было установлено, что погрешность определения заявленных частей речи составляет ок. 7%. В качестве перспектив исследования рассматривается оптимизация поиска данных в рамках модуля «китайский язык», в целом, и составление банков данных по отдельным частям речи и по именам собственным, а также формирование списка «стоп-слов» для уменьшения погрешности, в частности.

PDF версия
Эта статья доступна по Creative Commons Attribution 4.0 International License.