Получение значимых данных из неподготовленного текста путем его автоматической обработки авторскими лингвистическими инструментами (на материале электронных китайских СМИ)
Статья посвящена рассмотрению возможностей авторского программного комплекса «Генератор сбалансированного лингвистического корпуса и корпусный менеджер» для нахождения и анализа употребления различных частей речи в текстах электронных китайских СМИ. В ходе исследования были изучены технические параметры анализируемых частей речи, а также описаны некоторых функциональные особенности программного обеспечения. Созданный модуль «китайский язык» позволил произвести сборку сбалансированного лингвистического корпуса объемом 18341 токен и выполнить ряд поисковых запросов к этому корпусу. В частности, были произведены удачные попытки идентификации предложений, содержащих существительные, прилагательные, глаголы, числительные и частицы. Также в ходе корпусного эксперимента, который являлся основным методом исследования наряду с методами профессионально ориентированного программирования, моделирования и анализа, было установлено, что в отличие от индо-европейских языков (русского, английского и немецкого), на которых ранее тестировался программный комплекс, китайский язык вносит особенности в алгоритм наполнения базы данных леммами и токенами, что было оперативно учтено в ходе работы. Полученные в ходе запросов языковые и статистические данные были подвергнуты тщательному анализу, в результате которого было установлено, что погрешность определения заявленных частей речи составляет ок. 7%. В качестве перспектив исследования рассматривается оптимизация поиска данных в рамках модуля «китайский язык», в целом, и составление банков данных по отдельным частям речи и по именам собственным, а также формирование списка «стоп-слов» для уменьшения погрешности, в частности.