Проблемы морфологической разметки слов в текстах корпуса и их включения в компьютерную программу
Просмотры: 135 / Загрузок PDF: 252
DOI:
https://doi.org/10.32523/2616-678X-2022-140-3-103-113Ключевые слова:
корпус, корпусная лингвистика, текст, морфология, условная пометка, разметка, компьютерная программа.Аннотация
В статье даются краткий обзор истории создания корпуса в языкознании, характеристика корпусной лингвистики, указываются теоретические и практические задачи и требования морфологической разметки.
Морфологическая разметка слов в текстах корпуса изначально создавалась вручную. Даны разъяснения по основным принципам морфологического анализа отдельных слов и разметок. Известно, что морфологический анализ проводится в основном без привязки к контексту. В статье отдельно выделяются различные особенности, встречающиеся при анализе морфологических структур частей речи и размещении морфологических разметок слов.
Автоматическая разборка морфологической системы языка осуществляется за счет выполнения нескольких ступенчатых условий в памяти компьютера. Это: 1) выявление морфологической структуры слов (однокоренное слово, аффиксы); 2) внесение в память компьютера списка и заранее подготовленных условных обозначений аффиксов; 3) внесение в память компьютера текстов электронного формата различных стилей языка, содержащих морфологические разметки. Затем с помощью компьютерной программы выполняются следующие работы: а) проставление разметок частей речи на некоторых словах, где они не указаны; б) в процессе обработки реестревых слов вручную исправляются единичные ошибки в указании их части речи; б) оставляется только одно из слов-омонимов относительно одной из частей речи в списке реестревых слов; в) выявляются различия словообразовательных суффиксов и формообразующих аффиксов.