Проблемы морфологической разметки слов в текстах корпуса и их включения в компьютерную программу
Просмотры: 378 / Загрузок PDF: 453
DOI:
https://doi.org/10.32523/2616-678X-2022-140-3-103-113Ключевые слова:
корпус, корпусная лингвистика, текст, морфология, условная пометка, разметка, компьютерная программа.Аннотация
В статье даются краткий обзор истории создания корпуса в языкознании, характеристика корпусной лингвистики, указываются теоретические и практические задачи и требования морфологической разметки.
Морфологическая разметка слов в текстах корпуса изначально создавалась вручную. Даны разъяснения по основным принципам морфологического анализа отдельных слов и разметок. Известно, что морфологический анализ проводится в основном без привязки к контексту. В статье отдельно выделяются различные особенности, встречающиеся при анализе морфологических структур частей речи и размещении морфологических разметок слов.
Автоматическая разборка морфологической системы языка осуществляется за счет выполнения нескольких ступенчатых условий в памяти компьютера. Это: 1) выявление морфологической структуры слов (однокоренное слово, аффиксы); 2) внесение в память компьютера списка и заранее подготовленных условных обозначений аффиксов; 3) внесение в память компьютера текстов электронного формата различных стилей языка, содержащих морфологические разметки. Затем с помощью компьютерной программы выполняются следующие работы: а) проставление разметок частей речи на некоторых словах, где они не указаны; б) в процессе обработки реестревых слов вручную исправляются единичные ошибки в указании их части речи; б) оставляется только одно из слов-омонимов относительно одной из частей речи в списке реестревых слов; в) выявляются различия словообразовательных суффиксов и формообразующих аффиксов.
Загрузки
Опубликован
Как цитировать
Выпуск
Раздел
Лицензия
Научный журнал «Вестник Евразийского национального университета имени Л.Н. Гумилева. Серия: Филология» придерживается политики открытого доступа (Open Access) к опубликованным материалам, основываясь на принципе свободного и равного распространения научных знаний. Редакция исходит из того, что открытый доступ к результатам исследований способствует развитию филологической науки, укреплению академической коммуникации и интеграции отечественных исследований в международное научное пространство.
1. Свободный и бесплатный доступ
Все статьи, опубликованные в журнале, размещаются в открытом доступе на официальном сайте издания и доступны всем пользователям без ограничений, регистрации и оплаты.
Пользователи имеют право:
-
свободно читать и скачивать материалы;
-
копировать и распространять тексты публикаций;
-
распечатывать статьи;
-
использовать материалы в научных и образовательных целях с обязательным указанием авторства и источника публикации.
2. Лицензирование
Материалы журнала распространяются на условиях лицензии Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
https://creativecommons.org/licenses/by-nc/4.0/
Данная лицензия разрешает использование, копирование, распространение и адаптацию материалов в некоммерческих целях при обязательном указании авторства и ссылки на оригинальный источник публикации.
3. Преимущества открытого доступа
Политика открытого доступа обеспечивает:
-
повышение видимости и цитируемости научных публикаций;
-
оперативное распространение результатов исследований в области филологии, лингвистики, литературоведения и переводоведения;
-
расширение международного научного сотрудничества;
-
доступ читателей к актуальным научным данным без финансовых и технических барьеров.
Редакция журнала стремится обеспечить прозрачность редакционных процессов, высокое качество рецензирования и широкую доступность научных результатов в сфере филологических исследований.






