Архитектурная модель аудиомодуля онлайн-словаря тундрового ненецкого языка

Authors: П.Е. Шняков, Е.С. Коканова

Publication: МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

Published: Jun 9, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>Цифровизация языковых ресурсов малоресурсных языков требует формализованной организации сбора, описания, контроля качества и публикации аудиоданных. В связи с этим целью исследования является разработка модели данных аудиомодуля для ненецко-русского и русско-ненецкого онлайн-словаря и контура поддержки принятия решений, обеспечивающего отбор лексических единиц для записи, их постобработку и интеграцию в словарную систему. Материалы исследования составили корпусные и словарные ресурсы, учебные и тематические материалы, ранее созданные аудиоресурсы, а также результаты полевого исследования, выполненного в Нарьян-Маре в декабре 2025 года. Методическая основа работы включает системный анализ, формализацию информационных потоков, многокритериальную приоритизацию лексики и описание воспроизводимой процессной схемы работы с аудиоматериалами. В результате определены сущности модели данных аудиомодуля, контур контроля качества и контур поддержки принятия решений по развитию аудиопокрытия словаря. Для списка из 542 единиц выполнено профилирование по типам единиц, частям речи, тематикам и микротематикам; дополнительно охарактеризованы состав информантов, структура аудиоматериалов, правила именования файлов и статусы контроля качества. Предложенное решение может использоваться при разработке цифровых словарей и речевых ресурсов для малоресурсных языков.</jats:p> <jats:p>The digitalization of language resources for low-resource languages requires a formal organization of audio data collection, description, quality control, and publication. In this context, the study aims to develop a data model for the audio module of the Tundra Nenets online dictionary, i.e. the Nenets-Russian and Russian-Nenets online dictionary, and a decision support framework for selecting lexical units for recording, post-processing audio materials, and integrating them into the dictionary system. The empirical base includes corpus and dictionary resources, educational and thematic materials, previously created audio resources, and the results of fieldwork conducted in Naryan-Mar in December 2025. The methodological framework combines systems analysis, formalization of information flows, multicriteria prioritization of lexical items, and a reproducible workflow for processing audio materials. The study identifies the core entities of the audio module data model, the quality control framework, and the decision support framework for expanding the dictionary’s audio coverage. A list of 542 units was profiled by unit type, part of speech, theme, and microtheme; the paper also characterizes the composition of informants, the structure of audio materials, file naming conventions, and quality control statuses. The proposed solution can be applied to the development of digital dictionaries and speech resources for low-resource languages.</jats:p>

Keywords

audio resources dictionary framework materials

Архитектурная модель аудиомодуля онлайн-словаря тундрового ненецкого языка

Abstract

Keywords

Related Articles

A MODEL OF PUBLIC LIBRARIES THAT FACILITATE SOCIAL ENGAGEMENT OF ELDERLY READERS WITHIN THE PARADIGM OF ACTIVE AGING

AUTOFICTIONAL VARIABLES: A MODEL TO IDENTIFY CULTURAL DYNAMIC IN AUTOFICTION

Immersive Noise Model for Virtual Reality Human-Computer Interfaces

УПРАВЛЕНИЕ РИСКАМИ В СИСТЕМЕ ГОСУДАРСТВЕННОГО ЗАКАЗА РОССИЙСКОЙ ПРОМЫШЛЕННОСТИ: МОДЕЛЬ УПРАВЛЕНИЯ В УСЛОВИЯХ САНКЦИОННОГО ДАВЛЕНИЯ

ІНТЕЛЕКТУАЛЬНА НЕЙРОМЕРЕЖЕВА МОДЕЛЬ ОСВІТНЬОЇ ПЛАТФОРМИ ДИСТАНЦІЙНОГО НАВЧАННЯ, INTELLECTUAL NEURAL NETWORK MODEL OF THE DISTANCE LEARNING EDUCATIONAL PLATFORM