Abstract
<jats:p>Цифровизация языковых ресурсов малоресурсных языков требует формализованной организации сбора, описания, контроля качества и публикации аудиоданных. В связи с этим целью исследования является разработка модели данных аудиомодуля для ненецко-русского и русско-ненецкого онлайн-словаря и контура поддержки принятия решений, обеспечивающего отбор лексических единиц для записи, их постобработку и интеграцию в словарную систему. Материалы исследования составили корпусные и словарные ресурсы, учебные и тематические материалы, ранее созданные аудиоресурсы, а также результаты полевого исследования, выполненного в Нарьян-Маре в декабре 2025 года. Методическая основа работы включает системный анализ, формализацию информационных потоков, многокритериальную приоритизацию лексики и описание воспроизводимой процессной схемы работы с аудиоматериалами. В результате определены сущности модели данных аудиомодуля, контур контроля качества и контур поддержки принятия решений по развитию аудиопокрытия словаря. Для списка из 542 единиц выполнено профилирование по типам единиц, частям речи, тематикам и микротематикам; дополнительно охарактеризованы состав информантов, структура аудиоматериалов, правила именования файлов и статусы контроля качества. Предложенное решение может использоваться при разработке цифровых словарей и речевых ресурсов для малоресурсных языков.</jats:p> <jats:p>The digitalization of language resources for low-resource languages requires a formal organization of audio data collection, description, quality control, and publication. In this context, the study aims to develop a data model for the audio module of the Tundra Nenets online dictionary, i.e. the Nenets-Russian and Russian-Nenets online dictionary, and a decision support framework for selecting lexical units for recording, post-processing audio materials, and integrating them into the dictionary system. The empirical base includes corpus and dictionary resources, educational and thematic materials, previously created audio resources, and the results of fieldwork conducted in Naryan-Mar in December 2025. The methodological framework combines systems analysis, formalization of information flows, multicriteria prioritization of lexical items, and a reproducible workflow for processing audio materials. The study identifies the core entities of the audio module data model, the quality control framework, and the decision support framework for expanding the dictionary’s audio coverage. A list of 542 units was profiled by unit type, part of speech, theme, and microtheme; the paper also characterizes the composition of informants, the structure of audio materials, file naming conventions, and quality control statuses. The proposed solution can be applied to the development of digital dictionaries and speech resources for low-resource languages.</jats:p>