Сравнительный анализ методов машинного обучения и RuBERT для определения достоверности новостных RSS-лент

Authors: Г.Б. Владимир, Н.С. Юрий, С.Д. Даниил

Publication: Scientific works of KubSTU

Published: Apr 16, 2026

Source: Crossref

Back to Search View Original Cite This Article

Abstract

<jats:p>В последние годы проблема недостоверной информации стала особенно заметной: новости распространяются быстро, источников много, а проверка вручную не успевает за потоком. Это создаёт риски как для обычных пользователей, так и для организаций, которые принимают решения на основе информационных сообщений. В данной работе рассматривается задача автоматического определения доверия к новостной информации на основе текстов, получаемых из RSS-лент. Данные формируются из набора источников и разделяются на две категории: trusted и untrusted. Для решения задачи сравниваются классические алгоритмы машинного обучения (логистическая регрессия, случайный лес, SVM, наивный Байес), модель RuBERT, а также ансамблевая схема stacking. Качество оценивается с помощью precision, recall и F1-score с учётом дисбаланса классов. Результаты показывают, что RuBERT обеспечивает более устойчивое качество, особенно на классе untrusted, однако требует больше вычислительных ресурсов. Ансамблевый подход позволяет сохранить высокое качество при меньших затратах времени, что делает его практичным вариантом для обработки новостных потоков.</jats:p> <jats:p>In recent years, the problem of inaccurate information has become especially noticeable: news spreads quickly, there are many sources, and manual verification does not keep up with the flow. This creates risks for both ordinary users and organizations that make decisions based on informational messages. This paper discusses the task of automatically determining trust in news information based on texts obtained from RSS feeds. Data is formed from a set of sources and is divided into two categories: trusted and untrusted. To solve the problem, the classic machine learning algorithms (logistic regression, random forest, SVM, naive Bayes), RuBERT model, as well as the stacking ensemble scheme are compared. Quality is evaluated using precision, recall and F1-score, taking into account class imbalances. The results show that RuBERT provides more consistent quality, especially in the untrusted class, but requires more computing resources. The ensemble approach allows you to maintain high quality with less time, which makes it a practical option for processing news streams.</jats:p>

Keywords

на untrusted rubert для news

Сравнительный анализ методов машинного обучения и RuBERT для определения достоверности новостных RSS-лент

Abstract

Keywords

Related Articles

GWAS ANALYSIS OF HOLSTEIN CATTLE IN THE SVERDLOVSK REGION USING FULL AND EXTREME SAMPLES

Анализ двусторонней причинно-следственной связи между доходами от туризма и экономическим ростом в Турции

Цифровая трансформация нефтегазового бизнеса с помощью поисковых систем: анализ трендов

O‘ZBEKISTON PENSIYA TIZIMI MISOLIDA PENSIYA YOSHINI TAHLIL QILISH, ANALYSIS OF THE RETIREMENT AGE BASED ON THE EXAMPLE OF THE PENSION SYSTEM OF UZBEKISTAN, АНАЛИЗ ПЕНСИОННОГО ВОЗРАСТА НА ПРИМЕРЕ ПЕНСИОННОЙ СИСТЕМЫ УЗБЕКИСТАНА

Иллокутивные функции итальянских глаголов dire и parlare в поэтическом дискурсе и разговорной речи: корпусный анализ