Abstract
<jats:p>В последние годы проблема недостоверной информации стала особенно заметной: новости распространяются быстро, источников много, а проверка вручную не успевает за потоком. Это создаёт риски как для обычных пользователей, так и для организаций, которые принимают решения на основе информационных сообщений. В данной работе рассматривается задача автоматического определения доверия к новостной информации на основе текстов, получаемых из RSS-лент. Данные формируются из набора источников и разделяются на две категории: trusted и untrusted. Для решения задачи сравниваются классические алгоритмы машинного обучения (логистическая регрессия, случайный лес, SVM, наивный Байес), модель RuBERT, а также ансамблевая схема stacking. Качество оценивается с помощью precision, recall и F1-score с учётом дисбаланса классов. Результаты показывают, что RuBERT обеспечивает более устойчивое качество, особенно на классе untrusted, однако требует больше вычислительных ресурсов. Ансамблевый подход позволяет сохранить высокое качество при меньших затратах времени, что делает его практичным вариантом для обработки новостных потоков.</jats:p> <jats:p>In recent years, the problem of inaccurate information has become especially noticeable: news spreads quickly, there are many sources, and manual verification does not keep up with the flow. This creates risks for both ordinary users and organizations that make decisions based on informational messages. This paper discusses the task of automatically determining trust in news information based on texts obtained from RSS feeds. Data is formed from a set of sources and is divided into two categories: trusted and untrusted. To solve the problem, the classic machine learning algorithms (logistic regression, random forest, SVM, naive Bayes), RuBERT model, as well as the stacking ensemble scheme are compared. Quality is evaluated using precision, recall and F1-score, taking into account class imbalances. The results show that RuBERT provides more consistent quality, especially in the untrusted class, but requires more computing resources. The ensemble approach allows you to maintain high quality with less time, which makes it a practical option for processing news streams.</jats:p>