Abstract
<jats:p>У статті розглянуто проблему обробки невизначеності під час багатовимірного аналізу даних реляційних баз даних, яка є актуальним науково-практичним завданням. Поява невизначеності в даних, розташованих в реляційних базах даних зумовлена зростанням обсягів, складності та гетерогенності сучасних даних. У роботі здійснено постановку задачі багатовимірного аналізу в умовах невизначеності та систематизовано основні типи невизначеності, що виникають у даних реляційних баз даних, зокрема пропуски, суперечності, нечіткі значення та семантичну неоднозначність операцій з’єднання. Запропонований формальний опис цих типів дозволяє розглядати невизначеність як невід’ємну властивість даних, що впливає на коректність аналітичних результатів. Традиційні методи багатовимірного аналізу базуються на точному порівнянні значень або статистичних припущеннях про коректність даних, що робить їх недостатньо ефективними у присутності пропусків, суперечностей та альтернативних представлень одного об’єкта. У межах дослідження представлено та проаналізовано сучасні методи врахування невизначеності, серед яких теорія грубих множин, Баєсівські мережі довіри, теорія Демпстера–Шафера, алгоритм максимальної апроксимації очікувань та ймовірнісне з’єднання. Порівняльний аналіз показав, що кожен із зазначених методів має чітко визначену область доцільного застосування, обумовлену математичним апаратом та природою невизначеності. Встановлено, що для невизначеності типу «пропуск» найбільш ефективними є ймовірнісні підходи, зокрема EM-алгоритм і Баєсівські мережі довіри, оскільки вони забезпечують імовірнісне відновлення відсутніх значень із урахуванням залежностей між атрибутами. Для обробки суперечливих даних доцільно застосовувати теорію грубих множин і теорію Демпстера–Шафера, які дозволяють локалізувати область конфлікту та кількісно оцінити ступінь невизначеності без необхідності введення жорстких імовірнісних припущень. У випадку нечітких даних найбільш адекватними є методи нечіткої логіки, що формалізують лінгвістичну та інтервальну невизначеність через функції належності. Для невизначеності з’єднання, пов’язаної з неоднозначністю зв’язків між таблицями, найкращі результати забезпечує ймовірнісне з’єднання, яке переносить невизначеність на рівень імовірнісної інтерпретації відповідностей.</jats:p>