Перейти к содержанию

Многомерное шкалирование

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Многомерное шкалирование — метод анализа и визуализации данных с помощью расположения точек, соответствующих изучаемым (шкалируемым) объектам, в пространстве меньшей размерности, чем пространство признаков объектов. Точки размещаются так, чтобы попарные расстояния между ними в новом пространстве как можно меньше отличались от эмпирически измеренных расстояний в пространстве признаков изучаемых объектов. Если элементы матрицы расстояний получены по интервальным шкалам, метод многомерного шкалирования называется метрическим. Когда шкалы являются порядковыми, метод многомерного шкалирования называется неметрическим. Мера различий расстояний в исходном и новом пространстве называется функцией стресса.

Области применения

  • Поиск скрытых переменных, объясняющих полученную из опыта структуру попарных расстояний между изучаемыми явлениями.
  • Проверка гипотез о расположении изучаемых явлений в пространстве скрытых переменных.
  • Сжатие полученного опытным путём массива данных путём использования небольшого числа скрытых переменных.
  • Наглядное представление данных.

Функция расстояния

Функцией расстояния называется функция от двух аргументов, которая ставит в соответствие двум шкалируемым объектам расстояние [math]\displaystyle{ d(a_i, a_j) }[/math] между ними так, что выполняются следующие аксиомы: [math]\displaystyle{ d(a_i, a_j)=0 }[/math] в том и только том случае, когда объекты [math]\displaystyle{ a_i }[/math] и [math]\displaystyle{ a_j }[/math] совпадают (рефлексивность расстояния), [math]\displaystyle{ d(a_i, a_j)=d(a_j, a_i) }[/math] (симметричность расстояния), [math]\displaystyle{ d(a_i, a_j)+d(a_j, a_k) \geqslant d(a_i, a_k) }[/math] (правило треугольника)[1].

Функция близости

Функция близости менее формализована, так как она является опытной величиной, например, получаемой в ходе социологического опроса. Это функция [math]\displaystyle{ s(a_i, a_j) }[/math] от двух аргументов, которая двум шкалируемым объектам ставит в соответствие расстояние [math]\displaystyle{ s(a_i, a_j) }[/math] между ними так, что выполняются следующие аксиомы: [math]\displaystyle{ s(a_i, a_j) \geqslant s(a_i, a_i) }[/math] (объект ближе к самому себе, чем к любому другому объекту), [math]\displaystyle{ s(a_i, a_j)=s(a_j, a_i) }[/math] (симметричность близости), для больших значений [math]\displaystyle{ s(a_i, a_j) }[/math] и [math]\displaystyle{ s(a_j, a_k) }[/math] величина [math]\displaystyle{ s(a_i, a_k) }[/math] имеет по крайней мере тот же порядок (ослабленное правило треугольника).

Примечания

Литература

  • Толстова Ю. Н. Основы многомерного шкалирования. — М.: КДУ, 2006. — 160 с. — ISBN 5-98227-100-4.
  • Дэйвисон М. Многомерное шкалирование: методы наглядного представления данных. — М.: Финансы и статистика, 1988. — 254 с. — ISBN 5-279-00276-3.
  • Айвазян С. А., Бухштабер В. М, Енюков И. С. и др. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 607 с.