Коэффициент Симпсона

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

Мера Шимкевича-Симпсона — бинарная мера сходства, предложенная независимо Дезидерием Шимкевичем как «показатель родового сходства» в 1934 году[1] и Джорджем Симпсоном в 1947 году[2]. Меру часто путают с несимметричными коэффициентами сходства. Встречается под названием «коэффициент перекрытия» (англ. overlap coefficient).

Для конечных множеств (множественная интерпретация) имеет следующий вид:

[math]\displaystyle{ K_{0, + \mathcal {1}} = \frac {n(A \cap B)}{min [n(A), n(B)]} = max \left [ \frac {n(A \cap B)}{n(A)}, \frac {n(A \cap B)}{n(B)} \right ] = \frac {2n(A \cap B)}{n(A) + n(B) - |n(A) - n(B)|} }[/math],

где [math]\displaystyle{ n(X) }[/math] — мощность множества X.

Для случая дескриптивных множеств (дескриптивная интерпретация), в экологии это выборки по обилию, аналогом указанной меры является мера использовавшаяся в системах поиска информации[3]:

[math]\displaystyle{ K_{0, + \mathcal {1}} = \frac {\sum^{r}_{i=1} min(A_i, B_i)}{min [\sum^r_{i=1} (A_i), \sum^r_{i=1} (B_i)]} = \frac {m(A \wedge B)}{min [m(A), m(B)]} }[/math]

Если сравниваются объекты по встречаемости видов (вероятностная интерпретация), то есть учитываются вероятности встреч, то аналогом меры Шимкевича-Симпсона будет коэффициент совместимости событий Гудолла[4]:

[math]\displaystyle{ K_{0, + \mathcal {1}} = \frac {P(A \cap B)}{min [P(A), P(B)]} }[/math].

На основе этой меры можно получить ТКД (трансформированный коэффициент Дайса): [math]\displaystyle{ K_{TCD} = 2K_G - 1 }[/math]. Для информационной аналитической интерпретации используется одна из мер взаимозависимости Белла[5]. Мера использовалась в климатологии, систематике растений, информатике:

[math]\displaystyle{ K_{0, + \mathcal {1}} = \frac {I(A,B)}{min [H(A), H(B)]} }[/math]

См. также

Примечания

  1. Szymkiewicz D. Une contribution statistique a la géographie floristique // Acta Soc. Bot. Polon. 1934. T. 34. № 3. P. 249—265.
  2. Simpson G.G. Holarctic mammalian faunas and continental relationship during the Cenozoic // Bull. Geol. Sci. America. 1947. V. 58. P. 613—688.
  3. Сэлтон Г. А. Автоматическая обработка, хранение и поиск информации. — М.: Сов. радио, 1973. — 560 с.
  4. Goodall D.W. Sample similarity and species correlation // Handbook of Vegetation science. Part 5. Ordination and classification of vegetation. The Hague, 1973. P. 107—156.
  5. Bell C.B. Mutual information and maximal correlation as measures of dependence // 10. Ann. Math. Stat. 1962. № 33. P. 587—593.