Коэффициент Жаккара

Пересечение множеств A и B

Объединение множеств A и B

Мера Жаккара (коэффициент флористической общности, фр. coefficient de communaute, нем. Gemeinschaftskoeffizient) — бинарная мера сходства, предложенная Полем Жаккаром в 1901 году.^[1] : [math]\displaystyle{ K_J = \frac{c}{a+b-c} }[/math], где а — количество видов на первой пробной площадке, b — количество видов на второй пробной площадке, с — количество видов, общих для 1-й и 2-й площадок. Это первый известный коэффициент сходства. Фамилия автора коэффициента в литературе также переводилась как Жаккард или Джаккард. Коэффициент Жаккара в различных модификациях и записях активно используется в экологии, геоботанике, молекулярной биологии, биоинформатике, геномике, протеиномике, информатике и др. направлениях. Мера Жаккара эквивалентна (связаны одной монотонно возрастающей зависимостью) мере Сёренсена и мере Сокала-Снита для конечных множеств (множественная интерпретация):

[math]\displaystyle{ K_{1,-1} = \frac{n(A \cap B)}{n(A) + n(B) - n(A \cap B)} = \frac{n(A \cap B)}{ n(A \cup B)} }[/math]

Меру различия, которая является дополнением до 1 коэффициента сходства Жаккара называют мерой флористического контраста^[2]^[3]. Для случая дескриптивных множеств (дескриптивная интерпретация), в экологии это выборки по обилию, аналогом указанной меры является мера Ружички^[4]:

[math]\displaystyle{ K_{1,-1} = { \sum^{r}_{i=1} min(A_i, B_i) \over ( \sum^r_{i=1} (A_i) + \sum^r_{i=1} (B_i) - \sum^r_{i=1} min(A_i, B_i) ) } = { \sum^r_{i=1} min(A_i, B_i) \over \sum^r_{i=1} max(A_i, B_i) ) } }[/math].

В частном случае, когда используются компоненты булевых векторов, то есть компоненты, принимающие только два значения 0 и 1 мера известна под названием коэффициента Танимото или расширенного коэффициента Жаккара^[5]. Если сравниваются объекты по встречаемости видов (вероятностная интерпретация), то есть учитываются вероятности встреч, то аналогом меры Жаккара будет вероятностная мера Иверсена^[6]:

[math]\displaystyle{ K_{1,-1} = \frac{P(A \cap B)}{P(A \cup B)} }[/math].

Для информационной аналитической интерпретации используется мера взаимозависимости Райского^[7]^[8]^[9]:

[math]\displaystyle{ K_{1,-1} = \frac{I(A,B)}{H(A,B)} }[/math]

Мера различия коэквивалентная мере сходства Жаккара есть расстояние:

[math]\displaystyle{ F_{1,-1} = 1 - \frac{n(A \cap B)}{n(A) + n(B) - n(A \cap B)} = \frac{n(A \cup B) - n(A \cap B)}{n(A \cup B)} }[/math]

См. также

Литература

↑ Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241—272.
↑ Миркин Б. М., Розенберг Г. С. Толковый словарь современной фитоценологии. — М.: Наука, 1983. — 134 с.
↑ Миркин Б. М., Розенберг Г. С., Наумова Л. Г. Словарь понятий и терминов современной фитоценологии. — М.: Наука, 1989. — 223 с.
↑ Ružička M.K. Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biologia. 1958. Roč. 13. č. 9. S. 647—661.
↑ Tanimoto T.T. IBM Internal Report 17th Nov. 1957.
↑ Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetation. 1954. V. 5-6. P. 238—246.
↑ Raijski C. A metric space of discrete probability distributions // Information and Control. 1961. V. 4. № 4. P. 371—377.
↑ Raijski C. Entropy and metric spaces // C. Cherry (ed.). Information Theory. London: Butterworths, 1961. P. 41-45.
↑ Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов: (статистические методы классификации и измерения связей). — М.: Статистика, 1977. — 143 с.

[1] Jaccard P. Distribution de la flore alpine dans le Bassin des Dranses et dans quelques regions voisines // Bull. Soc. Vaudoise sci. Natur. 1901. V. 37. Bd. 140. S. 241—272.

[2] Миркин Б. М., Розенберг Г. С. Толковый словарь современной фитоценологии. — М.: Наука, 1983. — 134 с.

[3] Миркин Б. М., Розенберг Г. С., Наумова Л. Г. Словарь понятий и терминов современной фитоценологии. — М.: Наука, 1989. — 223 с.

[4] Ružička M.K. Anwendung mathematiseh-statistiseher Methoden in der Geobotanik (sintetischa Bearbeitung von Aufnahmen) // Biologia. 1958. Roč. 13. č. 9. S. 647—661.

[5] Tanimoto T.T. IBM Internal Report 17th Nov. 1957.

[6] Iversen J. Über die Korrelationen zwischen den Pflanzenarten in einem grönlandischen Talgebiet // Vegetation. 1954. V. 5-6. P. 238—246.

[7] Raijski C. A metric space of discrete probability distributions // Information and Control. 1961. V. 4. № 4. P. 371—377.

[8] Raijski C. Entropy and metric spaces // C. Cherry (ed.). Information Theory. London: Butterworths, 1961. P. 41-45.

[9] Елисеева И. И., Рукавишников В. О. Группировка, корреляция, распознавание образов: (статистические методы классификации и измерения связей). — М.: Статистика, 1977. — 143 с.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]