Коэффициент Жуайна
Коэффициент Жуайна — в лингвистике коэффициент, показывающий, насколько универсально или, наоборот, специализировано применение того или иного слова в текстах различной тематики. Если слово применяется только в текстах определённой узкой тематики, коэффициент Жуайна близок к 0, если же частота словоупотребления примерно одинакова в любом тексте, коэффициент близок к 100.
Вычисление
Коэффициент Жуайна определяется формулой[1][2]
[math]\displaystyle{ D = 100 \left ( 1 - \frac {\sigma}{\mu \sqrt{n-1}} \right ), }[/math]
где [math]\displaystyle{ n }[/math] — количество тематических сегментов, на которые разбиты исследуемые тексты;
[math]\displaystyle{ \mu }[/math] — средняя частота слова по всем сегментам;
[math]\displaystyle{ \sigma }[/math] — среднеквадратическое отклонение частот по отдельным сегментам.
Для вычисления коэффициента Жуайна исследуемые тексты разбиваются на сегменты разной тематики примерно одинакового объёма (при составлении частотных словарей обычно выделяют 100 сегментов). Для каждого сегмента вычисляется частота употребления [math]\displaystyle{ \mu_i }[/math] определённого слова, то есть количество словоупотреблений, делённое на общий объём сегмента. Для полученного ряда частот [math]\displaystyle{ \mu_i }[/math] вычисляется среднеквадратическое отклонение [math]\displaystyle{ \sigma }[/math], после чего полученные значения подставляются в формулу.
Пример
Пусть исследуемые тексты разбиты на 4 сегмента, каждый размером по 1 миллиону слов. Некоторое слово, например, «коэффициент» встречается в этих сегментах соответственно 10, 11, 8 и 3 раза. Тогда [math]\displaystyle{ \mu_1 }[/math] = 10, [math]\displaystyle{ \mu_2 }[/math] = 11, [math]\displaystyle{ \mu_3 }[/math] = 9, [math]\displaystyle{ \mu_4 }[/math] = 3 употребления на миллион. Среднее значение
[math]\displaystyle{ \mu = \frac {10 + 11 + 8 + 3}{4} =8. }[/math]
Среднеквадратическое отклонение
[math]\displaystyle{ \sigma = \sqrt{ \frac {(10-8)^2 + (11-8)^2 + (8-8)^2 + (3-8)^2}{4} } = \sqrt{ \frac {4 + 9 + 0 + 25}{4} } = \sqrt{9,5} = 3,08. }[/math]
Тогда Коэффициент Жуайна
[math]\displaystyle{ D = 100 \left ( 1 - \frac {3,08}{8 \sqrt{4-1}} \right ) = 100 ( 1 - 0,22) = 78. }[/math]
Примечания
- ↑ Шаров С.А., Ляшевская О.Н. Частотный словарь современного русского языка на материалах Национального корпуса русского языка Архивная копия от 21 сентября 2019 на Wayback Machine — М.: Издательский центр «Азбуковник», 2009. — 1060 с.
- ↑ Frequency dictionary of French words: A. Juilland, D. Brodin and C. Davidovitch The Romance languages and their structures, First Series F 1. Mouton, The Hague-Paris, 1970. lxxv, 503 pp. ⨍ 120.