Корпус текстов

Внешние видеофайлы
Внешние видеофайлы
	Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá^[1]) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.

Основные свойства корпуса

Среди множества определений корпуса можно выделить его главные свойства:

электронный — в современном понимании корпус должен быть в электронном виде
репрезентативный — должен хорошо «представлять» объект, который моделирует
размеченный — главное отличие корпуса от коллекции текстов
прагматически ориентированный — должен быть создан под определённую задачу

Классификация корпусов

Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:

параллельные — множество текстов и их переводов на один или несколько языков.
сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.

Разметка корпусов

Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.

Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов^[3]. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:

возможность одновременной разметки одного документа несколькими людьми
не требуют установки дополнительных программных средств, кроме браузера
гибкое разграничение прав доступа
отображение текущего прогресса процесса разметки
возможность модификации размечаемого корпуса

Интернет как корпус

Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:

Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов^[4].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Применение

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Корпусы текстов русского языка

См. также

Примечания

↑ ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.
↑ Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
↑ Ванюшкин, Гращенко, 2017.
↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.
↑ Глазкова, А. (2018), Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке, Труды Института системного программирования РАН Т. 30(6): 221-236, doi:10.15514/ISPRAS-2018-30(6)-12, <https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text>
↑ Рубцова, Ю. (2015), Построение корпуса текстов для настройки тонового классификатора, Программные продукты и системы Т. 1(109): 72-78, doi:10.15827/0236-235x.109.072-078, <http://www.swsys.ru/index.php?page=article&id=3962&lang=> Архивная копия от 7 августа 2020 на Wayback Machine

Литература

Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20. — ISSN 2227-0973.
Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: URSS, 2016. — 320 с.

[1] ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова (неопр.). gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.

[2] Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."

[_888ba3dfab8467bf-3] Ванюшкин, Гращенко, 2017.

[4] ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" (неопр.). textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.

[5] Глазкова, А. (2018), Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке, Труды Института системного программирования РАН Т. 30(6): 221-236, doi:10.15514/ISPRAS-2018-30(6)-12, <https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text>

[6] Рубцова, Ю. (2015), Построение корпуса текстов для настройки тонового классификатора, Программные продукты и системы Т. 1(109): 72-78, doi:10.15827/0236-235x.109.072-078, <http://www.swsys.ru/index.php?page=article&id=3962&lang=> Архивная копия от 7 августа 2020 на Wayback Machine

[1]

[2]

[3]

[4]

Обработка естественного языка
Общие определения	Корпус текстов Речевой корпус Стоп-слова Мешок слов AI-полнота N-грамма Биграммный шифр Триграмма
Анализ текста	Сегментация текста^[англ.] Частеречная разметка Поверхностно-синтаксический анализ Обработка сложных слов^[англ.] Извлечение коллокаций^[англ.] Стемминг Лемматизация Распознавание именованных сущностей^[англ.] Разрешение кореферентности Анализ тональности текста Извлечение концептов^[англ.] Синтаксический анализ Разрешение лексической многозначности Извлечение терминологии^[англ.] Извлечение информации Идентификация языка Определение регистра^[англ.]
Реферирование	Извлечение предложений^[англ.] Генерация реферата Многодокументное реферирование^[англ.] Упрощение текста^[англ.]
Машинный перевод	Автоматизированный Гибридный Интерлингвальный^[англ.] На основе правил На основе примеров На основе словаря^[англ.] На основе трансформации Нейронный Статистический Синхронный
Идентификация и сбор данных	Распознавание речи Синтез речи Оптическое распознавание символов Генерация текста
Тематическая модель	Размещение патинко Латентное размещение Дирихле Латентно-семантический анализ
Рецензирование	Автоматизированная оценка сочинений^[англ.] Конкордансер Предиктивный ввод текста Система проверки грамматики^[англ.] Система проверки правописания Угадывание синтаксиса^[англ.]
Интерфейс на естественном языке^[англ.]	Виртуальный ассистент Виртуальный собеседник Вопросно-ответная система Голосовой интерфейс Интерактивная литература