Корпус текстов
В лингвистике кóрпус (в данном значении множественное число — кóрпусы, не корпусá[1]) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке. Корпус текстов является предметом исследования корпусной лингвистики.
Основные свойства корпуса
Среди множества определений корпуса можно выделить его главные свойства:
- электронный — в современном понимании корпус должен быть в электронном виде
- репрезентативный — должен хорошо «представлять» объект, который моделирует
- размеченный — главное отличие корпуса от коллекции текстов
- прагматически ориентированный — должен быть создан под определённую задачу
Классификация корпусов
Классифицировать корпусы можно по различным признакам: цель создания корпуса, тип языковых данных, «литературность», жанр, динамичность, тип разметки, объём текстов и так далее. По критерию параллельности, например, корпусы можно разделить на одноязычные, двуязычные и многоязычные. Многоязычные и двуязычные делятся на два типа:
- параллельные — множество текстов и их переводов на один или несколько языков.
- сопоставимые (псевдопараллельные) — оригинальные тексты на двух или нескольких языках.
Разметка корпусов
Разметка заключается в приписывании текстам и их компонентам специальных тегов: лингвистических и внешних (экстралингвистических). Выделяют следующие лингвистические типы разметки: морфологическая, семантическая, синтаксическая, анафорическая, просодическая, дискурсная и т. д. К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей.
Ручная разметка (аннотирование) текстов — дорогостоящая и трудоемкая задача. На данный момент в открытом доступе представлены различные программные средства для разметки корпусов[3]. Условно их можно разделить на обособленные (stand-alone) и веб-ориентированные (web-based). При этом акцент разработчиков в последние годы сместился в сторону веб-приложений. Данные системы обладают рядом преимуществ:
- возможность одновременной разметки одного документа несколькими людьми
- не требуют установки дополнительных программных средств, кроме браузера
- гибкое разграничение прав доступа
- отображение текущего прогресса процесса разметки
- возможность модификации размечаемого корпуса
Интернет как корпус
Современные технологии позволяют создавать «веб-корпусы», то есть корпусы, полученные путём обработки интернет-источников:
Веб-корпус представляет собой особый вид лингвистического корпуса, который создан путем постепенной загрузки текстов из интернета при помощи автоматизированных процедур, которые на лету определяют язык и кодировку отдельных веб страниц, удаляют шаблоны, элементы навигации, ссылки и рекламу (т. н. boilerplate), осуществляют трансформацию на текст, фильтрацию, нормализацию и дедупликацию полученных документов, которые затем можно обработать традиционными инструментами корпусной лингвистики (токенизация, мирфосинтаксическая и синтаксическая аннотация) и внедрить в поисковую корпусную систему. Создание веб-корпуса не только намного дешевле, но прежде всего его размер может быть даже на порядок больше традиционных корпусов[4].
— Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ
Применение
Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики (например, извлечение ключевых слов), распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.
Корпусы текстов русского языка
- Национальный корпус русского языка
- Генеральный интернет-корпус русского языка
- Русскоязычный корпус проекта Aranea
- Корпус биографических текстов [5]
- RuTweetCorp [6]
См. также
Примечания
- ↑ ГРАМОТА.РУ – справочно-информационный интернет-портал «Русский язык» | Словари | Проверка слова . gramota.ru. Дата обращения: 26 декабря 2019. Архивировано 17 сентября 2019 года.
- ↑ Диаграмма создана по материалам книги "Захаров В. П., Богданова С. Ю. Корпусная лингвистика: учебник. 3-е изд., перераб. —СПб.: Изд-во С.-Петерб. ун-та, 2020. — 234 с."
- ↑ Ванюшкин, Гращенко, 2017.
- ↑ ARANEA : СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ — Сообщество "Письменное наследие" . textualheritage.org. Дата обращения: 26 декабря 2019. Архивировано 9 августа 2020 года.
- ↑ Глазкова, А. (2018), Автоматический поиск фрагментов, содержащих биографическую информацию, в тексте на естественном языке, Труды Института системного программирования РАН Т. 30(6): 221-236, doi:10.15514/ISPRAS-2018-30(6)-12, <https://www.researchgate.net/publication/330689783_Automatic_search_for_fragments_containing_biographical_information_in_a_natural_language_text>
- ↑ Рубцова, Ю. (2015), Построение корпуса текстов для настройки тонового классификатора, Программные продукты и системы Т. 1(109): 72-78, doi:10.15827/0236-235x.109.072-078, <http://www.swsys.ru/index.php?page=article&id=3962&lang=> Архивная копия от 7 августа 2020 на Wayback Machine
Литература
- Ванюшкин А.С., Гращенко Л.А. Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы // Новые информационные технологии в автоматизированных системах. — 2017. — Вып. 20. — ISSN 2227-0973.
- Николаев И. С., Митренина О. В., Ландо Т. М. Прикладная и компьютерная лингвистика. — М.: URSS, 2016. — 320 с.