Apache Hive

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис
Apache Hive
Логотип программы Apache Hive
Тип Система управления базами данных
Автор Facebook
Разработчик Apache Software Foundation
Написана на Java
Операционная система Кроссплатформенное программное обеспечение
Языки интерфейса Английский
Состояние Активный
Лицензия Apache License 2
Сайт hive.apache.org

Apache Hive — система управления базами данных на основе платформы Hadoop. Позволяет выполнять запросы, агрегировать и анализировать данные, хранящиеся в Hadoop.

Apache Hive был создан корпорацией Facebook и передан под открытой лицензией в собственность фонду Apache Software Foundation. На сегодняшний день эта система используется компанией Netflix и доступна в Amazon Web Services через Amazon Elastic MapReduce[1].

Возможности

  • Работа с данными используя SQL-подобный язык запросов;
  • Поддержка различных форматов хранения данных;
  • Работа напрямую с HDFS и Apache HBase;
  • Выполнение запросов через Apache Tez, Apache Spark или MapReduce.[2]

HiveQL

Apache Hive поддерживает язык запросов Hive Query Language, который основан на языке SQL, но не имеет полной поддержки стандарта SQL-92. HiveQL имеет функции для работы с форматами XML и JSON, поддержку нескалярных типов данных, таких как массивы, структуры, ассоциативные массивы[3], поддерживает широкий набор агрегирующих функций, определяемые пользователем функции (User Defined Functions), блокировки.

Пример

Подсчёт количества слов

Запрос подсчитывает, сколько раз каждое слово встречалось в файле:

DROP TABLE IF EXISTS docs;
CREATE TABLE docs (line STRING);
LOAD DATA INPATH 'input_file' OVERWRITE INTO TABLE docs;
CREATE TABLE word_counts AS
SELECT word, count(1) AS count FROM
 (SELECT explode(split(line, '\s')) AS word FROM docs) temp
GROUP BY word
ORDER BY word;

Примечания

  1. Amazon Elastic MapReduce Developer Guide. Дата обращения: 11 августа 2016. Архивировано 3 марта 2016 года.
  2. About Apache Hive. Дата обращения: 11 августа 2016. Архивировано 30 августа 2016 года.
  3. SQL Differences Between Impala and Hive. Дата обращения: 11 августа 2016. Архивировано 9 августа 2016 года.

Внешние ссылки