Kaggle

Kaggle — система организации конкурсов по исследованию данных, а также социальная сеть специалистов по обработке данных и машинному обучению. Принадлежит корпорации Google (с марта 2017 года)^[1]^[2]^[3].

Среда организована как публичная веб-платформа, на которой пользователи и организации могут публиковать наборы данных, исследовать и создавать модели, взаимодействовать с другими специалистами по данным и инженерами по машинному обучению, организовывать конкурсы по исследованию данных и участвовать в них. В системе размещены наборы открытых данных, предоставляются облачные инструменты для обработки данных и машинного обучения. Также реализованы обучающие ресурсы, имеется раздел для размещения вакансий работодателями, где тоже возможна организация конкурсов для отбора наилучших кандидатов.

В июне 2017 года заявлено о миллионном зарегистрированном пользователе (пользователей в системе называют «кэгглерами» — kagglers), среди участников как начинающие специалисты, так и крупные исследователи данных^[4].

Конкурсы

Типичная схема организации конкурса Kaggle:

ведущий конкурса (как правило, крупная коммерческая организация) готовит данные и описание проблемы;
участники экспериментируют с различными методами и соревнуются друг с другом, чтобы создать лучшие модели; работа распределяется публично через Kaggle Kernels, результаты автоматически оцениваются (на основе точности относительно контрольного набора или известного решения), что влияет на рейтинг участника;
по истечении установленного срока организатор конкурса выплачивает призовой фонд в обмен на «всемирную, бессрочную, безотзывную и бесплатную лицензию на использование выигравшей заявки», то есть разработанный алгоритм, программное обеспечение и соответствующую интеллектуальную собственность.

Кроме публичных конкурсов также организуются закрытые соревнования, в которых участвуют только специалисты с определённым рейтингом Kaggle. Кроме того, предлагается бесплатный инструмент для учителей информатики для проведения академических соревнований по машинному обучению (Kaggle In Class).

Всего проведено более сотни публичных конкурсов по машинному обучению, среди них соревнования по улучшению распознавания жестов для Microsoft Kinect^[5], конкурс по совершенствованию системы поиска бозона Хиггса в ЦЕРНе^[6].

Результаты некоторых конкурсов вылились в крупные проекты, среди них — технологии исследований ВИЧ^[7], шахматные рейтинги^[8], прогнозирование загруженности магистралей^[9]. Среди участников конкурсов — Джеффри Хинтон и Джордж Даль, выигравшие с использованием глубоких нейронных сетей соревнование корпорации Merck; их результат, наряду с победой ученика Хинтона Влада Мних на конкурсе Adzuna, послужил признанию глубокого обучения как универсальной техники, в дальнейшем широко распространившейся среди других участников соревнований. На основе результатов, полученных на соревнованиях Kaggle, было опубликовано несколько научных работ^[10]^[11]

Примечания

↑ Lardinois, Frederic. Google is acquiring data science community Kaggle (неопр.). Techcrunch (March 8, 2017). — «Sources tell us that Google is acquiring Kaggle [...] the official announcement could come as early as tomorrow.». Дата обращения: 9 марта 2017. Архивировано 9 марта 2017 года.
↑ Google buys Kaggle and its gaggle of AI geeks (англ.), CNET (8 March 2017). Архивировано 27 сентября 2021 года. Дата обращения 1 июня 2018.
↑ Welcome Kaggle to Google Cloud (англ.), Google Cloud Platform Blog. Архивировано 15 сентября 2018 года. Дата обращения 19 августа 2018.
↑ Markoff. Scientists See Advances in Deep Learning, a Part of Artificial Intelligence (англ.). Архивировано 21 мая 2021 года. Дата обращения 19 августа 2018.
↑ Byrne. Kaggle launches competition to help Microsoft Kinect learn new gestures, VentureBeat (December 12, 2011). Архивировано 28 сентября 2020 года. Дата обращения 13 декабря 2011.
↑ The machine learning community takes on the Higgs, Symmetry Magazine (July 15, 2014). Архивировано 16 апреля 2021 года. Дата обращения 14 января 2015.
↑ Carpenter. May the Best Analyst Win, Science Magazine (February 2011). Архивировано 24 сентября 2015 года. Дата обращения 1 апреля 2011.
↑ Sonas. The Deloitte/FIDE Chess Rating Challenge, Chessbase (20 February 2011). Архивировано 9 ноября 2012 года. Дата обращения 3 мая 2011.
↑ Foo. Smartphones to predict NSW travel times?, The Australian (April 6, 2011). Архивировано 8 октября 2019 года. Дата обращения 3 мая 2011.
↑ NIPS 2014 Workshop on High-energy Physics and Machine Learning // [1].
↑ Athanasopoulos. The Value of Feedback in Forecasting Competitions, International Journal of Forecasting, С. 845–849. Архивировано 16 февраля 2019 года. Дата обращения 14 марта 2022.

Литература

Знакомство с Kaggle: изучаем науку о данных на практике Архивная копия от 7 июня 2019 на Wayback Machine // Machine Learning Kaggle Competition Part One: Getting Started. Learning the Kaggle Environment and an Introductory Notebook. Will Koehrsen. 11 декабря 2018.
Знания предметной области бесполезны. Когда предсказания становятся игрой, эксперты проигрывают Архивная копия от 26 августа 2020 на Wayback Machine // Peter Aldhous, habr.com, январь 2013
«Пусть победит лучший алгоритм» Архивная копия от 8 октября 2019 на Wayback Machine // The Wall Street Journal, March 2011
«Конкурс Kaggle направлен на поддержку редакторов Википедии» Архивная копия от 22 марта 2016 на Wayback Machine // New Scientist, July 2011
«Верификация исследований системной биологии в эпоху совместных соревнований» Архивная копия от 5 июля 2017 на Wayback Machine // Nature Nanotechnology, September 2011

[TechCrunch_Lardinois-1] Lardinois, Frederic. Google is acquiring data science community Kaggle (неопр.). Techcrunch (March 8, 2017). — «Sources tell us that Google is acquiring Kaggle [...] the official announcement could come as early as tomorrow.». Дата обращения: 9 марта 2017. Архивировано 9 марта 2017 года.

[2] Google buys Kaggle and its gaggle of AI geeks (англ.), CNET (8 March 2017). Архивировано 27 сентября 2021 года. Дата обращения 1 июня 2018.

[3] Welcome Kaggle to Google Cloud (англ.), Google Cloud Platform Blog. Архивировано 15 сентября 2018 года. Дата обращения 19 августа 2018.

[4] Markoff. Scientists See Advances in Deep Learning, a Part of Artificial Intelligence (англ.). Архивировано 21 мая 2021 года. Дата обращения 19 августа 2018.

[5] Byrne. Kaggle launches competition to help Microsoft Kinect learn new gestures, VentureBeat (December 12, 2011). Архивировано 28 сентября 2020 года. Дата обращения 13 декабря 2011.

[6] The machine learning community takes on the Higgs, Symmetry Magazine (July 15, 2014). Архивировано 16 апреля 2021 года. Дата обращения 14 января 2015.

[7] Carpenter. May the Best Analyst Win, Science Magazine (February 2011). Архивировано 24 сентября 2015 года. Дата обращения 1 апреля 2011.

[8] Sonas. The Deloitte/FIDE Chess Rating Challenge, Chessbase (20 February 2011). Архивировано 9 ноября 2012 года. Дата обращения 3 мая 2011.

[9] Foo. Smartphones to predict NSW travel times?, The Australian (April 6, 2011). Архивировано 8 октября 2019 года. Дата обращения 3 мая 2011.

[10] NIPS 2014 Workshop on High-energy Physics and Machine Learning // [1].

[11] Athanasopoulos. The Value of Feedback in Forecasting Competitions, International Journal of Forecasting, С. 845–849. Архивировано 16 февраля 2019 года. Дата обращения 14 марта 2022.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]