Scrapy

Scrapy
Scrapy
Тип	Web crawler
Разработчик	Scrapinghub, Ltd.
Написана на	Python
Операционная система	Windows, macOS, Linux
Первый выпуск	26 июня 2008
Последняя версия	1.8.0 (28 октября 2019; 5 лет назад)
Лицензия	BSD License

Scrapy (читается как "скрэй-пай") – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга, однако также может использоваться для извлечения информации используя API или же как веб краулер общего применения.^[2] В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself (DRY), таких как Django,^[3] это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.^[4]

Некоторые известные компании и продукты, использующие Scrapy: Lyst,^[5]^[6] Parse.ly,^[7] Sayone Technologies ^[8], Sciences Po Medialab,^[9] государственный сайт Великобритании Data.gov.uk. [1] Архивная копия от 16 августа 2018 на Wayback Machine

История

Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео, Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD, а релиз Milestone 1.0 был выпущен в июне 2015 года.^[10] В 2011 году Scrapinghub стал новым официальным мейнтейнером.^[11]^[12]

Примечания

↑ Release notes — Scrapy documentation (англ.). doc.scrapy.org. Дата обращения: 2 ноября 2019. Архивировано 28 января 2020 года.
↑ Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.
↑ Frequently Asked Questions (неопр.). Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.
↑ Scrapy shell (неопр.). Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.
↑ Bell. Scalable Scraping Using Machine Learning (неопр.) (недоступная ссылка). Дата обращения: 28 июля 2015. Архивировано 9 октября 2016 года.
↑ Scrapy | Companies using Scrapy (неопр.). Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
↑ Montalenti. Web Crawling & Metadata Extraction in Python (неопр.). Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.
↑ Scrapy Companies (неопр.). Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
↑ Hyphe v0.0.0: the first release of our new webcrawler is out! (неопр.). Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.
↑ Scrapy 1.0 official release out! (неопр.). Список рассылки. Дата обращения: 28 февраля 2020.
↑ Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013.
↑ Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.

Ссылки

Официальный сайт

[1] Release notes — Scrapy documentation (англ.). doc.scrapy.org. Дата обращения: 2 ноября 2019. Архивировано 28 января 2020 года.

[2] Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.

[3] Frequently Asked Questions (неопр.). Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.

[4] Scrapy shell (неопр.). Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.

[5] Bell. Scalable Scraping Using Machine Learning (неопр.) (недоступная ссылка). Дата обращения: 28 июля 2015. Архивировано 9 октября 2016 года.

[6] Scrapy | Companies using Scrapy (неопр.). Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.

[7] Montalenti. Web Crawling & Metadata Extraction in Python (неопр.). Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.

[8] Scrapy Companies (неопр.). Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.

[9] Hyphe v0.0.0: the first release of our new webcrawler is out! (неопр.). Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.

[10] Scrapy 1.0 official release out! (неопр.). Список рассылки. Дата обращения: 28 февраля 2020.

[list-11] Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013.

[12] Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]