archive.today

Эта статья находится на начальном уровне проработки, в одной из её версий выборочно используется текст из источника, распространяемого под свободной лицензией
Материал из энциклопедии Руниверсалис

archive.today
archive.is
URL archive.is
зеркала:
archive.li
archive.ph
archive.md
Начало работы 2012

archive.today (ранее archive.is) — бесплатный сервис по архивированию веб-страниц, запущенный в 2012 году одноимённой некоммерческой организацией. Archive.today сохраняет содержание страниц, включая изображения, однако не поддерживает динамический контент. В отличие от портала Wayback Machine (WB) archive.today архивирует страницы по запросу пользователей и не использует поисковых роботов.

Принцип работы

Сервис archive.is был создан одноимённой некоммерческой организацией в мае 2012 года[1]. Спустя три года после создания, в мае 2015-го, портал изменил название на archive.today[2]. На 2021-й все дата-центры расположены в странах Европейского союза[1], а финансирование осуществляется за счёт частных спонсоров[3][1].

В отличие от аналогичного проекта Wayback Machine, использующего поисковых роботов для сканирования и архивирования интернета[4], archive.today сохраняет веб-страницы только по запросу пользователей[5][6]. При отправке URL через специальную строку на сайте сервис автоматически архивирует содержимое HTML-страницы, включая растровые изображения и другие материалы, сохраняя CSS-стили и отдельные скрипты JavaScript. Аудио и видеофайлы, pdf, RSS и другие форматы XML сохраняются. После этого портал размещает в открытом доступе функциональную копию веб-страницы и снимок экрана, представляющий статичную визуализацию страницы в формате PNG[7][7][4][8][9].

Archive.today не сохраняет страницы, для доступа к которым требуется аутентификация, однако игнорирует стандарт исключений для роботов и за счёт этого имеет доступ ко многим «‎‎закрытым» сайтам[10][7]. Размер заархивированной страницы со всеми изображениями не должен превышать 50 МБ. Все данные хранятся в формате HDFS[1].

С 2013 года archive.today включён в агрегаторы Memento Project[англ.], поддерживаемого Лос-Аламосской национальной лабораторией и Университет Олд Доминион[англ.][11][12].

Создатели archive.today запустили специальное расширение браузера Mozilla Firefox, которое автоматически сохраняет и выкладывает в общий доступ копии каждой веб-страницы, добавляемой пользователем в закладки[7][3].

Использование

Сервис использовали такие хактивисты, как Джулиан Ассанж и Сирийская электронная армия, для архивирования ранее выложенных в интернет документов, используемых в качестве доказательств коррупции и военных преступлений[13][14][15].

В отдельных случаях активисты архивируют с помощью archive.today материалы тех веб-сайтов, против которых они выступают, таким образом препятствуя получению ими прибыли от просмотров рекламы. Например, в 2014 году сторонники Геймергейта часто использовали archive.today для распространения страниц новостных порталов Kotaku, IGN и Motherboard[6] — по данным Alexa Internet, в этот период 13 % трафика портала поступало с треда Геймергейта на Reddit[6].

Портал не несёт юридической ответственности за архивируемые пользователями материалы, однако при появлении жалоб на незаконный контент создатели сотрудничают с правоохранительными органами для его удаления[10].

Блокировки

В январе 2016 года Федеральная служба Российской Федерации по контролю за оборотом наркотиков заблокировала сервис, предположительно, за сохранение памятки по посещению Крыма, согласно которой туристы должны спрашивать разрешение на посещение у украинских властей[16][17].

В 2019 году портал archive.today был заблокирован в Австралии за архивацию страницы, содержащей видео стрельбы в новозеландских мечетях Крайстчерча[18].

В 2019 году зеркало archive.today было заблокировано на Фарерских островах[10]. На 2021 год портал заблокирован в Казахстане, Китае, Иране, Финляндии за хранение запрещённых материалов[19][10].

Глобальные блокировки

OpenDNS блокирует сайт, считая его разновидностью прокси-анонимайзера[20].

В феврале 2016 доменный регистратор OnlineNIC заблокировал старый домен сайта «archive.today», последние месяцы перенаправлявший на «archive.is»[21].

Примечания

  1. 1,0 1,1 1,2 1,3 FAQ. archive.ph. Дата обращения: 3 ноября 2021. Архивировано 27 октября 2021 года.
  2. Archive.is blog. Archive.is (3 июня 2015). Дата обращения: 26 ноября 2021. Архивировано 27 октября 2021 года.
  3. 3,0 3,1 Comparison of web archiving services (недоступная ссылка). Web Page Archiving. Дата обращения: 3 ноября 2021. Архивировано 22 сентября 2013 года.
  4. 4,0 4,1 Brunelle, 2016, с. 95—117.
  5. Salman Ravoof. How to Archive a Website: Our Mammoth Guide to Saving Your Site. Kinsta (3 ноября 2021). Дата обращения: 7 ноября 2021. Архивировано 5 ноября 2021 года.
  6. 6,0 6,1 6,2 Jason Koebler. Dear GamerGate: Please Stop Stealing Our Shit. Vice (29 октября 2014). Дата обращения: 3 ноября 2021. Архивировано 27 ноября 2021 года.
  7. 7,0 7,1 7,2 7,3 Martin Brinkmann. Create publicly available web page archives with Archive.is. G Hacks (22 апреля 2015). Дата обращения: 2 ноября 2021. Архивировано 23 июля 2018 года.
  8. KritikaGarg. 2020-07-15: Twitter Was Already Difficult To Archive, Now It's Worse!. Web Science and Digital Library (15 июля 2020). Дата обращения: 3 ноября 2021. Архивировано 28 октября 2021 года.
  9. Garg, 2021.
  10. 10,0 10,1 10,2 10,3 Didi Rankovic. Archive.today domain mirror suspended by Faroe Islands council. Reclaim the Internet (27 октября 2019). Дата обращения: 3 ноября 2021. Архивировано 27 ноября 2021 года.
  11. Michael Nelson. 2013-07-09: Archive.is Supports Memento. Web Science and Digital Libraries Research Group (9 июля 2013). Дата обращения: 3 ноября 2021. Архивировано 6 ноября 2021 года.
  12. archive.is (недоступная ссылка). archive.is. Дата обращения: 3 ноября 2021. Архивировано 15 сентября 2013 года.
  13. View Julian Assange - When Google Met WikiLeaks.pdf (недоступная ссылка). Web Archive. Дата обращения: 7 ноября 2021. Архивировано 21 июля 2015 года.
  14. Julian Assange - Google Is Not What It Seems (недоступная ссылка). Web Archive. Дата обращения: 6 ноября 2021. Архивировано 14 января 2016 года.
  15. US Army Official Website Hacked — Syrian Electronic Army (недоступная ссылка). Web Archive. Дата обращения: 7 ноября 2021. Архивировано 11 июня 2015 года.
  16. Вадим Елистратов. Роскомнадзор заблокировал сервис archive.is, хранящий копии веб-сайтов. TJournal. Дата обращения: 3 ноября 2021. Архивировано 27 ноября 2021 года.
  17. Сервис, сохраняющий копии сайтов, признали запрещённым. Москва24 (29 января 2016). Дата обращения: 3 ноября 2021. Архивировано 27 ноября 2021 года.
  18. Bryan Menegus. New Zealand ISPs Say They’re Blocking Sites That Fail To Remove Christchurch Shooting Video. Gizmodo (19 марта 2019). Дата обращения: 3 ноября 2021. Архивировано 18 мая 2019 года.
  19. Методика. Как архивировать открытые данные. Factcheckkz. Право на правду (4 марта 2018). Дата обращения: 26 ноября 2021. Архивировано 27 ноября 2021 года.
  20. Jared. rylor (англ.). Twitter (24 июля 2015). Дата обращения: 30 января 2016. Архивировано 12 октября 2015 года.
  21. Domain problems again. Archive.is blog. Дата обращения: 27 ноября 2021. Архивировано 27 ноября 2021 года.

Литература

  • Brunelle J., Kelly M., Weigle M., Nelson M. The impact of JavaScript on archivability // International Journal of Digital Library. — 2016. — P. 95—117. — doi:10.1007/s00799-015-0140-8.
  • Garg K., Jayanetti H., Alam S., Weigle M., Nelson M. Replaying Archived Twitter: When your bird is broken, will it bring you down? // ArXiv.org. — 2021. — arXiv:2108.12092.

Ссылки