База данных интернет-адресов доросла до пяти петабайт
Некоммерческий проект Internet Archive продолжает развиваться. До последнего момента считалось, что в его базах содержится около 150 млрд. веб-ссылок на различные ресурсы и связанные с ними данные. Однако по свежим подсчетам количество URL и сопутствующей информации почти удвоилось и составило приблизительно 240 млрд. Весь этот гигантский объем занимает почти 5 петабайт на жестких дисках.
Основная цель Internet Archive – поддержание архива всего Интернета. В настоящее время благодаря сервису Wayback Machine (своего рода машина времени) можно в том или ином виде посетить любой сайт, существовавший в промежутке между концом 1996 года и декабрем прошлого года. Даже если ресурс уже давно ушел в небытие, его адрес и, по крайней мере, часть контента можно найти в базе данных. То же самое касается и важных событий, которые в свое время отражались на том или ином популярном сайте.
Конечно, хранение такого количества данных требует огромных аппаратных мощностей. И в поддержании необходимой инфраструктуры, как всегда, помогают волонтеры. В частности, недавний апгрейд оборудования стал возможным благодаря анонимному благотворителю, который утроил сумму всех пожертвований, сделанных после недавнего призыва о помощи проекту.
Сейчас мощности Internet Archive таковы, что его серверы способны обрабатывать около тысячи запросов в секунду. А количество регулярных посетителей составляет почти полмиллиона человек.