وب‌سایت بایگانی اینترنت به رکورد بایگانی یک تریلیون صفحه وب رسیده است

وب‌سایت Internet Archive به رکورد بایگانی یک تریلیون صفحه وب رسید

این حجم معادل پر کردن کامل حافظه ۵۰ هزار آیفون رده‌بالای موجود در بازار است.

وب‌سایت Internet Archive که یکی از حیاتی‌ترین کتابخانه‌ها در فضای سایبری است به دستاوردی رسیده که حتی تصورش هم دشوار است. پس از نزدیک به ۳۰ سال تلاش طاقت‌فرسا، این نهاد غیرانتفاعی توانسته یک تریلیونمین صفحه وب خود را بایگانی کند.

به گزارش Popsci، این لحظه، نقطه عطفی مهم در تاریخ تلاش‌های حفاظت دیجیتال به شمار می‌رود؛ به‌ویژه در زمانی که اینترنت هم به بخشی جدایی‌ناپذیر از زندگی روزمره تبدیل و هم به‌طور فزاینده‌ای ناپایدار شده و پیمایش آن دشوار است. اینترنت مزایای زیادی دارد، اما ماندگاری هرگز یکی از آنها نبوده است.

Internet Archive از سال ۱۹۹۶ به بایگانی صفحات وب مشغول است

محتوای دیجیتال ذاتاً زودگذر است و معمولاً تنها تا زمانی باقی می‌ماند که کسی مایل به نگهداری آن باشد. در سال ۲۰۱۹، MySpace که زمانی یکی از محبوب‌ترین شبکه‌های اجتماعی اولیه اینترنت بود اعلام کرد یک خطای پیش‌بینی‌نشده در انتقال سرورها باعث شد تمام آپلودهای کاربران بین سال‌های ۲۰۰۳ تا ۲۰۱۵ به‌طور تصادفی حذف شود. در یک شب، حدود ۵۰ میلیون آهنگ از ۱۴ میلیون هنرمند در فضای مجازی ناپدید شد.

وب‌سایت Internet Archive تلاش می‌کند از تکرار چنین لحظاتی جلوگیری کند. این سازمان از سال ۱۹۹۶ در پی ایجاد «یک مرجع دائمی از تکامل اینترنت» بوده است؛ عمدتاً از طریق استفاده از خزنده‌های وب که تا حد امکان وب‌سایت‌های عمومی را شناسایی و ذخیره می‌کنند. داوطلبان نیز با بارگذاری نسخه‌های چاپی، موسیقی‌ها و فایل‌های صوتی کمیاب و دیگر قالب‌های رسانه‌ای در این فرایند مشارکت دارند.

پس از نزدیک به سه دهه، این آرشیو بیش از ۸۶۶ میلیارد صفحه وب، ۴۱ میلیون متن و میلیون‌ها شکل دیگر از محتوای دیجیتال را ذخیره کرده است. در مجموع، روزانه حدود ۵۰۰ میلیون وب‌سایت جدید به آن افزوده می‌شود و تاکنون حدود ۱۰۰ هزار ترابایت اطلاعات گردآوری شده است؛ حجمی معادل پر کردن کامل حافظه ۵۰ هزار آیفون رده‌بالای موجود در بازار.

Internet Archive با فشارهای فزاینده‌ای از سوی وب جهانیِ به‌سرعت در حال تغییر است. شرکت‌های فناوری که برای آموزش سامانه‌های هوش مصنوعی با یکدیگر رقابت می‌کنند، در حال جست‌وجوی گسترده در فضای آنلاین برای یافتن مجموعه‌داده‌های جدید هستند. در نتیجه، بسیاری از شرکت‌های بزرگ رسانه‌ای از جمله نیویورک‌تایمز و گاردین محتوای جدیدتر خود را از دسترس آرشیو خارج نگه می‌دارند تا از استفاده آن در سامانه‌های هوش مصنوعی مولد جلوگیری کنند.