桂林五洲(股票代码833176)新三板上市最新公告列表
Семрежно архивира?е (веб-архивира?е) — постапка на собира?е делови од Светската па?ажина за да се обезбеди зачувува?е на информациите во архивата за идните истражувачи, историчари и ?авноста.[1] Веб-архивистите обично користат веб-роботи за автоматско снима?е поради огромната големина и количината на информации на веб мрежата. На?големата организаци?а за архивира?е веб заснована на пристап на масовно ползе?е е ?Wayback Machine“, ко?а се труди да одржува архива на целата мрежа.
Сè поголемиот дел од човечката култура создава и запишува на веб мрежата, прави неизбежно сè пове?е и пове?е библиотеки и архиви и се соочуваат со предизвиците на архивира?е на веб мрежата.[2] Националните библиотеки, националните архиви и разни конзорциуми на организации исто така се вклучени во архивира?е на културно важните веб-содржини.
Комерци?ални софтвери за веб архивира?е и услуги исто така се достапни за организациите кои треба да ?а архивираат сопствената веб содржина за корпоративно наследство, регулаторни или правни цели.
Истори?а и разво?
[уреди | уреди извор]Додека одбира?ето и организаци?ата на мрежата преовладувало од средината до кра?от на 90-тите години на минатиот век, еден од првите големи архивирачки проекти бил Internet Archive, непрофитна организаци?а создадена од Брустер Ке?л во 1996 година.[3] Интернет архивата издаде сопствен пребарувач за прегледува?е на архивираната веб-содржина, Wayback Machine, во 2001 година. Од 2018 година, Интернет архивата e дом на 40 петаба?ти податоци.[4] Интернет архивата исто така разви многу свои алатки за собира?е и складира?е на не?зините податоци, вклучува??и го и ?Петабокс“ за ефикасно и безбедно складира?е на големи количини на податоци и ?Хетрикс“, веб-робот што бил развиен заедно со нордиските национални библиотеки. Други проекти започнати во исто време австралиската Пандора и Тасмани?а веб-архиви и шведската Kulturarw.
Од 2001 до 2010, ме?ународната работилница за архивира?е на веб (IWAW) обезбеди платформа за споделува?е искуства и размена на идеи.[5][6] Ме?ународниот конзорциум за зачувува?е на Интернет (IIPC), основан во 2003 година, ?а олесни ме?ународната соработка во развива?е на стандарди и алатки со отворен извор за создава?е веб-архиви.
Сега непостоечката Фондаци?а за мемори?а на Интернет е основана во 2004 година и е основана од Европската комиси?а со цел да ?а архивира веб мрежата во Европа.[3] Ово? проект разви и издаде многу алатки со отворен извор, како што се ?снима?е на богати медиуми, временска кохерентна анализа, проценка на несакана пошта и открива?е на еволуци?ата на терминологи?а.“ Податоците од фондаци?ата сега се нао?аат во Интернет-архивата, но во моментов не се ?авно достапни.[7]
И покра? фактот дека нема централизирана одговорност за не?зино зачувува?е, веб-содржината забрзано станува офици?ален запис. На пример, во 2017 година Министерството за правда на Соединетите држави потврди дека владата ги третира твитовите на Претседателот како офици?ални из?ави.[8]
Собира?е на веб
[уреди | уреди извор]Веб-архивистите генерално архивираат разни видови веб-содржина, вклучува??и HTML мрежни места, стилови, JavaScript, слики и видео. Тие исто така ги архивираат метаподатоците за собраните ресурси како што се времето на пристап, MIME типот и должината на содржината. Овие метаподатоци се корисни при утврдува?е на автентичноста и потеклото на архивираната колекци?а.
Методи на собира?е
[уреди | уреди извор]Далечинско собира?е
[уреди | уреди извор]На?честата техника за архивира?е веб користи веб-роботи за автоматизаци?а на процесот на собира?е мрежни места. Веб-роботите обично пристапуваат на мрежните места на ист начин како што корисниците со прелистувач ?а гледаат мрежата и затоа обезбедуваат релативно едноставен методи за далечинско собира?е на веб-содржина. Примери за веб-роботи што се користат за веб-архивира?е се:
Посто?ат различни бесплатни услуги што можат да се користат за архивира?е на веб-ресурси ?на бара?е“, користе??и техники за веб-индексира?е. Овие услуги вклучуваат Wayback Machine и WebCite.
Архивира?е на базата на податоци
[уреди | уреди извор]Архивира?е на базата на податоци се однесува на методи за архивира?е на основната содржина на мрежните места управувани од базата на податоци. Типично бара екстракци?а на содржината на базата на податоци во стандардна шема, често користе??и XML. Откако ?е се зачува во то? стандарден формат, архивираната содржина на пове?е бази на податоци може да биде достапна со користе?е на единствен систем за пристап. Како пример за ово? пристап се по?авуваат алатките DeepArc и Xinq развиени од Националната библиотека на Франци?а и Националната библиотека на Австрали?а, соодветно. DeepArc овозможува структурата на релационата база на податоци да биде мапирана во XML-шема и содржината да се извезува во XML-документ. Xinq тогаш дозволува содржината да се доставува преку Интернет. Иако оригиналниот распоред и однесува?е на мрежната страница не може да се зачува точно, Xinq дозволува да се реплицираат основните функционалности за пребарува?е и пребарува?е.
Трансакциско архивира?е
[уреди | уреди извор]Трансакциската архивира?е е пристап управуван од настани, ко? ги собира реалните трансакции што се случуваат поме?у веб-сервер и прелистувач. Првенствено се користи како средство за зачувува?е докази за содржината што всушност била прегледана на одредено мрежно место, на даден датум. Ова може да биде особено важно за организациите кои треба да ги почитуваат законските или регулаторните бара?а за открива?е и задржува?е на информации.
Системот за архивира?е на трансакциите обично работи со пресретнува?е на секое бара?е HTTP до, и одговор од, на веб-серверот, филтрира?е на секо? одговор за елиминира?е на дупликат содржина и тра?но зачувува?е на одговорите како преноси.
Тешкотии и ограничува?а
[уреди | уреди извор]Роботи
[уреди | уреди извор]Веб-архивите кои се потпираат на веб-индексира?е како нивни примарни средства за собира?е на Интернет, се под вли?ание на тешкотиите на веб-индексира?е:
- Протоколот за исклучува?е на роботите може да побара од роботите да не пристапуваат до делови од мрежно место. Некои веб-архивисти може да го игнорираат бара?ето и да ги ползат тие делови во секо? случа?.
- Големи делови од мрежно место може да бидат скриени во Длабоката мрежа. На пример, страницата за резултати зад веб-форма може да лежи во Длабоката мрежа, ако роботите не можат да следат врска до страницата за резултати.
- Замките на роботите (на пр., Календари) може да предизвикаат од индексира?е презема?е на бесконечен бро? страници, така што роботите обично се конфигурирани да го ограничуваат бро?от на динамични страници што ги лазат.
- Пове?ето од алатките за архивира?е не ?а зафа?аат страницата како што е. Забележано е дека рекламните банери и слики честопати се пропуштаат при архивира?е.
Сепак, важно е да се напомене дека веб-архивата со природен формат, т.е. веб-архива со можност за прегледува?е, со работни врски, медиуми и сл., навистина е можна само со употреба на технологи?а на роботи.
Мрежата е толку голема што ползе?ето со значителен дел од него одзема голем бро? технички ресурси. Мрежата се менува толку брзо што делови од мрежно место може да се променат пред индексира?е дури и да заврши со тоа што го ползи.
Општи ограничува?а
[уреди | уреди извор]Некои опслужувачи се конфигурирани да вра?аат различни страници на бара?ата за веб-архивира?е отколку што би одговориле на редовните бара?а на прелистувачот.[9] Ова обично се прави за да ги измамат пребарувачите да насочуваат поголем сообра?аен корисник кон мрежно место и често се прави за да се избегне одговорност или да се обезбеди подобрена содржина само за оние прелистувачи што можат да ?а прикажат.
Не само што веб-архивистите мора да се справат со техничките предизвици на веб-архивира?ето, тие исто така мора да се борат и со законите за интелектуална сопственост. Питер Лиман[10] наведува дека ?иако мрежата популарно се смета како ресурс во ?авна сопственост, таа е заштитена со авторски права затоа, архивистите немаат законско право да ?а копираат мрежата“. Сепак, националните библиотеки во некои зем?и[11] имаат законско право да копираат делови од мрежата под продолжува?е на законскиот депозит.
Некои приватни непрофитни веб-архиви што се ?авно достапни како WebCite, Интернет-архивата или Фондаци?ата за мемори?а на Интернет, им овозможуваат на сопствениците на содржини да ?а кри?ат или отстранат архивираната содржина до ко?а не сакаат ?авноста да има пристап. Другите веб-архиви се достапни само од одредени локации или имаат регулирано користе?е. WebCite ?а цитира неодамнешната тужба против кешира?е на Google, ко?а Google ?а доби.[12]
Закони
[уреди | уреди извор]Во 2017 година, Регулаторниот орган на финансиската индустри?а, Inc. (FINRA), финансиска регулаторна организаци?а на Соединетите држави, об?ави известува?е во кое се наведува дека сите деловни активности што прават дигитални комуникации се должни да водат евиденци?а. Ова вклучува податоци за мрежни места, об?ави на соци?ални мрежи и пораки.[13] Некои закони за авторски права може да ?а инхибираат архивира?ето на Интернет. На пример, академското архивира?е од страна на Sci-Hub е надвор од границите на современиот закон за авторски права. Мрежната страница обезбедува траен пристап до академски дела, вклучително и оние што немаат дозвола за отворен пристап и со тоа придонесува за архивира?е на научни истражува?а, кои инаку може да бидат изгубени.[14][15]
Поврзано
[уреди | уреди извор]- Архивско мрежно место
- Archive Team
- archive.today (порано archive.is)
- Збирна мемори?а
- Common Crawl
- Дигитално зачувува?е
- Google Cache
- Список на мрежни архивски иници?ативи
- Memento Project
- Minerva Initiative
- Mirror website
- Програма за национална дигитална информациска инфраструктура и зачувува?е (NDIIPP)
- Програма за национална дигитална библиотека (NDLP)
- PADICAT
- PageFreezer
- Pandora Archive
- UK Web Archive
- Виртуелен артефакт
- Wayback Machine
- Мрежен лазач
- WebCite
Наводи
[уреди | уреди извор]Цитати
[уреди | уреди извор]- ↑ Habibzadeh, P.; Sciences, Schattauer GmbH – Publishers for Medicine and Natural (January 1, 2013). ?Decay of References to Web sites in Articles Published in General Medical Journals: Mainstream vs Small Journals“. Applied Clinical Informatics. 4 (4): 455–464. doi:10.4338/aci-2013-07-ra-0055. PMC 3885908. PMID 24454575.
- ↑ ?Truman, Gail. 2016. Web Archiving Environmental Scan. Harvard Library Report“. Gail Truman. 2016. Посетено на 12 ноември 2020. Наводот journal бара
|journal=
(help) - ↑ 3,0 3,1 Toyoda, M.; Kitsuregawa, M. (May 2012). ?The History of Web Archiving“. Proceedings of the IEEE. 100 (Special Centennial Issue): 1441–1443. doi:10.1109/JPROC.2012.2189920. ISSN 0018-9219.
- ↑ ?Inside Wayback Machine, the internet's time capsule“. The Hustle. September 28, 2018. sec. Wayyyy back. Посетено на 12 ноември 2020.
- ↑ ?IWAW 2010: The 10th Intl Web Archiving Workshop“. www.wikicfp.com. Посетено на 12 ноември 2020.
- ↑ ?IWAW - International Web Archiving Workshops“. bibnum.bnf.fr. Архивирано од изворникот на 2025-08-05. Посетено на 12 ноември 2020.
- ↑ ?Internet Memory Foundation : Free Web : Free Download, Borrow and Streaming“. archive.org. Internet Archive. Посетено на 12 ноември 2020.
- ↑ Regis, Camille (June 4, 2019). ?Web Archiving: Think the Web is Permanent? Think Again“. History Associates. Посетено на 12 ноември 2020.
- ↑ Habibzadeh, Parham (July 30, 2015). ?Are current archiving systems reliable enough?“. International Urogynecology Journal. 26 (10): 1553. doi:10.1007/s00192-015-2805-7. ISSN 0937-3462. PMID 26224384.
- ↑ Lyman (2002)
- ↑ ?Legal Deposit | IIPC“. netpreserve.org. Архивирано од изворникот на March 16, 2017. Посетено на 12 ноември 2020.
- ↑ ?WebCite FAQ“. Webcitation.org. Архивирано од изворникот на 2025-08-05. Посетено на 12 ноември 2020.
- ↑ ?Social Media and Digital Communications“ (PDF). finra.org. FINRA.
- ↑ Claburn, Thomas (10 September 2020). ?Open access journals are vanishing from the web, Internet Archive stands ready to fill in the gaps“. The Register (англиски).
- ↑ Laakso, Mikael; Matthias, Lisa; Jahn, Najko (3 September 2020). ?Open is not forever: a study of vanished open access journals“. arXiv:2008.11933 [cs]. Посетено на 12 ноември 2020.
Text and images are available under a Creative Commons Attribution 4.0 International License.
Надворешни врски
[уреди | уреди извор]- Ме?ународен конзорциум за зачувува?е на Интернет (IIPC) - ме?ународен конзорциум чи?а миси?а е да се здоби?ат, зачуваат и да направат достапни знае?а и информации од Интернет за идните генерации
- Ме?ународна работилница за веб-архивира?е (IWAW) - Годишна работилница ко?а се фокусира на веб-архивира?е
- Национална библиотека на Австрали?а, зачувува?е на пристапот до дигитални информации (PADI)
- Библиотека на Конгресот - архивира?е на веб
- Библиографи?а за архивира?е на веб - долг список на ресурси за архивира?е на веб
- ?Кон континуирано веб-архивира?е“ - ulулиен Масанес, Библиотека наци?а на Франци?а
- Споредба на услуги за веб-архивира?е Архивирано на 12 октомври 2015 г.
- Список на блогови за веб-архивира?е, 2015 година