Save The Web Project – Telegram
猜测国家图书馆的网页快照存档项目的规模与速度。

图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》

按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。

如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:

国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈

它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》


(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
哪天有钱了,咋们也整个 heritrix 玩玩

当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?

但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
这个更是重量级,4.2TB/11150个URL=394MiB/每个URL。

单个 URL 就有近 400 MiB 数据量,B站 1080p 的视频平均都没这么大。国家图书馆,这是在存 Steam 吧???
😁9👍1
# 语雀公开知识库紧急存档行动

语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404

因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。
发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)

由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。

或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
👍11
Save The Web Project
# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代…
勘误&更新:

根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。

于是,我们有更多时间来抢救语雀的公开知识库了。

截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。

并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。

组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。

我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。

如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档

----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
19
#Z-Library #话题讨论

Z-Library 常见域名现已被美国国土安全调查局的美国移民及海关执法局以版权法取缔,Tor 站点目前还能访问。

——
评论区任意讨论,可张贴与此相关的链接。
「搜狗科学百科」将于 11 月 11 日关站。
注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆

搜狗科学百科自己的介绍条目:「搜狗科学百科(链接关站后失效)

此百科的亮点:
- 各条目的分类依靠学科树 (链接关站后失效)
- 对编辑者有专业要求
- 有同行评审
- 尝试建立自治社区
- 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权

截至目前,共积累了 849(?) 篇条目。

——
我们正在存档此站。
👍6🔥1😁1
译文:「如何成为“海盗”存档者?」出炉啦

片面地说,这是篇讲如何给盗版资源做存档的入门文章。

翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html

> Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。

翻译已得到了作者允许。
👍13
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
遵循此文的建议:

> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。

我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
👍5
Save The Web Project
勘误&更新: 根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。 于是,我们有更多时间来抢救语雀的公开知识库了。 截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。 并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。 组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。 我们将在语雀11月中旬上线新规…
好消息,语雀在新定价规则上线后没有将免费用户的知识库一刀切全部转私有。目前,免费用户此前已公开的知识库仍然保持公开

我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。

——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。

但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
26👍2
讨论:如何存档天涯论坛?
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。

所以粗略估计是千万个主题帖起步。

可能会非常大
需要大规模协作

天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。

假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。

而且我们还要做冗余备份,所以实际存储需求需要翻倍……

图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}

这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。

另外目前风险小了点,天涯可以正常发布新帖子了。

http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}

以帖子发帖时间排序。

帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)

另外,早年天涯似乎使用

http://www.tianyaclub.com/images/upload/{id}.{文件后缀}

这样的图片URL格式,但是现在全坏链了。

用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。

怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
👍8
STWP 现已注册独立域名: save-web.org
(解析测试: hello.save-web.org

原挂靠 othing.xyzsaveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。

update: 博客已迁移到 blog.save-web.org
👍113
#新闻
Revue (Twitter 于2021年1月收购的一个 Newsletter 平台)在一小时前宣布其将在一个月后关站:

从2023年1月18日起,将无法再访问您的Revue帐户。

去死吧马斯克!
🤬13😁2👏1😢1
#新闻
在昨日 糗事百科 宣布 将于2022年12月29日00:00 关闭服务
目前网页端会自动跳转
#转载
https://storagemojo.com/2014/04/25/amazons-glacier-secret-bdxl/
分享一篇可能与低成本存档存储方面的文章,文章主体是猜测AWS Glacier存储的底层方案,并推测是基于蓝光光盘的存储....