猜测国家图书馆的网页快照存档项目的规模与速度。
图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》
按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。
如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:
国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。
它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》
(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
(哪天有钱了,咋们也整个 heritrix 玩玩)
当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?
但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》
按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。
如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:
国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。
它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》
(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
(
当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?
但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
# 语雀公开知识库紧急存档行动
语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。
因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(
发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)
由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。
或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。
因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(
archive.org) 做网页快照存档。发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)
由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。
或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
👍11
Save The Web Project
# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代…
勘误&更新:
根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。
于是,我们有更多时间来抢救语雀的公开知识库了。
截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。
并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。
组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。
我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。
如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档。
----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。
于是,我们有更多时间来抢救语雀的公开知识库了。
截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。
并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。
组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。
我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。
如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档。
----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
❤19
👍6🔥1😁1
Save The Web Project
「搜狗科学百科」将于 11 月 11 日关站。 注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆。 搜狗科学百科自己的介绍条目:「搜狗科学百科」(链接关站后失效) 此百科的亮点: - 各条目的分类依靠学科树 (链接关站后失效) - 对编辑者有专业要求 - 有同行评审 - 尝试建立自治社区 - 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权 截至目前,共积累了 849(?) 篇条目。 —— 我们正在存档此站。
尴尬了,我们发现 IA(
动用的还是 Wiki Collection 专项收集……
Internet Archive) 在 10 月 25号~28日 已经集中对「搜狗科学百科」做过条目网页的快照存档……动用的还是 Wiki Collection 专项收集……
译文:「如何成为“海盗”存档者?」出炉啦
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
> Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。
翻译已得到了作者允许。👍13
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
遵循此文的建议:
> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。
我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。
我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
👍5
Save The Web Project
勘误&更新: 根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。 于是,我们有更多时间来抢救语雀的公开知识库了。 截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。 并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。 组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。 我们将在语雀11月中旬上线新规…
好消息,语雀在新定价规则上线后没有将免费用户的知识库一刀切全部转私有。目前,免费用户此前已公开的知识库仍然保持公开。
我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。
——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。
但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。
——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。
但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
❤26👍2
讨论:如何存档天涯论坛?
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。
所以粗略估计是千万个主题帖起步。
可能会非常大
需要大规模协作
天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。
假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。
而且我们还要做冗余备份,所以实际存储需求需要翻倍……
图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}
这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。
另外目前风险小了点,天涯可以正常发布新帖子了。
http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}
以帖子发帖时间排序。
帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)
另外,早年天涯似乎使用
http://www.tianyaclub.com/images/upload/{id}.{文件后缀}
这样的图片URL格式,但是现在全坏链了。
用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。
怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。
所以粗略估计是千万个主题帖起步。
可能会非常大
需要大规模协作
天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。
假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。
而且我们还要做冗余备份,所以实际存储需求需要翻倍……
图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}
这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。
另外目前风险小了点,天涯可以正常发布新帖子了。
http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}
以帖子发帖时间排序。
帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)
另外,早年天涯似乎使用
http://www.tianyaclub.com/images/upload/{id}.{文件后缀}
这样的图片URL格式,但是现在全坏链了。
用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。
怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
Telegram
Solidot
天涯论坛停止更新
2022-11-25 12:59:00 by 惨败
天涯论坛停止更新,最后更新时间停留在 11 月 22 日,暂时不清楚它最终是否会关闭,用户过去几天报告网站出现访问异常。天涯是继猫扑,西祠胡同之后最后一个曾经风靡一时但最终沉寂的网络社区。天涯成立于 1999 年,创始人为现任董事长邢明,曾经与谷歌合作创办天涯问答,它的主要收入来源为广告,但随着微博和移动应用的流行,天涯社区的流行度逐渐下降,没有了巅峰期的荣耀,连年亏损。天眼查的数据显示,天涯公司累计被执行超 1.39 亿元。
…
2022-11-25 12:59:00 by 惨败
天涯论坛停止更新,最后更新时间停留在 11 月 22 日,暂时不清楚它最终是否会关闭,用户过去几天报告网站出现访问异常。天涯是继猫扑,西祠胡同之后最后一个曾经风靡一时但最终沉寂的网络社区。天涯成立于 1999 年,创始人为现任董事长邢明,曾经与谷歌合作创办天涯问答,它的主要收入来源为广告,但随着微博和移动应用的流行,天涯社区的流行度逐渐下降,没有了巅峰期的荣耀,连年亏损。天眼查的数据显示,天涯公司累计被执行超 1.39 亿元。
…
👍8
#转载 反面教材
https://unwire.hk/2022/11/26/komicawiki-server-down-no-backup/fun-tech/
站方通告:https://komica.blogspot.com/2022/11/blog-post.html
站方开了一个新站:https://yuki.komica.org/ (换子域名可能是为了让此前的搜索引擎快照不被覆盖),号召大家靠各种途径重建网站。
https://unwire.hk/2022/11/26/komicawiki-server-down-no-backup/fun-tech/
站方通告:https://komica.blogspot.com/2022/11/blog-post.html
站方开了一个新站:https://yuki.komica.org/ (换子域名可能是为了让此前的搜索引擎快照不被覆盖),号召大家靠各种途径重建网站。
Unwire.hk
KomicaWiki 伺服器被「清零」 管理員沒檢查郵件錯過通知失備份時機
備份向來都相當重要,對於大型網站而言更是如此。不過最近台灣的大型動漫百科網站 KomicaWiki 就被刪除伺服器資料,而管理員由於未檢查虛擬主機供應商寄出的通知電郵,錯失備份機會,現在網站所有資料流失,要回復並不容易。
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org 项目正在改进CJK(中日韩)等语言的搜索支持。
https://twitter.com/AnnaArchivist/status/1596977839730872321
https://twitter.com/AnnaArchivist/status/1596977839730872321
👍5
STWP 现已注册独立域名: save-web.org
(解析测试: hello.save-web.org )
原挂靠 othing.xyz 的 saveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。
update: 博客已迁移到 blog.save-web.org 。
(解析测试: hello.save-web.org )
原挂靠 othing.xyz 的 saveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。
update: 博客已迁移到 blog.save-web.org 。
👍11❤3