Save The Web Project – Telegram
译文:「如何成为“海盗”存档者?」出炉啦

片面地说,这是篇讲如何给盗版资源做存档的入门文章。

翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html

> Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。

翻译已得到了作者允许。
👍13
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
遵循此文的建议:

> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。

我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
👍5
Save The Web Project
勘误&更新: 根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。 于是,我们有更多时间来抢救语雀的公开知识库了。 截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。 并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。 组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。 我们将在语雀11月中旬上线新规…
好消息,语雀在新定价规则上线后没有将免费用户的知识库一刀切全部转私有。目前,免费用户此前已公开的知识库仍然保持公开

我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。

——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。

但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
26👍2
讨论:如何存档天涯论坛?
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。

所以粗略估计是千万个主题帖起步。

可能会非常大
需要大规模协作

天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。

假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。

而且我们还要做冗余备份,所以实际存储需求需要翻倍……

图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}

这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。

另外目前风险小了点,天涯可以正常发布新帖子了。

http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}

以帖子发帖时间排序。

帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)

另外,早年天涯似乎使用

http://www.tianyaclub.com/images/upload/{id}.{文件后缀}

这样的图片URL格式,但是现在全坏链了。

用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。

怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
👍8
STWP 现已注册独立域名: save-web.org
(解析测试: hello.save-web.org

原挂靠 othing.xyzsaveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。

update: 博客已迁移到 blog.save-web.org
👍113
#新闻
Revue (Twitter 于2021年1月收购的一个 Newsletter 平台)在一小时前宣布其将在一个月后关站:

从2023年1月18日起,将无法再访问您的Revue帐户。

去死吧马斯克!
🤬13😁2👏1😢1
#新闻
在昨日 糗事百科 宣布 将于2022年12月29日00:00 关闭服务
目前网页端会自动跳转
#转载
https://storagemojo.com/2014/04/25/amazons-glacier-secret-bdxl/
分享一篇可能与低成本存档存储方面的文章,文章主体是猜测AWS Glacier存储的底层方案,并推测是基于蓝光光盘的存储....
饿您饿饿年,你吃年终总结了馍?
https://github.com/saveweb/review-2022

2022年度总结项目正式启动辣
#新春特别活动 #糗事百科 #1TB福利

https://github.com/saveweb/qiushibaike-archive

> 「糗事百科」创于 2005 年,于 2022-12-29 关站。(书接上回

2023年,STWP 送大家新鲜出炉 1.3 TiB 的「糗事百科」存档作为新年礼。

想领取此礼品的小伙伴,请自备 2TB 以上的硬盘,然后联系 @yzqzss ,将硬盘快递发给 STWP 成员,我们将把这 1.3 TiB 当量的红包塞进您的硬盘并回寄给您,作为您的新年礼物。

这不是玩笑,重复,这不是玩笑。

------
「糗事百科」存档由 @MistyNya 制作。
😁11
Save The Web Project
「软盘收集&数字化存档」项目(第一阶段)启动。 正在搭建相关仓库/网站、编写文档等。 https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
# 众人拾柴火焰高ーー「软盘收集&数字化存档」

大家好,我是 STWP 的 @yzqzss

考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。

软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。

如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。

距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古董硬件爱好者闭门造车自行收藏,国内貌似并没有项目在专门做软盘的数字化存档。

二十年的时间流逝,很多软盘已经读不出数据了,很多情况下只能全盘恢复出 90%+ 的数据块。我们是在和数字腐烂赛跑。

软盘存档是不为了拯救软盘,而是拯救二十多年前的珍贵历史数据

软盘预计的购买成本为 3元/张 ,这个价位的软盘多为软件/驱动盘,存档价值较高。也会买一些 1元/张 的一般软盘碰碰运气。

对于已经做完数字化存档且没必要再物理收藏的软盘,我们可能会贴上标识条码并二次出售(类似多抓鱼)。以便回血买新软盘。

当然了,如果您手头正好有软盘或软驱,可以直接寄给我们(我们数字化存档后可以把软驱寄回给你。当然,有条件也可以自行制作存档并上传给我们),亦或是想以任何方式参与本项目,请在评论区留言或联系任意 STWP 成员。非常非常感谢大家!

先定一个小目标:本月的捐赠额达到 500 元。(可让我们再购置100~300张软盘)

收款码见评论区的第一条消息,各位的赞助会在2天内用于购置二手软盘。

存档数据会在近期公开。项目会透明运行。
👍24
Save The Web Project pinned «# 众人拾柴火焰高ーー「软盘收集&数字化存档」 大家好,我是 STWP 的 @yzqzss 。 考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。 软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。 如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。 距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古…»