Save The Web Project
「搜狗科学百科」将于 11 月 11 日关站。 注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆。 搜狗科学百科自己的介绍条目:「搜狗科学百科」(链接关站后失效) 此百科的亮点: - 各条目的分类依靠学科树 (链接关站后失效) - 对编辑者有专业要求 - 有同行评审 - 尝试建立自治社区 - 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权 截至目前,共积累了 849(?) 篇条目。 —— 我们正在存档此站。
尴尬了,我们发现 IA(
动用的还是 Wiki Collection 专项收集……
Internet Archive) 在 10 月 25号~28日 已经集中对「搜狗科学百科」做过条目网页的快照存档……动用的还是 Wiki Collection 专项收集……
译文:「如何成为“海盗”存档者?」出炉啦
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
> Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。
翻译已得到了作者允许。👍13
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
遵循此文的建议:
> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。
我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
> 做项目宣传可能会很棘手。正如我们所说,这仍然是一个小众社区。我们最初在 Reddit 上做推广,但在 Hacker News 上得到了真正的支持。目前,我们的建议是在多个平台发文,看看会发生什么。
我们也在 Twitter 上创了个号:https://twitter.com/SaveWeb_project ,欢迎关注。
👍5
Save The Web Project
勘误&更新: 根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。 于是,我们有更多时间来抢救语雀的公开知识库了。 截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。 并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。 组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。 我们将在语雀11月中旬上线新规…
好消息,语雀在新定价规则上线后没有将免费用户的知识库一刀切全部转私有。目前,免费用户此前已公开的知识库仍然保持公开。
我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。
——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。
但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
我们担心的事情没有发生,互联网上成千上万指向语雀文档库的链接并没有一夜间坏链。
——
至于我们的行动成果嘛,目前存档了 37000+ 个语雀帐号。(仅含文字,不含图片)
此紧急存档行动宣告结束。
但如上条消息所说:“如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀优质内容创作者的知识库文档。”休息一段时间后,我们会继续做这个项目。
❤26👍2
讨论:如何存档天涯论坛?
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。
所以粗略估计是千万个主题帖起步。
可能会非常大
需要大规模协作
天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。
假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。
而且我们还要做冗余备份,所以实际存储需求需要翻倍……
图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}
这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。
另外目前风险小了点,天涯可以正常发布新帖子了。
http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}
以帖子发帖时间排序。
帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)
另外,早年天涯似乎使用
http://www.tianyaclub.com/images/upload/{id}.{文件后缀}
这样的图片URL格式,但是现在全坏链了。
用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。
怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
新闻提要:https://news.1rj.ru/str/solidot/19647
___
每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。
而总计大概有几十个版。
所以粗略估计是千万个主题帖起步。
可能会非常大
需要大规模协作
天涯目前所有帖子的图片总共有 3亿两千万 多张。
除开被删除的,总计应该有 1亿~2亿 张。
假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。
如果真的要存3亿张,那就是 30 TB 存储空间。
而且我们还要做冗余备份,所以实际存储需求需要翻倍……
图片获取方式:
http://img{2 或 3}.laibafile.cn/p/{s 或 m 或 l}/{图片id}.{任意结尾 jpg png gif 都行}
这还只是图片。帖子的数量还无法准确估计,帖子的文本备份还不知道如何下手。
另外目前风险小了点,天涯可以正常发布新帖子了。
http://bbs.tianya.cn/list.jsp?item={版id}&order=1&nextid={帖子数量}
以帖子发帖时间排序。
帖子数量 填1 ,就会显示最老的帖子。(如果没有的话,填100)
另外,早年天涯似乎使用
http://www.tianyaclub.com/images/upload/{id}.{文件后缀}
这样的图片URL格式,但是现在全坏链了。
用相同的 id 在 img*.laibafile.cn 试过,大多数都没了,少数id撞得出图。
但是我现在还无法确定 laibafile 的图片 id 是否沿用了以前 tianyaclub.com 的图片id。
怎么说呢 瘦死的骆驼比马大
___
另外,有可能(猜测)天涯论坛也在国家图书馆的互联网存档范围中,毕竟是个有代表性的老站。
___
欢迎留言讨论。
Telegram
Solidot
天涯论坛停止更新
2022-11-25 12:59:00 by 惨败
天涯论坛停止更新,最后更新时间停留在 11 月 22 日,暂时不清楚它最终是否会关闭,用户过去几天报告网站出现访问异常。天涯是继猫扑,西祠胡同之后最后一个曾经风靡一时但最终沉寂的网络社区。天涯成立于 1999 年,创始人为现任董事长邢明,曾经与谷歌合作创办天涯问答,它的主要收入来源为广告,但随着微博和移动应用的流行,天涯社区的流行度逐渐下降,没有了巅峰期的荣耀,连年亏损。天眼查的数据显示,天涯公司累计被执行超 1.39 亿元。
…
2022-11-25 12:59:00 by 惨败
天涯论坛停止更新,最后更新时间停留在 11 月 22 日,暂时不清楚它最终是否会关闭,用户过去几天报告网站出现访问异常。天涯是继猫扑,西祠胡同之后最后一个曾经风靡一时但最终沉寂的网络社区。天涯成立于 1999 年,创始人为现任董事长邢明,曾经与谷歌合作创办天涯问答,它的主要收入来源为广告,但随着微博和移动应用的流行,天涯社区的流行度逐渐下降,没有了巅峰期的荣耀,连年亏损。天眼查的数据显示,天涯公司累计被执行超 1.39 亿元。
…
👍8
#转载 反面教材
https://unwire.hk/2022/11/26/komicawiki-server-down-no-backup/fun-tech/
站方通告:https://komica.blogspot.com/2022/11/blog-post.html
站方开了一个新站:https://yuki.komica.org/ (换子域名可能是为了让此前的搜索引擎快照不被覆盖),号召大家靠各种途径重建网站。
https://unwire.hk/2022/11/26/komicawiki-server-down-no-backup/fun-tech/
站方通告:https://komica.blogspot.com/2022/11/blog-post.html
站方开了一个新站:https://yuki.komica.org/ (换子域名可能是为了让此前的搜索引擎快照不被覆盖),号召大家靠各种途径重建网站。
Unwire.hk
KomicaWiki 伺服器被「清零」 管理員沒檢查郵件錯過通知失備份時機
備份向來都相當重要,對於大型網站而言更是如此。不過最近台灣的大型動漫百科網站 KomicaWiki 就被刪除伺服器資料,而管理員由於未檢查虛擬主機供應商寄出的通知電郵,錯失備份機會,現在網站所有資料流失,要回復並不容易。
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org 项目正在改进CJK(中日韩)等语言的搜索支持。
https://twitter.com/AnnaArchivist/status/1596977839730872321
https://twitter.com/AnnaArchivist/status/1596977839730872321
👍5
STWP 现已注册独立域名: save-web.org
(解析测试: hello.save-web.org )
原挂靠 othing.xyz 的 saveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。
update: 博客已迁移到 blog.save-web.org 。
(解析测试: hello.save-web.org )
原挂靠 othing.xyz 的 saveweb.othing.xyz 和其它STWP相关的域名会逐渐重定向到新域名上。
update: 博客已迁移到 blog.save-web.org 。
👍11❤3
#转载
https://storagemojo.com/2014/04/25/amazons-glacier-secret-bdxl/
分享一篇可能与低成本存档存储方面的文章,文章主体是猜测AWS Glacier存储的底层方案,并推测是基于蓝光光盘的存储....
https://storagemojo.com/2014/04/25/amazons-glacier-secret-bdxl/
分享一篇可能与低成本存档存储方面的文章,文章主体是猜测AWS Glacier存储的底层方案,并推测是基于蓝光光盘的存储....
#新春特别活动 #糗事百科 #1TB福利
https://github.com/saveweb/qiushibaike-archive
> 「糗事百科」创于 2005 年,于 2022-12-29 关站。(书接上回)
2023年,STWP 送大家新鲜出炉 1.3 TiB 的「糗事百科」存档作为新年礼。
想领取此礼品的小伙伴,请自备 2TB 以上的硬盘,然后联系 @yzqzss ,将硬盘快递发给 STWP 成员,我们将把这 1.3 TiB 当量的红包塞进您的硬盘并回寄给您,作为您的新年礼物。
这不是玩笑,重复,这不是玩笑。
------
「糗事百科」存档由 @MistyNya 制作。
https://github.com/saveweb/qiushibaike-archive
> 「糗事百科」创于 2005 年,于 2022-12-29 关站。(书接上回)
2023年,STWP 送大家新鲜出炉 1.3 TiB 的「糗事百科」存档作为新年礼。
想领取此礼品的小伙伴,请自备 2TB 以上的硬盘,然后联系 @yzqzss ,将硬盘快递发给 STWP 成员,我们将把这 1.3 TiB 当量的红包塞进您的硬盘并回寄给您,作为您的新年礼物。
这不是玩笑,重复,这不是玩笑。
------
「糗事百科」存档由 @MistyNya 制作。
GitHub
GitHub - saveweb/qiushibaike-archive: [糗事百科] 全站存档
[糗事百科] 全站存档. Contribute to saveweb/qiushibaike-archive development by creating an account on GitHub.
😁11
Save The Web Project
「软盘收集&数字化存档」项目(第一阶段)启动。 正在搭建相关仓库/网站、编写文档等。 https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
咱是以 git repo 的形式做这个项目,还是开个 wiki 站?
Anonymous Poll
52%
git repo + Markdown + LFS + JSON/YAML
48%
MediaWiki
Save The Web Project
「软盘收集&数字化存档」项目(第一阶段)启动。 正在搭建相关仓库/网站、编写文档等。 https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
# 众人拾柴火焰高ーー「软盘收集&数字化存档」
大家好,我是 STWP 的 @yzqzss 。
考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。
软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。
如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。
距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古董硬件爱好者闭门造车自行收藏,国内貌似并没有项目在专门做软盘的数字化存档。
二十年的时间流逝,很多软盘已经读不出数据了,很多情况下只能全盘恢复出 90%+ 的数据块。我们是在和数字腐烂赛跑。
软盘存档是不为了拯救软盘,而是拯救二十多年前的珍贵历史数据。
软盘预计的购买成本为 3元/张 ,这个价位的软盘多为软件/驱动盘,存档价值较高。也会买一些 1元/张 的一般软盘碰碰运气。
对于已经做完数字化存档且没必要再物理收藏的软盘,我们可能会贴上标识条码并二次出售(类似多抓鱼)。以便回血买新软盘。
当然了,如果您手头正好有软盘或软驱,可以直接寄给我们(我们数字化存档后可以把软驱寄回给你。当然,有条件也可以自行制作存档并上传给我们),亦或是想以任何方式参与本项目,请在评论区留言或联系任意 STWP 成员。非常非常感谢大家!
先定一个小目标:本月的捐赠额达到 500 元。(可让我们再购置100~300张软盘)
收款码见评论区的第一条消息,各位的赞助会在2天内用于购置二手软盘。
存档数据会在近期公开。项目会透明运行。
大家好,我是 STWP 的 @yzqzss 。
考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。
软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。
如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。
距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古董硬件爱好者闭门造车自行收藏,国内貌似并没有项目在专门做软盘的数字化存档。
二十年的时间流逝,很多软盘已经读不出数据了,很多情况下只能全盘恢复出 90%+ 的数据块。我们是在和数字腐烂赛跑。
软盘存档是不为了拯救软盘,而是拯救二十多年前的珍贵历史数据。
软盘预计的购买成本为 3元/张 ,这个价位的软盘多为软件/驱动盘,存档价值较高。也会买一些 1元/张 的一般软盘碰碰运气。
对于已经做完数字化存档且没必要再物理收藏的软盘,我们可能会贴上标识条码并二次出售(类似多抓鱼)。以便回血买新软盘。
当然了,如果您手头正好有软盘或软驱,可以直接寄给我们(我们数字化存档后可以把软驱寄回给你。当然,有条件也可以自行制作存档并上传给我们),亦或是想以任何方式参与本项目,请在评论区留言或联系任意 STWP 成员。非常非常感谢大家!
先定一个小目标:本月的捐赠额达到 500 元。(可让我们再购置100~300张软盘)
收款码见评论区的第一条消息,各位的赞助会在2天内用于购置二手软盘。
存档数据会在近期公开。项目会透明运行。
Telegram
Save The Web Project
此投票可能会与之后的一项存档项目有关:
希望能 收集&数字化存档 全国各地正在消失的软盘。
几乎现存的每片软盘都是信息文物。其中会包含当时的各类软件和游戏、驱动程序、资料文件等信息。比如我之前买到一些设备的驱动软盘,但网上完全没有找到驱动对应的产品的信息。
国内似乎没有人专门做软盘方面的存档工作。所以,不如这次做个大的!
如果你手头正好有软盘和软驱,你可以将软盘正反面拍照,并把软盘数据打包后一并发给我们存档。如果您只有软盘,可以邮寄给我们,我们存档后再给你邮回来(或者捐给我们也行啦,这样我们可以不用付回寄的邮费)。…
希望能 收集&数字化存档 全国各地正在消失的软盘。
几乎现存的每片软盘都是信息文物。其中会包含当时的各类软件和游戏、驱动程序、资料文件等信息。比如我之前买到一些设备的驱动软盘,但网上完全没有找到驱动对应的产品的信息。
国内似乎没有人专门做软盘方面的存档工作。所以,不如这次做个大的!
如果你手头正好有软盘和软驱,你可以将软盘正反面拍照,并把软盘数据打包后一并发给我们存档。如果您只有软盘,可以邮寄给我们,我们存档后再给你邮回来(或者捐给我们也行啦,这样我们可以不用付回寄的邮费)。…
👍24
Save The Web Project pinned «# 众人拾柴火焰高ーー「软盘收集&数字化存档」 大家好,我是 STWP 的 @yzqzss 。 考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。 软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。 如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。 距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古…»