Save The Web Project – Telegram
邮箱更换通知

由于俄乌冲突,Save The Web 使用的 Yandex 域名邮箱已经被 Gmail 拒收了,所以目前暂时会使用
saveweb.china@gmail.com 邮箱进行交流。

Update:
原因已查明,我们使用的另一个邮局服务商的 DNS SPF记录 设置的 IP 范围过大,包含了一整个 C 段。所以有“有心人士”买了同段的服务器,以该邮局服务商的用户的域名(当然包含了 othing.xyz)发送垃圾邮件。

致使我们的域名被 Gmail 标记、拒收。已向 Gmail 申诉。

Re-Update:
已解封。
继上次的「手机乐园」抢救性存档后,我们现在发起一项「酷安」的预存档项目,这将是一次长期项目。现还在初期阶段,欢迎感兴趣的各位加入/关注。

https://news.1rj.ru/str/+T55qv1GjH6dhOTQ1

本项目是在酷安小编发的那个”有机会出售酷安“的动态之后,立项的。虽然,后来其解释只是发发牢骚,但是仍表示”如果有人愿意谈谈合作并购,我们都欢迎的。“,所以酷安仍有被并购的可能性。

且考虑到两次”酷安危机“和酷安社区环境的明显改变。现在确实有预存挡的必要。

由于是预存挡,存档将按任务难易程度慢慢开始,且这是长期项目,需要定期抓取新出现的动态、应用之类的。

路线图:
- 先存比较好弄的应用详情页信息(To do)、用户动态详情页(Doing);
- (To do)然后再存应用详情页的截图、动态里的图片;
- (To do)最后存所有”酷安开发者“的应用。
- (To do)另外,无酷安开发者认证的应用视之后的我们的实际存储能力考虑是否存档(大概是不会的,估计是几十TB的数据量,太大)。

要点:
- 项目架构采用类似于 BOINC/Archive Team 的:“分布式爬取,中心服务器处理和存储”的方案,保证任何人无论技术能力,都能参与到此存档行动中来。
- 客户端程序应当是单文件,无需配置任何环境即可运行的。
- 中心服务器的数据在数据量稳定后需要做容灾备份/同步,(为了项目合规,我们当前不计划公开我们存档的数据,所以存档的数据将由 STWP 组内成员负责存储;服务端和客户端的源代码同理在[酷安**前]不开源)
- 可以有贡献者列表。
Save The Web Project
继上次的「手机乐园」抢救性存档后,我们现在发起一项「酷安」的预存档项目,这将是一次长期项目。现还在初期阶段,欢迎感兴趣的各位加入/关注。 https://news.1rj.ru/str/+T55qv1GjH6dhOTQ1 本项目是在酷安小编发的那个”有机会出售酷安“的动态之后,立项的。虽然,后来其解释只是发发牢骚,但是仍表示”如果有人愿意谈谈合作并购,我们都欢迎的。“,所以酷安仍有被并购的可能性。 且考虑到两次”酷安危机“和酷安社区环境的明显改变。现在确实有预存挡的必要。 由于是预存挡,存档将按任务难易程度慢慢开始,且…
进度报告:

20220614:
用户动态详情页的分布式抓取程序初版完成,已简单测试可用,提供 Window 和 Linux 版本。傻瓜操作,上手超简单,欢迎各位志愿者体验测试。
下载 -->
https://news.1rj.ru/str/STWP_coolapk_archive (查看群里顶置消息)

20220615 00:00:
经过我们和志愿者的努力,酷安动态的分布式存档程序和后端都已基本稳定并投入生产,截至15日零时时已爬取完成 30万个 酷安动态,阶段目标是完成 3000 万个 酷安动态的爬取。在项目进入正轨后,爬取速度会加快不少,应该能在不到一个月的时间内完成。
如果你也想成为项目志愿者,请加入:
https://news.1rj.ru/str/STWP_coolapk_archive 并下载分布式存档程序,这回加快我们存档的步伐,非常感谢!
20220615 10:20:
估计是酷安的运维上班了,一大早我们所有志愿者的节点全被酷安封禁……
我们调整一下请求速率,超量请求对酷安也不好。
20220615 13:30:
我们已减慢抓取速率。并**********************。
20220616:
进展正常。
20220617:
应酷安官方要求,我们停止了此项计划……
# 大家一起收集整理老光盘、老软件(Link

QQ群号:854318908
Telegram: https://news.1rj.ru/str/+gTUsMX3n_g8yNzc1
- 已分享内容列表
- 已分享内容检索系统 (支持搜索光盘内部的文件)

欢迎伸手党,本倡议的目的就是为了让老光盘不消失,让大家尽量容易地得到老光盘中的内容,如果你只为下载,没有光盘可分享,可以不用加群,群里分享的光盘已全部包含在上述汇总文档中了。

当然了,也更加欢迎加群分享您手上的光盘。

就像老电脑正在消失一样,老的软件和光盘也正在消失,希望大家把手上还没有扔掉的老光盘打包分享出来,一些曾经流行的软件或者软件的较老的版本也可以分享出来。如果有必要,我会把这些老光盘汇总整理,让他们在互联网上永久保存(早期可以放各种网盘,但我会留足备份,确保他们不会消失),同时,下载保存的人多了之后,他们从这世界上消失的可能性也会降低。

## 全部都要

不要小看你手上的任何一张光盘和任何一个老软件。你可能扔掉了老光盘的大部分,只留下了一些你认为有必要留下的,那么总有一天你会后悔,发现扔掉的那些也很重要。

不仅仅需要这些

- 曾经流行的、已经消失的软件或者尚未消失的软件的老版本
- 各种原版软件光盘和系统光盘
- 各种软件合集光盘

以下这些也要

- 各种设备的配套光盘、软盘
- 各种报刊杂志赠送的光盘、软盘,比如《大众软件》、《电脑报》等光盘
- 各种驱动光盘、软盘
- 任何有年代的老光盘、老软盘、老软件

## 怎样分享

将相关资源打包,光盘先打包成ISO映像文件(如果是带加密的正版光盘,建议用nero做成多区段映像)、软盘做成IMG映像,最好配上照片、封面、您的说明文档一起。上传到各网盘然后分享到群里。

如果光盘很多你又没有时间,可以先发给我,我完成打包后再寄还给你。

———————————————
此项目运行3年多了,存档总量近14TiB。收录了各类老系统、老软件、老光盘、老游戏、老杂志——从 DOS游戏 到 CCED教程,从《无线电》杂志到《江明KV》杀毒软件……收录的内容有多丰富?可使用「内容检索系统」随便搜点关键词自行体验。
如果您的硬盘和宽带有富余,可考虑为该项目做种。
此条为友情推荐,项目并不属于STWP

#推荐 #软件 #光盘 #杂志 #存档
6
# 二十一世紀歸檔計劃

> 由 @Iceyour 发起,STWP(@saveweb) 协助参与的「《二十一世纪》期刊存档计划」的初始存档工作已完成。

这是个长期的预存档项目,以后会追踪存档期刊新公开的全文PDF。

目前存档大小为 2.6GiB 左右。

——
以下来自博文「《二十一世紀》歸檔計劃 – Icey の塔」和 GitHub 上的项目介绍,有删改:

## 期刊简介

> 《二十一世紀》最初由香港中文大學中國文化研究所的幾位學者倡議,其後很快得到大學當局和許多海內外知名中國學者支持,在1990年10月正式創刊。作為一本非牟利的綜合性學術文化雙月刊,《二十一世紀》旨在促進全球中國知識份子的思想交流,為中國文化的長期發展而努力。

## 期刊内容

我个人了解到《二十一世紀》还是由于群友推荐,自从知道以后,虽然不说每期都看完,但是最起码每期都看一两篇,所以对于这个期刊还算较为了解。

我认为本期刊为水平最高的中文社科期刊,之所以在大陆没有流行开来是因为该刊没有被大陆任何数据库收录,导致受众减少,二是学风比较自由,不符合官方基调。这样的期刊在大陆不论哪个出版社都不能出版,在哪个互联网平台发布都会被封禁。 该期刊的广度和深度在研究中国文化方面是数一数二的,投稿者大师云集,不乏高校教授,以及对某一方面深入研究的学者。选题丰富,对大陆和港澳台有着广泛和深入的讨论。

## 归档计划
### 归档原因

由于近些年香港的管控愈加严苛,各方面的自由都在收紧,为防止将来《二十一世紀》由于管控被封禁,而损失如此优秀的期刊。故本着留存优秀内容的初心,本人对《二十一世紀》往期期刊进行下载归档。

> 互联网是有记忆的,所有的一切都不会白白发生,所有的人不能白白死去。

### 归档进度

1990 至 2021 年共 188 期已完成归档,主题内容已收录完毕,故进行公开分享。

- 修改标题 (2022.08.03 已完成)
- 制作一个类似于网页的多级目录(进行中)

## 链接

Alist
Ali Pan
Baidu Pan
GitHub
Google Drive
OneDrive
Telegram Channel: https://news.1rj.ru/str/TFCB_Archive

P.S.

- 该归档计划长期更新,更新计划包括但不限于更新文件,文件命名,各级链接/目录,以及封面图等
- 为避免封禁,阿里云等国内网盘为 .exe 自解压缩包,顺便阿里云的违禁词真是奇奇怪怪,《二十世纪》都能给设成违禁词
- 网盘被封请及时告知,我将尽快补链
- 网络版存在一个重复文件 0204111.pdf.1,其中Google Drive、OneDrive、GitHub 已经进行删除。百度盘,阿里盘,以及TG Channel 由于为压缩包格式,所以暂时不替换,等到下次更新才会删除。请各位注意删除


@Iceyour 下载并整理了 1990 至 2021 年共 188 期的纸质版 PDF,存档上传至各网盘;
@gledos_green 下载所有网络版 PDF、抓取简繁英 html 索引页和封面图片、网络版目录索引的 MarkDown 格式化;
@yzqzss 仅将整理后的文件上传至 GitHub ,和一些小维护。
10👍3
# 「吾爱破解论坛」的「爱盘」预存档计划

STWP 内部的非公开的存档计划。(不公开代码,防止有人滥用导致站方的流量消耗过大)

存档文件目前也不计划公开,毕竟爱盘本来就是公开的,没必要做镜像站。而且我们还没有给 15 GiB 的文件提供网页直链访问的能力。(空间够,流量不够)

目前第一阶段的完整存档工作已完成。这是一个长期计划,每隔一段时间会同步存档原站的更新内容。
👍5
Channel name was changed to «Save The Web Project»
你家里还有软盘💾吗?
Anonymous Poll
26%
74%
没有
Save The Web Project
你家里还有软盘💾吗?
此投票可能会与之后的一项存档项目有关:
希望能 收集&数字化存档 全国各地正在消失的软盘

几乎现存的每片软盘都是信息文物。其中会包含当时的各类软件和游戏、驱动程序、资料文件等信息。比如我之前买到一些设备的驱动软盘,但网上完全没有找到驱动对应的产品的信息。

国内似乎没有人专门做软盘方面的存档工作。所以,不如这次做个大的!

如果你手头正好有软盘和软驱,你可以将软盘正反面拍照,并把软盘数据打包后一并发给我们存档。如果您只有软盘,可以邮寄给我们,我们存档后再给你邮回来(或者捐给我们也行啦,这样我们可以不用付回寄的邮费)。

因为需要在现实中存储这些软盘,所以单点风险比较大,我考虑和小组其他成员组个“布里吉斯”,软盘快递可以就近寄到我们成员的所在地,这样哪怕有不可抗力,也能把损失降到最小。当然,也非常非常欢迎各位有兴趣的朋友成为当地片区的“软盘仓库”。

这个项目触及现实(收发快递),应该会有点点运营成本。另外还会运行一个 wiki 来当配套的资料库/索引。

项目还在企划阶段,有兴趣的朋友入群交流: https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
👍8
# 科学网博客平台存档计划

科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。

> 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。)

其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!)

因此我们发起「科学网博客平台存档计划」,这是个长期项目,完成第一阶段的存档行动后,会定期 跟踪并存档 平台上新发布的文章。

目前用于该项目的存档脚本程序已经写好并运行。会将所有文章的 URL 推送到 archive.org 存档,待第一阶段存档完成后,我们会将详细存档结果(Archive.log)公开。

估计需要存档的文章数量在一百万左右,仅存档可公开访问的文章。
👍142😱1
大家有没有什么网页需要不定期 archive ? ,例如:新闻资讯、论坛、热搜、视频投稿页面等各种经常更新的页面。

评论区留下链接即可!🙏
8
Forwarded from 你有一个打折需要了解 (NT³)
许久不见,中秋节快乐🌕

相信已经很多朋友已经获知,我们近期在 Telegram 上打造了一个专门存储游戏方面书籍的频道——『游戏书籍 Hub
以尽可能在稳定保存的环境下,以供大家未来阅读、怀念、和研究游戏发展史。
现在,大部分书籍已正式整理完毕,欢迎查阅

我们得到了来自五湖四海的帮助,并尽最大可能收集、上传了目前能收集到的游戏书籍。
许多曾经出版、曾辉煌一时,但如今已难以查找的游戏书籍得以获得了整理和保存,感谢大家。

最后,我们发现即便是 http://archive.org ,这方面的资源仍然相对空白。我们手上有着许多上面没有,但出版社已经倒闭多年的书籍。
因此,我们也安排了人员将上面没有的书籍进行上传,以获得更专业和长久的保存。

感谢各位帮忙,并祝中秋快乐。

作者 @nt_cubic

#游戏书籍 #NY2164
7
Save The Web Project
# 大家一起收集整理老光盘、老软件(Link) QQ群号:854318908 Telegram: https://news.1rj.ru/str/+gTUsMX3n_g8yNzc1 - 已分享内容列表 - 已分享内容检索系统 (支持搜索光盘内部的文件) 欢迎伸手党,本倡议的目的就是为了让老光盘不消失,让大家尽量容易地得到老光盘中的内容,如果你只为下载,没有光盘可分享,可以不用加群,群里分享的光盘已全部包含在上述汇总文档中了。 当然了,也更加欢迎加群分享您手上的光盘。 就像老电脑正在消失一样,老的软件和光盘也正在消失,希…
爱范儿(ifanr.com)赞助了「老光盘老软件」项目,为其存档的文件[注1]提供 http 直链下载支持!

文件下载地址:https://oddownload.nuduseng.com/



——
* [注1]:部分易受 DMCA 的音视频文件除外(?);
* 项目检索系统的搜索结果中也加入了 http 直链;
* http 服务器的文件同步尚未完成,大多数直链暂无法下载,截至发稿时,已完成 11/42 的下载进度。

——
STWP 在此再次呼吁各位 Data Holder 为此项目作种。有磁带的(反正我是没有的)可以考虑写带存档。
#新闻 #友情广告
7🎉2
猜测国家图书馆的网页快照存档项目的规模与速度。

图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》

按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。

如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:

国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈

它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》


(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
哪天有钱了,咋们也整个 heritrix 玩玩

当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?

但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)