Save The Web Project – Telegram
# 二十一世紀歸檔計劃

> 由 @Iceyour 发起,STWP(@saveweb) 协助参与的「《二十一世纪》期刊存档计划」的初始存档工作已完成。

这是个长期的预存档项目,以后会追踪存档期刊新公开的全文PDF。

目前存档大小为 2.6GiB 左右。

——
以下来自博文「《二十一世紀》歸檔計劃 – Icey の塔」和 GitHub 上的项目介绍,有删改:

## 期刊简介

> 《二十一世紀》最初由香港中文大學中國文化研究所的幾位學者倡議,其後很快得到大學當局和許多海內外知名中國學者支持,在1990年10月正式創刊。作為一本非牟利的綜合性學術文化雙月刊,《二十一世紀》旨在促進全球中國知識份子的思想交流,為中國文化的長期發展而努力。

## 期刊内容

我个人了解到《二十一世紀》还是由于群友推荐,自从知道以后,虽然不说每期都看完,但是最起码每期都看一两篇,所以对于这个期刊还算较为了解。

我认为本期刊为水平最高的中文社科期刊,之所以在大陆没有流行开来是因为该刊没有被大陆任何数据库收录,导致受众减少,二是学风比较自由,不符合官方基调。这样的期刊在大陆不论哪个出版社都不能出版,在哪个互联网平台发布都会被封禁。 该期刊的广度和深度在研究中国文化方面是数一数二的,投稿者大师云集,不乏高校教授,以及对某一方面深入研究的学者。选题丰富,对大陆和港澳台有着广泛和深入的讨论。

## 归档计划
### 归档原因

由于近些年香港的管控愈加严苛,各方面的自由都在收紧,为防止将来《二十一世紀》由于管控被封禁,而损失如此优秀的期刊。故本着留存优秀内容的初心,本人对《二十一世紀》往期期刊进行下载归档。

> 互联网是有记忆的,所有的一切都不会白白发生,所有的人不能白白死去。

### 归档进度

1990 至 2021 年共 188 期已完成归档,主题内容已收录完毕,故进行公开分享。

- 修改标题 (2022.08.03 已完成)
- 制作一个类似于网页的多级目录(进行中)

## 链接

Alist
Ali Pan
Baidu Pan
GitHub
Google Drive
OneDrive
Telegram Channel: https://news.1rj.ru/str/TFCB_Archive

P.S.

- 该归档计划长期更新,更新计划包括但不限于更新文件,文件命名,各级链接/目录,以及封面图等
- 为避免封禁,阿里云等国内网盘为 .exe 自解压缩包,顺便阿里云的违禁词真是奇奇怪怪,《二十世纪》都能给设成违禁词
- 网盘被封请及时告知,我将尽快补链
- 网络版存在一个重复文件 0204111.pdf.1,其中Google Drive、OneDrive、GitHub 已经进行删除。百度盘,阿里盘,以及TG Channel 由于为压缩包格式,所以暂时不替换,等到下次更新才会删除。请各位注意删除


@Iceyour 下载并整理了 1990 至 2021 年共 188 期的纸质版 PDF,存档上传至各网盘;
@gledos_green 下载所有网络版 PDF、抓取简繁英 html 索引页和封面图片、网络版目录索引的 MarkDown 格式化;
@yzqzss 仅将整理后的文件上传至 GitHub ,和一些小维护。
10👍3
# 「吾爱破解论坛」的「爱盘」预存档计划

STWP 内部的非公开的存档计划。(不公开代码,防止有人滥用导致站方的流量消耗过大)

存档文件目前也不计划公开,毕竟爱盘本来就是公开的,没必要做镜像站。而且我们还没有给 15 GiB 的文件提供网页直链访问的能力。(空间够,流量不够)

目前第一阶段的完整存档工作已完成。这是一个长期计划,每隔一段时间会同步存档原站的更新内容。
👍5
Channel name was changed to «Save The Web Project»
你家里还有软盘💾吗?
Anonymous Poll
26%
74%
没有
Save The Web Project
你家里还有软盘💾吗?
此投票可能会与之后的一项存档项目有关:
希望能 收集&数字化存档 全国各地正在消失的软盘

几乎现存的每片软盘都是信息文物。其中会包含当时的各类软件和游戏、驱动程序、资料文件等信息。比如我之前买到一些设备的驱动软盘,但网上完全没有找到驱动对应的产品的信息。

国内似乎没有人专门做软盘方面的存档工作。所以,不如这次做个大的!

如果你手头正好有软盘和软驱,你可以将软盘正反面拍照,并把软盘数据打包后一并发给我们存档。如果您只有软盘,可以邮寄给我们,我们存档后再给你邮回来(或者捐给我们也行啦,这样我们可以不用付回寄的邮费)。

因为需要在现实中存储这些软盘,所以单点风险比较大,我考虑和小组其他成员组个“布里吉斯”,软盘快递可以就近寄到我们成员的所在地,这样哪怕有不可抗力,也能把损失降到最小。当然,也非常非常欢迎各位有兴趣的朋友成为当地片区的“软盘仓库”。

这个项目触及现实(收发快递),应该会有点点运营成本。另外还会运行一个 wiki 来当配套的资料库/索引。

项目还在企划阶段,有兴趣的朋友入群交流: https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
👍8
# 科学网博客平台存档计划

科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。

> 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。)

其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!)

因此我们发起「科学网博客平台存档计划」,这是个长期项目,完成第一阶段的存档行动后,会定期 跟踪并存档 平台上新发布的文章。

目前用于该项目的存档脚本程序已经写好并运行。会将所有文章的 URL 推送到 archive.org 存档,待第一阶段存档完成后,我们会将详细存档结果(Archive.log)公开。

估计需要存档的文章数量在一百万左右,仅存档可公开访问的文章。
👍142😱1
大家有没有什么网页需要不定期 archive ? ,例如:新闻资讯、论坛、热搜、视频投稿页面等各种经常更新的页面。

评论区留下链接即可!🙏
8
Forwarded from 你有一个打折需要了解 (NT³)
许久不见,中秋节快乐🌕

相信已经很多朋友已经获知,我们近期在 Telegram 上打造了一个专门存储游戏方面书籍的频道——『游戏书籍 Hub
以尽可能在稳定保存的环境下,以供大家未来阅读、怀念、和研究游戏发展史。
现在,大部分书籍已正式整理完毕,欢迎查阅

我们得到了来自五湖四海的帮助,并尽最大可能收集、上传了目前能收集到的游戏书籍。
许多曾经出版、曾辉煌一时,但如今已难以查找的游戏书籍得以获得了整理和保存,感谢大家。

最后,我们发现即便是 http://archive.org ,这方面的资源仍然相对空白。我们手上有着许多上面没有,但出版社已经倒闭多年的书籍。
因此,我们也安排了人员将上面没有的书籍进行上传,以获得更专业和长久的保存。

感谢各位帮忙,并祝中秋快乐。

作者 @nt_cubic

#游戏书籍 #NY2164
7
Save The Web Project
# 大家一起收集整理老光盘、老软件(Link) QQ群号:854318908 Telegram: https://news.1rj.ru/str/+gTUsMX3n_g8yNzc1 - 已分享内容列表 - 已分享内容检索系统 (支持搜索光盘内部的文件) 欢迎伸手党,本倡议的目的就是为了让老光盘不消失,让大家尽量容易地得到老光盘中的内容,如果你只为下载,没有光盘可分享,可以不用加群,群里分享的光盘已全部包含在上述汇总文档中了。 当然了,也更加欢迎加群分享您手上的光盘。 就像老电脑正在消失一样,老的软件和光盘也正在消失,希…
爱范儿(ifanr.com)赞助了「老光盘老软件」项目,为其存档的文件[注1]提供 http 直链下载支持!

文件下载地址:https://oddownload.nuduseng.com/



——
* [注1]:部分易受 DMCA 的音视频文件除外(?);
* 项目检索系统的搜索结果中也加入了 http 直链;
* http 服务器的文件同步尚未完成,大多数直链暂无法下载,截至发稿时,已完成 11/42 的下载进度。

——
STWP 在此再次呼吁各位 Data Holder 为此项目作种。有磁带的(反正我是没有的)可以考虑写带存档。
#新闻 #友情广告
7🎉2
猜测国家图书馆的网页快照存档项目的规模与速度。

图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》

按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。

如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:

国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈

它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》


(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
哪天有钱了,咋们也整个 heritrix 玩玩

当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?

但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
这个更是重量级,4.2TB/11150个URL=394MiB/每个URL。

单个 URL 就有近 400 MiB 数据量,B站 1080p 的视频平均都没这么大。国家图书馆,这是在存 Steam 吧???
😁9👍1
# 语雀公开知识库紧急存档行动

语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404

因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。
发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)

由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。

或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
👍11
Save The Web Project
# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代…
勘误&更新:

根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。

于是,我们有更多时间来抢救语雀的公开知识库了。

截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。

并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。

组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。

我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。

如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档

----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
19
#Z-Library #话题讨论

Z-Library 常见域名现已被美国国土安全调查局的美国移民及海关执法局以版权法取缔,Tor 站点目前还能访问。

——
评论区任意讨论,可张贴与此相关的链接。
「搜狗科学百科」将于 11 月 11 日关站。
注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆

搜狗科学百科自己的介绍条目:「搜狗科学百科(链接关站后失效)

此百科的亮点:
- 各条目的分类依靠学科树 (链接关站后失效)
- 对编辑者有专业要求
- 有同行评审
- 尝试建立自治社区
- 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权

截至目前,共积累了 849(?) 篇条目。

——
我们正在存档此站。
👍6🔥1😁1