Save The Web Project – Telegram
Save The Web Project
「软盘收集&数字化存档」项目(第一阶段)启动。 正在搭建相关仓库/网站、编写文档等。 https://news.1rj.ru/str/+2OnZJdUclN01MjQ9
# 众人拾柴火焰高ーー「软盘收集&数字化存档」

大家好,我是 STWP 的 @yzqzss

考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。

软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。

如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。

距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古董硬件爱好者闭门造车自行收藏,国内貌似并没有项目在专门做软盘的数字化存档。

二十年的时间流逝,很多软盘已经读不出数据了,很多情况下只能全盘恢复出 90%+ 的数据块。我们是在和数字腐烂赛跑。

软盘存档是不为了拯救软盘,而是拯救二十多年前的珍贵历史数据

软盘预计的购买成本为 3元/张 ,这个价位的软盘多为软件/驱动盘,存档价值较高。也会买一些 1元/张 的一般软盘碰碰运气。

对于已经做完数字化存档且没必要再物理收藏的软盘,我们可能会贴上标识条码并二次出售(类似多抓鱼)。以便回血买新软盘。

当然了,如果您手头正好有软盘或软驱,可以直接寄给我们(我们数字化存档后可以把软驱寄回给你。当然,有条件也可以自行制作存档并上传给我们),亦或是想以任何方式参与本项目,请在评论区留言或联系任意 STWP 成员。非常非常感谢大家!

先定一个小目标:本月的捐赠额达到 500 元。(可让我们再购置100~300张软盘)

收款码见评论区的第一条消息,各位的赞助会在2天内用于购置二手软盘。

存档数据会在近期公开。项目会透明运行。
👍24
Save The Web Project pinned «# 众人拾柴火焰高ーー「软盘收集&数字化存档」 大家好,我是 STWP 的 @yzqzss 。 考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。 软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。 如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。 距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古…»
Save The Web Project
Video
另外,在载盘前需确认打开写保护。以防误操作导致软盘文件系统中的数据或元数据被修改。
挂载镜像的时候也要使用只读模式。

FAT 12 文件系统的日期是从1980年开始算起,而文件的“访问时间”是后来的新版本 DOS 利用 FAT 12 文件目录项的预留的10个保留位实现的。所以如果是老 DOS 系统,该区应该会以全0填充。这样会导致我们看到的访问时间为 1980-01-01 。
1
#新闻
https://jikipedia.com/ 因不可抗力因素从即日起暂停服务
😢16
Save The Web Project
搞定!总计 576041 篇文章已存档。 元数据可见: https://github.com/saveweb/sci-blog-archive
为什么选择推送到 IA 呢?

以这篇于 2009-2-16 发布的《阳宗海砷污染事件的反思》为例。文章中的外链图片早已坏链。推送到 IA 后,IA 自动把坏链图片替换成了 2013 年的快照。
👍182
大家好,经过两个月的摸鱼开发(特别感谢 @MistyNya 😂),我们将开始存档 MediaWiki 以及 DokuWiki 站点。
如果您知道一些 wiki 站点,请在评论区扔链接。中文站优先。

存档工具是在前人的基础上改进/开发的,以GPLv3开源,分别为:

MediaWiki: https://github.com/mediawiki-client-tools/mediawiki-scraper/ (又名 wikiteam3 )
https://github.com/saveweb/wikiteam3
DokuWiki: https://github.com/saveweb/dokuwiki-scraper (之后不一定叫这个名字,我想改成 dokuwiki-dumper )

存档可重新导入 MediaWiki/DokuWiki 。

(其他wiki系统也可以推荐我们开发🌚
9👍1
问大家个尴尬的问题,软盘的第零面到底是哪一面?😂

update: 通过观察一面表面划伤导致坏块的软盘,得到答案:连接软驱主轴的那一面是第零面。
👍8
Forwarded from yzqzss|一座桥在水上's Note (yzqzss |一座桥在水上)
今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果:

总计:196篇

404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1

其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。

计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
🤯7👍31
Forwarded from 瞎玩菌资讯
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏

任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku

https://www.vgtime.com/topic/1188062.jhtml
👍28🎉21
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。

---

第 14 周项目摘要。

20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend

20230405:
saveweb/review-2022 收录 +1

20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts

20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。

20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚

---

近日讨论摘要:

1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。

---

接下来的工作/待办事项:

1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。

---
咕咕咕(停摆)的项目:

1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
👍4
## 起因

WikiTeamwikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在 {{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。

此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个 [[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。

## 所以

我们写了个新 bot [[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来

## 作用

这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。

## 源代码

https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)

* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
👍21
Save The Web Project
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
我们搞个活动吧:存档马拉松。

既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。

我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈

要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8

如果您有兴趣参与,请在评论区回复“1”登记。