Save The Web Project
# 众人拾柴火焰高ーー「软盘收集&数字化存档」 大家好,我是 STWP 的 @yzqzss 。 考虑到大部分人不会保有软盘这古董,初期我们可能得靠购买来持续获取新软盘。 软盘存档项目的资金消耗比 STWP 以往的项目都要大,且持续。而我们 STWP 成员们多是学生,能自掏腰包的能力有限,同时为了项目能独立并可持续运行,所以我们在此寻求一些资金上的支持。 如果软盘存档项目试运行成功后,会考虑会把资金从 STWP 单独划分出来(独立项目)。 距离软盘的辉煌已经过去20年了,除了少数怀旧软件、游戏、古…
Media is too big
VIEW IN TELEGRAM
Save The Web Project
Video
另外,在载盘前需确认打开写保护。以防误操作导致软盘文件系统中的数据或元数据被修改。
挂载镜像的时候也要使用只读模式。
FAT 12 文件系统的日期是从1980年开始算起,而文件的“访问时间”是后来的新版本 DOS 利用 FAT 12 文件目录项的预留的10个保留位实现的。所以如果是老 DOS 系统,该区应该会以全0填充。这样会导致我们看到的访问时间为 1980-01-01 。
挂载镜像的时候也要使用只读模式。
FAT 12 文件系统的日期是从1980年开始算起,而文件的“访问时间”是后来的新版本 DOS 利用 FAT 12 文件目录项的预留的10个保留位实现的。所以如果是老 DOS 系统,该区应该会以全0填充。这样会导致我们看到的访问时间为 1980-01-01 。
❤1
Save The Web Project
# 科学网博客平台存档计划 科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。 > 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。) 其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!) 因此我们发…
GitHub
GitHub - saveweb/sci-blog-archive: 将科学网的博客平台(由「中国科学报社」运营)的全部博文推送到 IA 存档。
将科学网的博客平台(由「中国科学报社」运营)的全部博文推送到 IA 存档。. Contribute to saveweb/sci-blog-archive development by creating an account on GitHub.
👍12❤5
大家好,经过两个月的摸鱼开发(特别感谢 @MistyNya 😂),我们将开始存档 MediaWiki 以及 DokuWiki 站点。
如果您知道一些 wiki 站点,请在评论区扔链接。中文站优先。
存档工具是在前人的基础上改进/开发的,以GPLv3开源,分别为:
MediaWiki:https://github.com/mediawiki-client-tools/mediawiki-scraper/ (又名 wikiteam3 )
https://github.com/saveweb/wikiteam3
DokuWiki: https://github.com/saveweb/dokuwiki-scraper (之后不一定叫这个名字,我想改成 dokuwiki-dumper )
存档可重新导入 MediaWiki/DokuWiki 。
(其他wiki系统也可以推荐我们开发🌚
如果您知道一些 wiki 站点,请在评论区扔链接。中文站优先。
存档工具是在前人的基础上改进/开发的,以GPLv3开源,分别为:
MediaWiki:
https://github.com/saveweb/wikiteam3
DokuWiki: https://github.com/saveweb/dokuwiki-scraper (之后不一定叫这个名字,我想改成 dokuwiki-dumper )
存档可重新导入 MediaWiki/DokuWiki 。
(其他wiki系统也可以推荐我们开发🌚
GitHub
GitHub - mediawiki-client-tools/mediawiki-dump-generator: Python 3 tools for downloading and preserving wikis
Python 3 tools for downloading and preserving wikis - mediawiki-client-tools/mediawiki-dump-generator
❤9👍1
update: 通过观察一面表面划伤导致坏块的软盘,得到答案:连接软驱主轴的那一面是第零面。
👍8
Forwarded from yzqzss|一座桥在水上's Note (yzqzss |一座桥在水上)
今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果:
总计:196篇
404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1
其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。
计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
总计:196篇
404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1
其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。
计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
GitHub
GitHub - saveweb/review-2021: 今年,你写年终总结了吗?
今年,你写年终总结了吗?. Contribute to saveweb/review-2021 development by creating an account on GitHub.
🤯7👍3❤1
Forwarded from 瞎玩菌资讯
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏
任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku
https://www.vgtime.com/topic/1188062.jhtml
任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku
https://www.vgtime.com/topic/1188062.jhtml
Vgtime
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏 - vgtime.com
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏,不要小看玩家的力量。
👍28🎉2❤1
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。
---
第 14 周项目摘要。
20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
20230405:
saveweb/review-2022 收录 +1
20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。
20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
---
近日讨论摘要:
1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。
---
接下来的工作/待办事项:
1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。
---
咕咕咕(停摆)的项目:
1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
---
第 14 周项目摘要。
20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
20230405:
saveweb/review-2022 收录 +1
20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。
20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
---
近日讨论摘要:
1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。
---
接下来的工作/待办事项:
1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。
---
咕咕咕(停摆)的项目:
1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
GitHub
GitHub - saveweb/saveweb-search-frontend: UglySearch - A full-text search engine for blog posts
UglySearch - A full-text search engine for blog posts - saveweb/saveweb-search-frontend
👍4
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
Anonymous Poll
18%
1. 有兴趣,但是没计算机基础,完全不懂怎么做存档。
40%
1. 有兴趣,有基础知识,用过一些命令行工具/用过Linux/搭建过一些服务。
28%
1 有兴趣,会点编程,可以帮忙。
17%
1. 有兴趣,存档/爬取/备份过一些网站。
34%
2. 希望我参与的项目能有一步一步的新手入门教程。
30%
2. 希望能帮到别人,希望能参与些“互联网公益爱心活动”。
10%
3. 我有大量存储空间,或许能帮忙存点东西。
7%
3. 我有闲置服务器,你们可以用。
10%
4. 我希望加入 STWP (可自行在 github org 开 repo 立项目)
20%
吃瓜。看结果。
❤7
## 起因
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
## 所以
我们写了个新 bot
## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
{{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
[[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。## 所以
我们写了个新 bot
[[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来。## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
👍2❤1
Save The Web Project
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
我们搞个活动吧:存档马拉松。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
Save The Web Project
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!不 然 把 你 手 打 断)
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
GitHub
GitHub - saveweb/dokuwiki-dumper: A tool for archiving DokuWiki
A tool for archiving DokuWiki. Contribute to saveweb/dokuwiki-dumper development by creating an account on GitHub.
Save The Web Project
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120 教程还在写。 与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。 另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。…
「如何存档 DokuWIki 站」的简易教程写好了。
活动选什么时候开始比较好呢?(暂定 5.1 假期)
活动选什么时候开始比较好呢?(暂定 5.1 假期)