update: 通过观察一面表面划伤导致坏块的软盘,得到答案:连接软驱主轴的那一面是第零面。
👍8
Forwarded from yzqzss|一座桥在水上's Note (yzqzss |一座桥在水上)
今天测试了 https://github.com/saveweb/review-2021 的 197 篇文章,统计出了中文博客的“文章URL腐烂率”,以下是结果:
总计:196篇
404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1
其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。
计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
总计:196篇
404:13
托管服务未续费:1
域名无解析/域名过期/ping不通:10
ssl过期:1
其中,有约一半的404是博客换了永久链接,但没做重定向。这仍然属于链接腐烂。
计算得,中文独立博客的文章链接年度腐烂率为:10~12%。半衰期为6年左右。
GitHub
GitHub - saveweb/review-2021: 今年,你写年终总结了吗?
今年,你写年终总结了吗?. Contribute to saveweb/review-2021 development by creating an account on GitHub.
🤯7👍3❤1
Forwarded from 瞎玩菌资讯
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏
任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku
https://www.vgtime.com/topic/1188062.jhtml
任天堂已经宣布,将于 2023 年 3 月 27 日关停 WiiU 与 3DS 的 eShop 网络商城。商城关停时,会有约 1000 款纯数字版游戏被永久删除。面对这些情况,某个国外团队采取了行动。日前,国外频道「The Completionist」发布了一支新视频。主持人 Jirard Khalil 宣称,自家团队已经提前购买了 WiiU 与 3DS 网络商城的所有游戏。为了达成目标,该团队花费了 382 天时间进行准备。现在,团队成员们已经购买了 866 款 WiiU 游戏和 1547 款 3DS 游戏,其中包括 DSiWare 、 Virtual Console 和其它 DLC 内容。购买完成后,WiiU 游戏数据总量达到了 1.2 TB,而 3DS 游戏数据总量达到了 267 GB 。视频团队为此花费了超 460 张 eShop 兑换卡,总花费额为 22791 美元,约合人民币 15 万 6300 元。在视频中,主持人提到了团队碰到的各种困难,也感谢了玩家社群的支持。最后,「The Completionist」宣布将所得游戏全部捐赠给公益组织「电子游戏历史基金会」。来源:The Completionist/Kotaku
https://www.vgtime.com/topic/1188062.jhtml
Vgtime
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏 - vgtime.com
与时间赛跑,国外团队买下3DS与WiiU所有数字版游戏,不要小看玩家的力量。
👍28🎉2❤1
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。
---
第 14 周项目摘要。
20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
20230405:
saveweb/review-2022 收录 +1
20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。
20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
---
近日讨论摘要:
1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。
---
接下来的工作/待办事项:
1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。
---
咕咕咕(停摆)的项目:
1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
---
第 14 周项目摘要。
20230401 ~ 20230403:
@jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend
20230405:
saveweb/review-2022 收录 +1
20230403 ~ 20230406:
* 播客存档项目开工,写存档工具:https://github.com/saveweb/preserve-those-podcasts
20230408:
* 播客存档工具GA了,试着存档了 30 个播客,占用 140GiB。(之后会扩大存档规模)
* 把某国内应用市场的存档计划对应的存档服务器的数据库拉回本地,做分库。
* 抓包,探索了国内知名播客应用「小宇宙」的API。
20230409:
* wikiapiary.com 上的 wikiteam bot 机器人已经宕机 8 年了。这 8 年 wikiapiary、IA、pywikibot、MediaWiki、WikiTeam 等软件或服务的 API 都有变化, wikiteam/wikiteam repo 里原来的那个bot脚本已经用不了了。
于是写了个新 bot ,尝试复活它。
https://github.com/saveweb/wikiapiary-wikiteam-bot
正在尝试联系原 wikiteam bot 的账号持有人,如果联系不到,咱们就联系 wikiapiary 申请个机器人账号自己跑。🌚
---
近日讨论摘要:
1. https://github.com/saveweb/see-agreement/ 这个项目一直搁置……
2. 日经讨论:吐槽网络、哀嚎缺存储空间、吐槽SSD寿命。
3. https://www.podcastrepublic.net/ 可以作为博客存档项目的爬取源。
4. Mac 软件:Little Snitch Network Monitor 的流量可视化有点酷。
5. xuite.net 「Xuite 隨意窩」 博客平台要关站了。
---
接下来的工作/待办事项:
1. 需要继续维护 rss-list ,缺人。
2. 软盘存档项目,写具体的存档流程和方法(写手册,也可能录视频)。
3. mediawiki 存档相关:
3.1 优化 wikiteam3 的 launcher.py ,只把 history.xml 打进一个压缩包。
3.2 弃用 wikiteam3 给每个媒体文件下载 .desc 文件的“特性”。
3.3 流式解析 wikiteam3 生成的 wikidump xml,做 xml 校验器。
3.4 写个保存 fandom wiki 的 comments 的小脚本。(wikiteam#456)
4. 做 DokuWiki 存档。小目标:完成 100 个 DokuWiki 的存档(目前存了20多个)。最好能吸引“国际友人”参与(目前只有一个)。
5. @jsun969 写博客搜索引擎的前端。
6. 将 FreshRSS 的 MariaDB 与 MeiliSearch 对接,使博客搜索引擎全文索引能实时更新。(目前是手动全库导入)
7. @oveRidea_China 开发 BiliBili 每日 Top 100 视频存档。
8. 继续探索:播客存档的方法。
---
咕咕咕(停摆)的项目:
1. see-agreement (收集各网站/软件的用户协议,隐私协议等) 2. 互联网公墓 wiki (记录关站的网站和服务) 3. 天涯论坛存档(元数据爬取都还没做好,元数据通过 web 爬取行不通,得走API) 4. Git 博客仓库存档(需要人维护,停摆) 5. 语雀公开知识库存档(语雀现在能开公开知识库的都是付费用户,给付费用户做存档,感觉有点……提不起兴趣)
GitHub
GitHub - saveweb/saveweb-search-frontend: UglySearch - A full-text search engine for blog posts
UglySearch - A full-text search engine for blog posts - saveweb/saveweb-search-frontend
👍4
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
Anonymous Poll
18%
1. 有兴趣,但是没计算机基础,完全不懂怎么做存档。
40%
1. 有兴趣,有基础知识,用过一些命令行工具/用过Linux/搭建过一些服务。
28%
1 有兴趣,会点编程,可以帮忙。
17%
1. 有兴趣,存档/爬取/备份过一些网站。
34%
2. 希望我参与的项目能有一步一步的新手入门教程。
30%
2. 希望能帮到别人,希望能参与些“互联网公益爱心活动”。
10%
3. 我有大量存储空间,或许能帮忙存点东西。
7%
3. 我有闲置服务器,你们可以用。
10%
4. 我希望加入 STWP (可自行在 github org 开 repo 立项目)
20%
吃瓜。看结果。
❤7
## 起因
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
## 所以
我们写了个新 bot
## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
{{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
[[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。## 所以
我们写了个新 bot
[[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来。## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
👍2❤1
Save The Web Project
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
我们搞个活动吧:存档马拉松。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
Save The Web Project
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!不 然 把 你 手 打 断)
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
GitHub
GitHub - saveweb/dokuwiki-dumper: A tool for archiving DokuWiki
A tool for archiving DokuWiki. Contribute to saveweb/dokuwiki-dumper development by creating an account on GitHub.
Save The Web Project
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120 教程还在写。 与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。 另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。…
「如何存档 DokuWIki 站」的简易教程写好了。
活动选什么时候开始比较好呢?(暂定 5.1 假期)
活动选什么时候开始比较好呢?(暂定 5.1 假期)
Save The Web Project
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
# 第 15 周项目摘要
* 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。
* 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。
* 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。
* 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。
* 继续 写/修 播客存档工具。
* 应 wikiteam IRC 中 @JAA 的请求,存档了 https://wiki.bash-hackers.org/ 这个 DokuWiki 站点。 (IA iteam)
———
完整周报见博客。
* 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。
* 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。
* 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。
* 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。
* 继续 写/修 播客存档工具。
* 应 wikiteam IRC 中 @JAA 的请求,存档了 https://wiki.bash-hackers.org/ 这个 DokuWiki 站点。 (IA iteam)
———
完整周报见博客。
Telegram
Save The Web Project
❤5
Save The Web Project
# 第 15 周项目摘要 * 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。 * 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。 * 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。 * 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。 * 继续 写/修 播客存档工具。 *…
# 第 16 周项目详情
* 摸鱼
* 修了 wikiteam 的一个无足挂齿的 bug 。
* 摸鱼
* 存了几个无足挂齿的 MediaWiki 站。
* 「小宇宙」播客存档预备中。🌚
* 摸鱼
* 🥲🐟
* 摸鱼
* 修了 wikiteam 的一个无足挂齿的 bug 。
* 摸鱼
* 存了几个无足挂齿的 MediaWiki 站。
* 「小宇宙」播客存档预备中。🌚
* 摸鱼
* 🥲🐟
🤯6
低质量的「独立博客」的判断方式、「独立博客」的判断、博客的分类、博客的特点(草稿)
> 一点关于博客的探究。(草稿)
原本 (2022-07-01) 我们开始写这个东西,还专门找了些古老的书和资料。但是此后就一直咕咕咕。文档已经吃灰几个月啦!
文档里主要是当时我们的一些讨论记录(有趣的讨论都在 Q&A 里)。”什么是「独立」“ 这一章的内容基本没有问题了,然后其他全是还需要扩写和考证的内容……咕咕咕中……
欢迎留言讨论。
> 一点关于博客的探究。(草稿)
原本 (2022-07-01) 我们开始写这个东西,还专门找了些古老的书和资料。但是此后就一直咕咕咕。文档已经吃灰几个月啦!
文档里主要是当时我们的一些讨论记录(有趣的讨论都在 Q&A 里)。”什么是「独立」“ 这一章的内容基本没有问题了,然后其他全是还需要扩写和考证的内容……咕咕咕中……
欢迎留言讨论。
👍9
Save The Web Project
讨论:如何存档天涯论坛? 新闻提要:https://news.1rj.ru/str/solidot/19647 ___ 每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。 而总计大概有几十个版。 所以粗略估计是千万个主题帖起步。 可能会非常大 需要大规模协作 天涯目前所有帖子的图片总共有 3亿两千万 多张。 除开被删除的,总计应该有 1亿~2亿 张。 假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。 如果真的要存3亿张,那就是 30 TB 存储空间。 而且我们还要做冗余备…
天涯近期好像真倒闭了。
我们纸上谈兵,还没开始存。🙇♂
打了客服电话,第一次响铃 58 秒,被挂断。第二次响铃 20 秒左右,被挂断。
总部应该还有人值班,但可能已经烦了?
我们纸上谈兵,还没开始存。🙇♂
打了客服电话,第一次响铃 58 秒,被挂断。第二次响铃 20 秒左右,被挂断。
总部应该还有人值班,但可能已经烦了?
😭19🤯2
Save The Web Project
DokuWiki存档马拉松开始! 网站列表见: https://github.com/orgs/saveweb/projects/4/views/2 (还在往里加) 群聊火热讨论中🔥: https://news.1rj.ru/str/saveweb_chat
(各位太猛了)
等大家全部上传了就结束比赛,还是添加更多的 DokuWiki ,继续?(目前还有 1k 多个 DokuWiki 等待存档……)
---
添加更多 DokuWiki ,继续。
❤2