您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
Anonymous Poll
18%
1. 有兴趣,但是没计算机基础,完全不懂怎么做存档。
40%
1. 有兴趣,有基础知识,用过一些命令行工具/用过Linux/搭建过一些服务。
28%
1 有兴趣,会点编程,可以帮忙。
17%
1. 有兴趣,存档/爬取/备份过一些网站。
34%
2. 希望我参与的项目能有一步一步的新手入门教程。
30%
2. 希望能帮到别人,希望能参与些“互联网公益爱心活动”。
10%
3. 我有大量存储空间,或许能帮忙存点东西。
7%
3. 我有闲置服务器,你们可以用。
10%
4. 我希望加入 STWP (可自行在 github org 开 repo 立项目)
20%
吃瓜。看结果。
❤7
## 起因
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
## 所以
我们写了个新 bot
## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
WikiTeam 在 wikiapiary.com 上的 WikiTeam Bot 自从 2016 年来就不工作了,此后上传到 IA 的 wikidump (MediaWiki 站点备份) 都没有很好地链接到 wikiapiary 中。再加上 wikiapiary 在
{{website}} 模板里提醒用户“wikidump 相关信息是由 wikiteam bot 自动维护的,手动编辑会被覆盖”,更是打消了很多编者手动维护相关信息的想法。此后 wikiapiary 上除了 fandom.com 的 wikidump 信息有个
[[User:Shufflertoxin]] bot 在少量维护外,基本就停滞了。## 所以
我们写了个新 bot
[[User:Savewebbot]],然后把它部署到 wikiapiary 上了,它正在把 8 年来上传到 IA 的 wikidump 重新和 wikiapiary 链接起来。## 作用
这个 bot 可以帮助我们(以及其他人)从 wikiapiary 中筛选出还没被存档的 MediaWiki 站点,然后……存存存存存。
## 源代码
https://github.com/saveweb/wikiapiary-wikiteam-bot (修改自 wikiteam/wikiteam 的旧代码)
* wikiapiary 此前宕机了几个月,它的 bot 积压了大量队列任务,再加上刚升级到 MediaWIki 1.39.2 ,他们还在调查数据库性能问题,所以现在不是很稳定,打开要多等一会儿,刷新几下。
👍2❤1
Save The Web Project
您有兴趣参与 STWP 的各类存档项目吗?(多选,不分点)
我们搞个活动吧:存档马拉松。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
既然有 20~30 人都有意向和条件,并且愿意参与一些项目。
那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。
我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。
有点怪异的比赛,但是应该会很有趣。🙈🙈
要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8
如果您有兴趣参与,请在评论区回复“1”登记。
Save The Web Project
我们搞个活动吧:存档马拉松。 既然有 20~30 人都有意向和条件,并且愿意参与一些项目。 那……第一次马拉松的项目就选 DokuWiki 存档吧,这个相对简单,不需要你写任何代码,用我们现成的工具即可。 我会在近期拉个 DokoWiki 待存档的站点列表出来,然后做个“如何做 DokuWiki 存档”的教程。然后在某一时刻我放出站点列表,大家一起比赛存档。奖品待定。 有点怪异的比赛,但是应该会很有趣。🙈🙈 要求:Linux 环境优先(WSL可以。纯 Windows 环境跑的话,如果没出问题也可以),Python>=3.8…
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!不 然 把 你 手 打 断)
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
教程还在写。
与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。
另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。
(不 要 拿 DokuWiki 官 网 练 手!!
---
另,对 MediaWiki 存档感兴趣的可加入: https://news.1rj.ru/str/saveweb_projects/118
GitHub
GitHub - saveweb/dokuwiki-dumper: A tool for archiving DokuWiki
A tool for archiving DokuWiki. Contribute to saveweb/dokuwiki-dumper development by creating an account on GitHub.
Save The Web Project
DokuWiki 存档讨论群已开,欢迎加入:https://news.1rj.ru/str/saveweb_projects/120 教程还在写。 与此同时,有兴趣的可以先 看看/安装/试试 一下 DokuWiki 存档工具: https://github.com/saveweb/dokuwiki-dumper 。 另外请注意,如果你选择的目标/练手站点已经在 https://github.com/orgs/saveweb/projects/4 已存档列表里,就不要重复存了。但你可以在里面挑个几十页的小型 wiki 练手。…
「如何存档 DokuWIki 站」的简易教程写好了。
活动选什么时候开始比较好呢?(暂定 5.1 假期)
活动选什么时候开始比较好呢?(暂定 5.1 假期)
Save The Web Project
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
# 第 15 周项目摘要
* 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。
* 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。
* 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。
* 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。
* 继续 写/修 播客存档工具。
* 应 wikiteam IRC 中 @JAA 的请求,存档了 https://wiki.bash-hackers.org/ 这个 DokuWiki 站点。 (IA iteam)
———
完整周报见博客。
* 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。
* 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。
* 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。
* 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。
* 继续 写/修 播客存档工具。
* 应 wikiteam IRC 中 @JAA 的请求,存档了 https://wiki.bash-hackers.org/ 这个 DokuWiki 站点。 (IA iteam)
———
完整周报见博客。
Telegram
Save The Web Project
❤5
Save The Web Project
# 第 15 周项目摘要 * 尝试联系 wikiteam bot 的原所有者无果,于是在 wikiapiary 上部署了我们的 savewebbot 。 * 准备/宣传 第一届存档马拉松活动(主题是 DokuWiki 存档)。 * 给 savewebbot 开了 10 线程,wikiapiary 管理员说 bot 编辑页面频率太猛。于是加上1分钟编辑一次的限制。 * 原来的 wikiteam bot 用很灵车的正则来改 wikitext 。弃用,改成“更科学”的方法。 * 继续 写/修 播客存档工具。 *…
# 第 16 周项目详情
* 摸鱼
* 修了 wikiteam 的一个无足挂齿的 bug 。
* 摸鱼
* 存了几个无足挂齿的 MediaWiki 站。
* 「小宇宙」播客存档预备中。🌚
* 摸鱼
* 🥲🐟
* 摸鱼
* 修了 wikiteam 的一个无足挂齿的 bug 。
* 摸鱼
* 存了几个无足挂齿的 MediaWiki 站。
* 「小宇宙」播客存档预备中。🌚
* 摸鱼
* 🥲🐟
🤯6
低质量的「独立博客」的判断方式、「独立博客」的判断、博客的分类、博客的特点(草稿)
> 一点关于博客的探究。(草稿)
原本 (2022-07-01) 我们开始写这个东西,还专门找了些古老的书和资料。但是此后就一直咕咕咕。文档已经吃灰几个月啦!
文档里主要是当时我们的一些讨论记录(有趣的讨论都在 Q&A 里)。”什么是「独立」“ 这一章的内容基本没有问题了,然后其他全是还需要扩写和考证的内容……咕咕咕中……
欢迎留言讨论。
> 一点关于博客的探究。(草稿)
原本 (2022-07-01) 我们开始写这个东西,还专门找了些古老的书和资料。但是此后就一直咕咕咕。文档已经吃灰几个月啦!
文档里主要是当时我们的一些讨论记录(有趣的讨论都在 Q&A 里)。”什么是「独立」“ 这一章的内容基本没有问题了,然后其他全是还需要扩写和考证的内容……咕咕咕中……
欢迎留言讨论。
👍9
Save The Web Project
讨论:如何存档天涯论坛? 新闻提要:https://news.1rj.ru/str/solidot/19647 ___ 每个版基本上有几万倒几十万的主题帖,多的有上百万个主题帖。 而总计大概有几十个版。 所以粗略估计是千万个主题帖起步。 可能会非常大 需要大规模协作 天涯目前所有帖子的图片总共有 3亿两千万 多张。 除开被删除的,总计应该有 1亿~2亿 张。 假如我们只存一亿张图,假如每张图平均 100kb,那么我们需要 10TB 的存储空间。 如果真的要存3亿张,那就是 30 TB 存储空间。 而且我们还要做冗余备…
天涯近期好像真倒闭了。
我们纸上谈兵,还没开始存。🙇♂
打了客服电话,第一次响铃 58 秒,被挂断。第二次响铃 20 秒左右,被挂断。
总部应该还有人值班,但可能已经烦了?
我们纸上谈兵,还没开始存。🙇♂
打了客服电话,第一次响铃 58 秒,被挂断。第二次响铃 20 秒左右,被挂断。
总部应该还有人值班,但可能已经烦了?
😭19🤯2
Save The Web Project
DokuWiki存档马拉松开始! 网站列表见: https://github.com/orgs/saveweb/projects/4/views/2 (还在往里加) 群聊火热讨论中🔥: https://news.1rj.ru/str/saveweb_chat
(各位太猛了)
等大家全部上传了就结束比赛,还是添加更多的 DokuWiki ,继续?(目前还有 1k 多个 DokuWiki 等待存档……)
---
添加更多 DokuWiki ,继续。
❤2
Save The Web Project
列表中的近 100 个 DokuWiki 基本被大家分完了。 (各位太猛了) 等大家全部上传了就结束比赛,还是添加更多的 DokuWiki ,继续?(目前还有 1k 多个 DokuWiki 等待存档……) --- 添加更多 DokuWiki ,继续。
https://docs.google.com/spreadsheets/d/1iDlrcKR0rziuxFM0P7cK4Ct6-WkGytqzamh3LTqNyUE/edit?usp=sharing
1.4k 个 DokuWiki 。
1.4k 个 DokuWiki 。
Google Docs
[STWP|WikiTeam] DokuWiki Archive Project
❤2
Save The Web Project
DokuWiki存档马拉松开始! 网站列表见: https://github.com/orgs/saveweb/projects/4/views/2 (还在往里加) 群聊火热讨论中🔥: https://news.1rj.ru/str/saveweb_chat
7 天时间已到!马拉松结束。
7 天内大家共了存档 292 个 DokuWiki (未去重,实际数量要小些)。感谢大家!
活动结束不意味着存档结束,列表中还有 900+ DokuWiki 等待存档,各位有兴趣可以随便存几个。
7 天内大家共了存档 292 个 DokuWiki (未去重,实际数量要小些)。感谢大家!
活动结束不意味着存档结束,列表中还有 900+ DokuWiki 等待存档,各位有兴趣可以随便存几个。
❤8👍2
Save The Web Project
# 第 16 周项目详情 * 摸鱼 * 修了 wikiteam 的一个无足挂齿的 bug 。 * 摸鱼 * 存了几个无足挂齿的 MediaWiki 站。 * 「小宇宙」播客存档预备中。🌚 * 摸鱼 * 🥲🐟
# 第 17 和第 18 周摘要:
* vgtime.com 已全站存档(请求 archiveteam IRC 里的人用 archivebot 做的存档)
* 这两周内,共存档并上传了 ~400 个 DokuWiki 站点!
* 小修小补了下 wikiteam3 ,顺带存档了一个 MediaWiki 站。
* vgtime.com 已全站存档(请求 archiveteam IRC 里的人用 archivebot 做的存档)
* 这两周内,共存档并上传了 ~400 个 DokuWiki 站点!
* 小修小补了下 wikiteam3 ,顺带存档了一个 MediaWiki 站。
🙏1
#新闻
酷壳(
现在其博客
*有人愿意整理他的相关作品/社交媒体信息吗?极客时间、Twitter、微薄等。
酷壳(
Coolshell) 的博主陈皓前日突发心梗去世。现在其博客
https://coolshell.cn 可能因为访问量过大,非常不稳定。等今晚凌晨没人访问时,再做存档。*有人愿意整理他的相关作品/社交媒体信息吗?极客时间、Twitter、微薄等。
酷 壳 - CoolShell
享受编程和技术所带来的快乐 - Coding Your Ambition
🙏36👍1