Save The Web Project – Telegram
“开源中国”半年多前把 https://osdn.net 收购了,但是收购了之后啥动作也不做,各种服务都快宕完了。
人家日本用户全都跑光了(都宕机大半年了,不跑不是人)。

看不懂这波操作。
🤣16🤮2👍1
# 我们不再存档萌百

去年年后,存档萌娘百科就变得愈发困难。
萌百的 WAF 不断升级,不断推出新的奇葩反爬方式,存档所需的 API 也都关了。

且萌百还对其它镜像站项目做了针对性反爬。
现在已经是军备竞赛了。 wikiteam3 这一通用工具已不能存档萌百。

https://archive.org/details/wiki-zh.moegirl.org.cn-20230814 是我们打的最后一份 wikidump,除非未来萌百主动放宽访问限制,我们应该不会做新的 wikidump 了。

注:网站设置内容墙并不违反 CC BY-NC-SA 3.0
🙏14🤨7😢3
Save The Web Project
现在我们可为画吧的画师提供备份导出。 流程见: https://wiki.saveweb.org/画吧:takeout
尝试跟画吧合作为画师提供作品备份。但与画吧老板交涉无果,谈着谈着他就不回消息了。

非常可惜,截至目前我们只给3位画师提供了备份。
👍3
某仙人炫的两张图,现在 CC0 下公布。匿了。
🥰12
多年前,🌽🦊说要学习 ArchiveTeam ,建立 STWP 自己的 Tracker、Warrior 。

但是两年了,经过反复鞭尸催促,三个 repos 里还是只有 README.md.gitignore 和一个幻想出来的 apidoc/server.yml

近日多个项目需要分布式爬网,1️⃣🌉只好整了一个简单的 Tracker 出来。

https://github.com/saveweb/solar_tracker

半个月后就是五四青年节啦,敬告各位青年,不要学习🌽🦊
🐳13🥰4😁2
胆汁胆汁~永远不会变质~~
🤣15
Forwarded from 下课铃
中国互联网出现到现在刚好 30 年。30 年后又是什么样子
pip(x) install https://static.saveweb.org/lowapk_v2-2.0.3-py3-none-any.whl
lowapk_v2


WE NEED YOUR HELP, THIS IA A LONG TERM PROJECT.

ETA: 6000h
追不上,根本追不上。
😁72
pip(x) install https://static.saveweb.org/huashijie-1.0.1-py3-none-any.whl
huashijie_work


画世界。与上条消息是不同的项目,可与上面那个可以同时跑。(但单个项目不要多开)
源码: https://github.com/saveweb/huashijie_work
非常神奇啊,目前已知四位朋友各自给 lowapak 和 huashijie 打了 docker image。(两个项目的活跃节点加起来才 49 个,果然朋友们人均 Docker 大师

目前,经过激烈角逐,DigitalDragon 打的 images 胜出!

https://hub.docker.com/r/digitaldragons/saveweb-huashijie (49.93 MB)
https://hub.docker.com/r/digitaldragons/saveweb-lowapk (55.94 MB)

欢迎各位有赛博洁癖的朋友继续挑战 Docker 的下限!
准备5月4日开一个名为 Dig The Web 的 CTF 欢乐赛。(以庆祝 STWP 3周年,2333)
开个投票看看有多少人有兴趣来玩?人少的话就算了。
Anonymous Poll
60%
40%
不来
Save The Web Project
Niconico 的页游发布平台 Game Atsumaru 将在18小时后关闭, > 希望寻求有带宽、储存条件的志愿者们帮忙操作存档脚本: https://github.com/yts98/game-atsumaru-discovery > 有懂爬取 Unity 的大佬吗?或是跟 Akashic Engine、TyranoBuilder、GameMaker Studio、Tonyu System、Visual Novel Maker打过交道的? > 能帮忙的人愈多愈好。 by @yth98 详情及讨论请至:…
#寻人启事

坏消息, yts98 失踪了(GitHub/IRC/Telegram 已半年未见他上线/活动),并且他还没有将归并后 1.4TB 的 Game Atsumaru 的 warc 上传 IA。

因此,如果 yts98 未来不回来的话,我们可能失去了这部分数据。

———

- 当时 yzqzss 负责的 ID 段的数据在传给 yts98 一个月后就删了。
- 来自 ArchiveTeam 的 thuban 他的本地还有 221GB 数据。(正在上传 IA)
- 当时参与存档项目的 matatabi threedeeitguy 两位还在吗?如果你们本地还保留着当时的 warc 的话就好了。
😢11👍3
Save The Web Project
🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉🎂 Save The Web Project 三岁啦!

大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🥰12👍3
Save The Web Project pinned «🎉🎂 Save The Web Project 三岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
预告接下来的新项目:

Discuz! 存档!

总所周知,Discuz! 是目前中文圈最流行的 BBS 软件。目前的中文互联网,论坛式微是共识,且大家可能常常听到一些上了年纪的论坛“又要倒闭”的新闻,是时候完整存档它们了。

不出意外的话,该项目或与 ArchiveTeam 合作,每个论坛帖子的 url 交给他们打 warc (快照会出现在 Wayback Machine 里)。

让天下没有坏链的公开帖子 xD

<讨论群> 欢迎往群里扔各种论坛的链接。
👍71
R.I.P🤗

Gitee Pages
😁14😭6🤪2👏1
Save The Web Project
R.I.P🤗 Gitee Pages
#如果_GitHub_Pages_倒了

Gitee Pages 倒了是小事,可如果哪天 GitHub 倒了……

我们统计了中文独立博客的总体情况:

saveweb 收录的 1592 个博客中:

 0.1% 在 Gitee pages  上 (gitee.io  域名)
6.5% 在 GitHub pages 上 (github.io 域名)
12.6% 在 GitHub pages 上 (github.io 域名 + DNS 结果是否在 GitHub 的 IP 范围内)


zh-blogs 收录的 3407 个博客中:

0.4% 在 Gitee pages  上 (gitee.io  域名)
4% 在 GitHub pages 上 (github.io 域名)


search.saveweb.org 索引的全部 141723 篇博客文章中:

文章链接是 github.io 的概率: 6.15%
文章链接是 gitee.io 的概率: 0.03%
github.io 外链出现的概率: 4.290%/篇
gitee.io 外链出现的概率: 0.122%/篇


———
结论:
在中文圈,GitHub Pages 流行度约是 Gitee Pages 的 50~200 倍。

注:由于部分博客虽然托管在 GitHub Pages,但用了自己的域名并套了层 Cloudflare CDN,这些博客没有被统计在内。因此实际的 GH Pages 率会比 12.6% 更高。
👍9🥰6