Save The Web Project – Telegram
STWP 2025 第 13 周周报

- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙

预告:第 19 周周报时会提及 11~13 周发生的趣事。
2023/5/28 17:12
# [PyPI] Your request for a new organization named 'saveweb' has been submitted

2025/4/1 05:43
# [PyPI] Your new organization named 'saveweb' has been approved and created

两年过去了,我们在 PyPI 上的组织申请竟然通过了。
现在包都迁过去了。
6🔥1
回顾一下,组织功能是在 2023-04-23 推出的,我们是在 2023-05-28 申请的。

https://blog.pypi.org/posts/2023-04-23-introducing-pypi-organizations/
Get started today

Both community projects (non-profits, NGO’s, hobbyists, etc) and corporate teams can sign up to request their organization name starting today. Submissions will begin seeing review and approval in the coming weeks, and corporate teams will be able to finalize their signup with billing details in May.


也就等了 97 周而已,不多。🫠
🌚8😁3
两个 abusers:
1.
chatId: tg://user?id=5202245475 , fromUser: 'Dual'

这谁?滥用我们的公共 bot 向 IA 上传了500多个宅舞视频。已封禁该 Telegram 用户。这用户看起来还是小号,没有在任何公开群出现过。

2. https://archive.org/details/@anonymous_internet_archive_member
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧。

无话可说了。🤬🤬
😢15🤬6💊5
Save The Web Project
这又是谁?往 IA 上传了 800 多个“战斗吧歌姬”的直播录播,还在持续上传。这完全是滥用,等着被封号吧
平均一个录播 10G,你传了 800 个,总共 8T+。IA 每个 item 会有一个备份。也就是说你用掉了 16TiB 实际存储。

我们迄今为止整个 bilibili_videos 合集近 10 万个视频才不到 10TB。

这两位你好自为之。
Save The Web Project
实时推送已被存档的 BiliBili 视频: https://news.1rj.ru/str/+ibNyu3ZpXeJlMzU1
Bot已改造,实时 log 已开启,后续所有请求均会在该频道留档
Forwarded from tacwolfrevo
前端猫抬头看看天空说:“如果世界真象这天空这么安静就好了,但是就有一些爬虫,象Zeno,要搞乱这个新世界,他们是罪人。”说着,前端猫低下脑壳,从云焰里扒拉出一颗WAF,然后看着天空说:“该死的存档佬。”说着他把WAF奋力向上一掷。很快就见一颗机器突然爆发出耀眼的强光,然后就坠落下来。“这是IA的间谍机器,他们一直在新世界的大门前盘旋,侵犯我们的著作权,我已经忍了很久了。”前端猫愤愤地说。小朋友们都鼓起掌来,为前端有这样的程序员感到自豪。
🤣27😐2🌚1
喜报!

历经 5 个月的打磨,Zeno v2 的 PR 合并了。

https://github.com/internetarchive/Zeno/pull/166
9👏3🔥2
大家知道哪些还在用非主流编码的网站?(如 gbk、shift jis等,不局限于中文编码)

在处理非 utf8 的 html,找点现实例子做测试参考。👀
以防万一,建议各位备份一下自己的 GitHub repo。

ref: https://github.com/orgs/community/discussions/156515
update: https://www.githubstatus.com/incidents/jfvgcls9swln
😱15
凯露酱的朋友圈
妈的 起猛了 邓丽君发新歌了
All of these works were republished, rerecorded, or re-performed to great acclaim. What was lost was found. Small individual acts of care, spread over generations, led to their survival and rediscovery. The digital versions of these miracles can and will happen. One day, someone will find the flash drive on the ransacked floor of a house, the forgotten server in the ruin of a data center, the file in the bowel of a database. It will matter. Even if their contents had been damaged or forgotten, actions of previous care can bear fruit decades later. They are the difference between recovery and despair.


from: https://lil.law.harvard.edu/century-scale-storage/
平平无奇的三周。

STWP 2025 第 14 周周报

- 尝试了在 linux 上操作磁带机、使用 ltfs @yangyunfei @yzqzss
- 同步了部分 chinaxiv pdf

STWP 2025 第 15 周周报
- 鼓捣 MeiliSync @Ovler

STWP 2025 第 16 周周报
- c2025-4 @Ovler
🥰4
Save The Web Project
🎉🎂 Save The Web Project 三岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉🎂 Save The Web Project 四岁啦!

回顾过去 365 天,我们干了:

- Discuz!,代码完成度很低,项目目前挂起。
- 抽屉网,完成。
- 发现了个 GitHub 的小漏洞。
- AcFun 弹幕,完成。
- cnblogs,仅预扫描,目前挂起。
- googl 短链,完成。
- 参与开发 Zeno。
- backland,追踪中。
- AcFun 存档器,完成。
- 发现了个“对多”的数据库小漏洞。
- 对多,追踪中。
- 丑搜 v3,完成。
- NicoNico Shunga,完成。
- c2025-1,追踪中。
- c2025-2,追踪中。
- 竹白,完成。
- c2025-4,完成。


好多过往的项目还是挂起,好多立项的项目仍然没有动静。也没启动任何大规模的存档项目。

开坑一时爽,填坑火葬场。

上一次新成员加入是 360 天前。过去 365 天,我们就 4 位还在蹦跶的 coder,也都木有啥空闲时间填坑。为避免废社危机,现诚招新 coder 一起玩。😭

要求:
- 会 Python 或 Golang
- 写过爬虫或做过存档相关的事情。(可选)
- 非编程纯新手,本体不是 AI。

有意私聊
🔥93😁1🫡1
Save The Web Project pinned «🎉🎂 Save The Web Project 四岁啦! 回顾过去 365 天,我们干了: - Discuz!,代码完成度很低,项目目前挂起。 - 抽屉网,完成。 - 发现了个 GitHub 的小漏洞。 - AcFun 弹幕,完成。 - cnblogs,仅预扫描,目前挂起。 - googl 短链,完成。 - 参与开发 Zeno。 - backland,追踪中。 - AcFun 存档器,完成。 - 发现了个“对多”的数据库小漏洞。 - 对多,追踪中。 - 丑搜 v3,完成。 - NicoNico Shunga,完成。…»
https://news.1rj.ru/str/boost/saveweb
各位 Telegram Premium 帮忙砍一刀,把频道升到 Level 3。我试试开启频道自动翻译功能。😂

update: 开了
12
存档误入深水区——If Summer is calling us

去年我在寻 Golang 写的 WARC archiver,然后发现了 Zeno。把玩一番,发现些问题,然后发 PR 修,慢慢就参与进去了。

两个月前,突然时不时蹦出些非 web archiving 领域相关的 GitHub 账号跑来 Zeno 这个冷门项目发奇怪的 issue 和 PR。我一开始还以为是啥新型社工攻击,问了开发者才知道是因为 Google Summer of Code,所以人们跑过来套磁。

定睛一看,果然 Zeno 在 Internet Archive 今年 Google Summer of Code 的预定范围内。
以前只说过但没了解过 GSoC ,它 FAQ 说,只要是18+在校生或者开源新手,就可以写份关于你想要做的项目的提案(proposal)申请参加。

然后再一瞅,什么,参加 GSoC 竟然有钱拿!如果人在中国,成功结项能拿到 3600$ 津贴(GSoC 根据各国的「人均平价购买力」来决定津贴数额,并设有上下限)。这下必须狠狠参加了。😂

于是我也交了份提案,内容主要是说做 Headless archiving、修 CSS parser、修现有 issue、写个类似 httpbin 的 dummy site 方便做 E2E 测试。

https://summerofcode.withgoogle.com/programs/2025/projects/afDanpOP

提交提案之后就是一个多月漫长的等待了,这期间也没完全闲着,糊了些PR。

GSoC 竞争还是挺激烈的,今年总共 13k 申请人,最终被接受的只有 1.2k。今年和我一同被入选 IA 的 GSoC contributor 只有 5 位。

这周联系上了我的 GSoC 项目导师,进了 IA 的 Slack 旁观了他们开周会,很酷,竟然看到了 Brewster Kahle 出现。🤩

又能做存档,又能线上观摩 IA,又能搓代码,还有米。接下来,就是要在这个暑假把提案给实现,通过中期和最终评估。

感谢 Google。虽然 Google 过去一年杀死了 goo.gl 短链、关闭了搜索快照。😅
感谢 Zeno 的开发者 CorentinB
感谢 @Ovler 检查我的 proposal 。
感谢 IA 。

这个夏天我们直接原地起飞。
🔥505👍21