Save The Web Project – Telegram
Please open Telegram to view this post
VIEW IN TELEGRAM
Save The Web Project
现在我们可为画吧的画师提供备份导出。 流程见: https://wiki.saveweb.org/画吧:takeout
画吧的域名 haowanlab.com 过期了,被阿里云拿去竞拍,最终成交价拍出了 5210 元。

这域名有这么值钱吗。我不理解,震撼。
有没有域名玩家给大家解释一下?
今天(6月9日)是国际存档日(International Archives Day)
22
Save The Web Project
STWP 2025 第 19 周周报 本周的产量同样稀少,记一点流水账吧。 - 用 Go 重写了两年前写的 https://github.com/saveweb/fdroidswh 小玩意,用于跟踪 F-Droid Repo 的应用更新,将源代码仓库推送到 SWH 存档。 https://service-fdroidswh.saveweb.org/ - 响应了 6 个画吧备份导出请求。 - dokuwiki dumper 小重构 WIP: https://github.com/saveweb/dokuwiki…
STWP 2025 20 至 25 周,合并周报。

过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。

week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。

week 23
https://github.com/internetarchive/Zeno/pull/324 小小地引入标准 css 解析器,替换掉原本简陋的容易产生误报的正则提取方式。 (CSS 1/3)

week 24
None

week 25
- https://github.com/Crossbell-Box/xLog/pull/2230 前几周惊人地发现 xLog 上的一半的新文章是 spam,于是打标然后跑了个简单的 TF-IDF 分类器来识别 spam 账号。这周把识别结果人工检查了一下,把 spam 账号列表发给 xLog。
- https://github.com/internetarchive/Zeno/pull/339 支持提取 CSS 的 @import 链接。(CSS 2/3)
- https://github.com/internetarchive/Zeno/pull/345 完整支持解析 html 嵌入和引用的 css 资源。同时,发现上游的 css parser 不支持 CSS Nesting 和未适配“现代” css 语法。由于没有精力给上游修bug,因此写了个更鲁棒的正则来作为 parser 失败时的 fallback parser 当作 workaround。 (CSS 3/3)
- https://github.com/microsoft/vscode-css/pull/43 在 debug CSS 的过程中发现 VSC 自带的 CSS 高亮也没适配11年前的“新”语法标准。@overflowcat 得知后刷了一个 PR 。
- https://github.com/internetarchive/Zeno/pull/353 改善了对 GitHub Issue 页面的存档效果。
- 向 Zeno 添加 Headless/Headfull 存档功能(进行中)

这几周看 w3c 和 whatwg 都要看吐了,之后会发点关于 CSS、浏览器、URL、HTML、编码 之类的小故事。
8🥰2
Save The Web Project
STWP 2025 20 至 25 周,合并周报。 过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。 week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。…
STWP 2025 26 周周报

还是全是 Zeno 。

- https://github.com/internetarchive/Zeno/pull/356 Headless/Headfull 存档 PR 发了,PR 仍在 WIP。(测试可以存档知乎专栏!)
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML,PR 仍在 WIP 。
- https://github.com/internetarchive/Zeno/pull/369 加了丢弃超过指定 payload 大小的响应的功能。
- https://github.com/internetarchive/gowarc/pull/115 主要是修了 gowarc 在上层的 HTTP TCP Conn 出现异常关闭时 (early EOF, io timeout, conn closed/reset),由于没有向下 .CloseWithError(),而是调用常规的 .Close(),导致下层的 MITM 套娃 HTTP TCP Conn 以为是正常 EOF,最终导致,对于没有 Content-Length 头的流式响应,这类 early EOF 的响应被当成正常响应而被写入了 WARC 存档中。(而对于更常见的非流式响应,由于存在 Content-Length,即使 early EOF 仍然被当成了正常 EOF,但是由于 go 的 http 标准库的 http.ReadRespon() 会用 io.LimitReader 来组装 Response.Body ,这样的 Response.Body 会自己做一次额外的 EOF 位置与 Content-Length 位置的匹配检查,如果不匹配会返回 early EOF。换句话说,这 BUG 在大部分情况下被标准库缓解了导致我们没发现。)。然后还修了 Conn.SetReadDeadline() 木有生效、临时文件泄漏的问题。
👍2
STWP 2025 27 周周报

这周啥也没干,给大家看看猫猫吧/
🥰156🤪1
Forwarded from Programmer Jokes
17
Save The Web Project
Photo
STWP 2025 28 至 30 周,合并周报

- https://github.com/internetarchive/Zeno/pull/356 Headless/Headful 终于做好了。
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML+URL 也做好了。
- 修了两个小 bug
- https://github.com/internetarchive/Zeno/pull/403 加上了第一个 e2e 测试。
- https://github.com/internetarchive/Zeno/pull/376 加了 Window 二进制构建,但实际上并不能用。用来忽悠 Windows 用户。
- https://github.com/internetarchive/Zeno/pull/374 纯 Go 崛起失败。
3🥰3🤬21
Save The Web Project
F**K YOU GOOGLE
Google 改主意了,计划只删“非活跃”的 goo.gl 链接,其它保留。

https://blog.google/technology/developers/googl-link-shortening-update/

但还保留多久呢?肯定不会一直保留下去吧?
总之,所有短链服务都是**。
16
不要乱说,V8 和 SpiderMonkey 一直是这个速度,🌐🌐🌐很难的,有时候找找自己原因,这么多年了换没换硬件,有没有跟上🕸革命的脚步?

点我👀⬅️💻🌄💪
Please open Telegram to view this post
VIEW IN TELEGRAM
20
https://css-loop.saveweb.org/

凡最终加载此网页者,奖一块华为手表。
8
晚上好,感谢Google感谢IA感谢WBM感谢群友感谢猫

现在我购得了新玩具:磁带库(4U,可装48盘)。目前装有一个L6的磁带机。

磁带库真好玩。
13🆒5😭3