Save The Web Project
画吧的域名 haowanlab.com 过期了,被阿里云拿去竞拍,最终成交价拍出了 5210 元。 这域名有这么值钱吗。我不理解,震撼。 有没有域名玩家给大家解释一下?
刚给画吧老板打了电话让他注意注销 ICP 备案以防域名被接盘侠滥用而背锅。
这应该是最后一次帮画吧了。
R.I.P.
R.I.P.
👍28
Save The Web Project
STWP 2025 第 19 周周报 本周的产量同样稀少,记一点流水账吧。 - 用 Go 重写了两年前写的 https://github.com/saveweb/fdroidswh 小玩意,用于跟踪 F-Droid Repo 的应用更新,将源代码仓库推送到 SWH 存档。 https://service-fdroidswh.saveweb.org/ - 响应了 6 个画吧备份导出请求。 - dokuwiki dumper 小重构 WIP: https://github.com/saveweb/dokuwiki…
STWP 2025 20 至 25 周,合并周报。
过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。
week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。
week 23
https://github.com/internetarchive/Zeno/pull/324 小小地引入标准 css 解析器,替换掉原本简陋的容易产生误报的正则提取方式。 (CSS 1/3)
week 24
None
week 25
- https://github.com/Crossbell-Box/xLog/pull/2230 前几周惊人地发现 xLog 上的一半的新文章是 spam,于是打标然后跑了个简单的 TF-IDF 分类器来识别 spam 账号。这周把识别结果人工检查了一下,把 spam 账号列表发给 xLog。
- https://github.com/internetarchive/Zeno/pull/339 支持提取 CSS 的 @import 链接。(CSS 2/3)
- https://github.com/internetarchive/Zeno/pull/345 完整支持解析 html 嵌入和引用的 css 资源。同时,发现上游的 css parser 不支持 CSS Nesting 和未适配“现代” css 语法。由于没有精力给上游修bug,因此写了个更鲁棒的正则来作为 parser 失败时的 fallback parser 当作 workaround。 (CSS 3/3)
- https://github.com/microsoft/vscode-css/pull/43 在 debug CSS 的过程中发现 VSC 自带的 CSS 高亮也没适配11年前的“新”语法标准。@overflowcat 得知后刷了一个 PR 。
- https://github.com/internetarchive/Zeno/pull/353 改善了对 GitHub Issue 页面的存档效果。
- 向 Zeno 添加 Headless/Headfull 存档功能(进行中)
这几周看 w3c 和 whatwg 都要看吐了,之后会发点关于 CSS、浏览器、URL、HTML、编码 之类的小故事。
过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。
week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。
week 23
https://github.com/internetarchive/Zeno/pull/324 小小地引入标准 css 解析器,替换掉原本简陋的容易产生误报的正则提取方式。 (CSS 1/3)
week 24
None
week 25
- https://github.com/Crossbell-Box/xLog/pull/2230 前几周惊人地发现 xLog 上的一半的新文章是 spam,于是打标然后跑了个简单的 TF-IDF 分类器来识别 spam 账号。这周把识别结果人工检查了一下,把 spam 账号列表发给 xLog。
- https://github.com/internetarchive/Zeno/pull/339 支持提取 CSS 的 @import 链接。(CSS 2/3)
- https://github.com/internetarchive/Zeno/pull/345 完整支持解析 html 嵌入和引用的 css 资源。同时,发现上游的 css parser 不支持 CSS Nesting 和未适配“现代” css 语法。由于没有精力给上游修bug,因此写了个更鲁棒的正则来作为 parser 失败时的 fallback parser 当作 workaround。 (CSS 3/3)
- https://github.com/microsoft/vscode-css/pull/43 在 debug CSS 的过程中发现 VSC 自带的 CSS 高亮也没适配11年前的“新”语法标准。@overflowcat 得知后刷了一个 PR 。
- https://github.com/internetarchive/Zeno/pull/353 改善了对 GitHub Issue 页面的存档效果。
- 向 Zeno 添加 Headless/Headfull 存档功能(进行中)
这几周看 w3c 和 whatwg 都要看吐了,之后会发点关于 CSS、浏览器、URL、HTML、编码 之类的小故事。
❤8🥰2
Save The Web Project
STWP 2025 20 至 25 周,合并周报。 过去一个月是期末,没时间。现在好久没发周报了,快速过一下最近5周做了啥。主要做的事是 Zeno,没有开其它存档项目。 week 20-21 https://github.com/internetarchive/Zeno/pull/281 稍微重构 Zeno 处理对象存储的代码,添加解析 Azure Blob 的能力。 https://github.com/internetarchive/Zeno/pull/295 让 Zeno 终端输出的日志变彩色。…
STWP 2025 26 周周报
还是全是 Zeno 。
- https://github.com/internetarchive/Zeno/pull/356 Headless/Headfull 存档 PR 发了,PR 仍在 WIP。(测试可以存档知乎专栏!)
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML,PR 仍在 WIP 。
- https://github.com/internetarchive/Zeno/pull/369 加了丢弃超过指定 payload 大小的响应的功能。
- https://github.com/internetarchive/gowarc/pull/115 主要是修了 gowarc 在上层的 HTTP TCP Conn 出现异常关闭时 (early EOF, io timeout, conn closed/reset),由于没有向下 .CloseWithError(),而是调用常规的 .Close(),导致下层的 MITM 套娃 HTTP TCP Conn 以为是正常 EOF,最终导致,对于没有 Content-Length 头的流式响应,这类 early EOF 的响应被当成正常响应而被写入了 WARC 存档中。(而对于更常见的非流式响应,由于存在 Content-Length,即使 early EOF 仍然被当成了正常 EOF,但是由于 go 的 http 标准库的 http.ReadRespon() 会用 io.LimitReader 来组装 Response.Body ,这样的 Response.Body 会自己做一次额外的 EOF 位置与 Content-Length 位置的匹配检查,如果不匹配会返回 early EOF。换句话说,这 BUG 在大部分情况下被标准库缓解了导致我们没发现。)。然后还修了 Conn.SetReadDeadline() 木有生效、临时文件泄漏的问题。
还是全是 Zeno 。
- https://github.com/internetarchive/Zeno/pull/356 Headless/Headfull 存档 PR 发了,PR 仍在 WIP。(测试可以存档知乎专栏!)
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML,PR 仍在 WIP 。
- https://github.com/internetarchive/Zeno/pull/369 加了丢弃超过指定 payload 大小的响应的功能。
- https://github.com/internetarchive/gowarc/pull/115 主要是修了 gowarc 在上层的 HTTP TCP Conn 出现异常关闭时 (early EOF, io timeout, conn closed/reset),由于没有向下 .CloseWithError(),而是调用常规的 .Close(),导致下层的 MITM 套娃 HTTP TCP Conn 以为是正常 EOF,最终导致,对于没有 Content-Length 头的流式响应,这类 early EOF 的响应被当成正常响应而被写入了 WARC 存档中。(而对于更常见的非流式响应,由于存在 Content-Length,即使 early EOF 仍然被当成了正常 EOF,但是由于 go 的 http 标准库的 http.ReadRespon() 会用 io.LimitReader 来组装 Response.Body ,这样的 Response.Body 会自己做一次额外的 EOF 位置与 Content-Length 位置的匹配检查,如果不匹配会返回 early EOF。换句话说,这 BUG 在大部分情况下被标准库缓解了导致我们没发现。)。然后还修了 Conn.SetReadDeadline() 木有生效、临时文件泄漏的问题。
👍2
Save The Web Project
Photo
STWP 2025 28 至 30 周,合并周报
- https://github.com/internetarchive/Zeno/pull/356 Headless/Headful 终于做好了。
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML+URL 也做好了。
- 修了两个小 bug
- https://github.com/internetarchive/Zeno/pull/403 加上了第一个 e2e 测试。
- https://github.com/internetarchive/Zeno/pull/376 加了 Window 二进制构建,但实际上并不能用。用来忽悠 Windows 用户。
- https://github.com/internetarchive/Zeno/pull/374 纯 Go 崛起失败。
- https://github.com/internetarchive/Zeno/pull/356 Headless/Headful 终于做好了。
- https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML+URL 也做好了。
- 修了两个小 bug
- https://github.com/internetarchive/Zeno/pull/403 加上了第一个 e2e 测试。
- https://github.com/internetarchive/Zeno/pull/376 加了 Window 二进制构建,但实际上并不能用。用来忽悠 Windows 用户。
- https://github.com/internetarchive/Zeno/pull/374 纯 Go 崛起失败。
❤3🥰3🤬2 1
Save The Web Project
F**K YOU GOOGLE
Google 改主意了,计划只删“非活跃”的 goo.gl 链接,其它保留。
https://blog.google/technology/developers/googl-link-shortening-update/
但还保留多久呢?肯定不会一直保留下去吧?
总之,所有短链服务都是**。
https://blog.google/technology/developers/googl-link-shortening-update/
但还保留多久呢?肯定不会一直保留下去吧?
总之,所有短链服务都是**。
Save The Web Project
STWP 2025 28 至 30 周,合并周报 - https://github.com/internetarchive/Zeno/pull/356 Headless/Headful 终于做好了。 - https://github.com/internetarchive/Zeno/pull/370 解析非 UTF-8 的 HTML+URL 也做好了。 - 修了两个小 bug - https://github.com/internetarchive/Zeno/pull/403 加上了第一个 e2e 测试。…
STWP 2025 第 31 周周报
- 修了 wikiteam3 的两个 bug
- 重构了 dokuwiki dumper
- Zeno headless PR (1) (1) (1)😭
- 修了 wikiteam3 的两个 bug
- 重构了 dokuwiki dumper
- Zeno headless PR (1) (1) (1)
Please open Telegram to view this post
VIEW IN TELEGRAM
GSoC 还有几天就要结束了,要在 2025-09-02 2:00 UTC+8 前把作业交给 Google。
交作业前打了份草稿,请大家锐评一下。
https://blog.save-web.org/blog/2025/08/31/gsoc-2025-final-report-zh/
交作业前打了份草稿,请大家锐评一下。
https://blog.save-web.org/blog/2025/08/31/gsoc-2025-final-report-zh/
Save The Web Project
混乱Web,无头存档,开源拖拉机——2025 GSoC 最终报告
夏天夏天悄悄过去,今年的 Google 编程之夏(Google Summer of Code, GSoC)即将结束,是时候赶在 DDL(9月2日)前写这份最终报告了。
❤6👾2
Save The Web Project
STWP 2025 第 31 周周报 - 修了 wikiteam3 的两个 bug - 重构了 dokuwiki dumper - Zeno headless PR (1) (1) (1)😭
STWP 2025 第 32 至 35 周合并周报
跳过。
跳过。
晚上好,感谢Google感谢IA感谢WBM感谢群友感谢猫。
现在我购得了新玩具:磁带库(4U,可装48盘)。目前装有一个L6的磁带机。
磁带库真好玩。
现在我购得了新玩具:磁带库(4U,可装48盘)。目前装有一个L6的磁带机。
磁带库真好玩。
❤13🆒5😭3