Save The Web Project – Telegram
Save The Web Project
R.I.P🤗 Gitee Pages
#如果_GitHub_Pages_倒了

Gitee Pages 倒了是小事,可如果哪天 GitHub 倒了……

我们统计了中文独立博客的总体情况:

saveweb 收录的 1592 个博客中:

 0.1% 在 Gitee pages  上 (gitee.io  域名)
6.5% 在 GitHub pages 上 (github.io 域名)
12.6% 在 GitHub pages 上 (github.io 域名 + DNS 结果是否在 GitHub 的 IP 范围内)


zh-blogs 收录的 3407 个博客中:

0.4% 在 Gitee pages  上 (gitee.io  域名)
4% 在 GitHub pages 上 (github.io 域名)


search.saveweb.org 索引的全部 141723 篇博客文章中:

文章链接是 github.io 的概率: 6.15%
文章链接是 gitee.io 的概率: 0.03%
github.io 外链出现的概率: 4.290%/篇
gitee.io 外链出现的概率: 0.122%/篇


———
结论:
在中文圈,GitHub Pages 流行度约是 Gitee Pages 的 50~200 倍。

注:由于部分博客虽然托管在 GitHub Pages,但用了自己的域名并套了层 Cloudflare CDN,这些博客没有被统计在内。因此实际的 GH Pages 率会比 12.6% 更高。
👍9🥰6
谁知道哪儿有服务商提供 10Gbps 对等带宽的便宜服务器,
不计量(或流量单价便宜),没有模糊的 fair use TOS,可以一直占满带宽的那种?


update: 找到了。(<=X0CNY)
👍1
“抽屉网”或将关停。

#慢讯
🙏7🎉1
Save The Web Project
Photo
谁有抽屉账号?方便借借?
🎉5
Save The Web Project
“抽屉网”或将关停。 #慢讯
## 安装

### 使用 pipx

pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti


### 或使用 pip

pip install -U --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple chouti


### 运行

chouti_links # links 元数据

chouti_comments # 评论


(可以同时运行 links 和 comments)

(另:如果您用 Docker,可以考虑使用 --tty 参数
👍3
Save The Web Project
## 安装 ### 使用 pipx pipx install --force --index-url https://git.saveweb.org/api/packages/saveweb/pypi/simple/ --pip-args='--extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple' chouti ### 或使用 pip pip install -U --index-url https://git.saveweb.org/…
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。
QoS 暂时调到 1T/s。
(20240529 16:19 updated: 又调回 4T/s 了)

也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
🤯6
Save The Web Project
可能有内存泄漏,平均每完成一个任务,可能会漏 0.2~0.7KB 内存。 QoS 暂时调到 1T/s。 (20240529 16:19 updated: 又调回 4T/s 了) 也请正在运行的朋友回报一下你的内存占用、运行时间、完成的任务数量。
昨天 profile 了一整天,python 级别的内存很稳定,objs 数量和大小在几个小时内都很稳定,没明显发现哪里有泄漏。gc.get_objects() 最多也就拿到了总共20MB对象,但 rss 就是在缓慢上升到几百MB,让人摸不着头脑。

最后发现竟是 cpython _ssl 之下的锅,Python GC 销毁 Python Level 的 SSLContext 后,SSLContext 对应的 C Level 的不受 Python 管理的由 OpenSSL malloc 的内存并没有全部还给系统。(不是内存泄漏,不会 OOM,系统内存不足时会回收这些碎片内存
https://github.com/python/cpython/issues/84904

所以:
我们并发很高 -> 频繁摧毁/建立 SSLContext -> BOOM
———

更新了脚本,现在每分钟会 malloc_trim 一次内存占用应该不会飘高了

———
update: 内存碎片化程度过高,malloc_trim 只能收回大部分碎片缓解问题,匿名页还是在涨,只要时间够,仍然会 OOM。
update: 实验了各种 jemalloc tcmalloc mimalloc,问题仍然没解决。
update: 社区有人说 asyncio + ssl 一直以来有各种大大小小的问题。
👍8
Save The Web Project
“抽屉网”或将关停。 #慢讯
放图片的域名在大约一天前离线了。
chouti_links 已完成,谢谢大家。

(快来跑 chouti_comments
🥰5👏1
乐,咱们的服务器要被各位打爆乐。

trackers 处理的请求: ~3600q/s
数据库:insert 1.1k ops, command 1.3k ops, delete 0.1k ops, get 1.2k ops

冲冲冲,勇敢向前冲.jpg
争取 24h 内完成!

(请跑 chouti_comments 的各位酌情更新 1.3.3 版本,处理了 unkown response: [])
😁12🌚4
在跑 1.3.0/1.3.1/1.3.2 的可以停了,停了会加快其它跑 1.3.3 的收尾的速度。
目前队列里还有四百万任务需要 1.3.3 处理。
咱做好人,别抢跟新版本抢任务,误。
👍21
chouti_comments 已完成,感谢大家的热情参与!
👍83
Save The Web Project
Photo
抽屉删除了 2014 年 7 月 14 日前的所有link。(约 6,150,407 篇)
在总计 42,468,932 个 links 中,至今仍存在的仅有 13,623,632 个。

采样发现,抽屉近几年几乎没有删过 link,可能是由于运营状况恶化而放松了内容把控?

评论采样结果也很有趣,近一年似乎没有删过评论。
5
今天是国际档案日。
🥰13👍5
最近那篇说中文互联网寄了的微信文章很火,我们想用实测说话。🫠🫠
大家好,请帮助我们测量 2014 年(十年前)的中文互联网资讯类链接的腐烂情况。

https://docs.google.com/spreadsheets/d/16XX9E6iUxWbWXoZNl7W_VJntL3aGSoX0hL76GJnZTyo/edit?usp=sharing

目前有 8k+ 抽样链接,但统计结果收敛之后就停。
6