Save The Web Project – Telegram
STWP 2024 Week 47 Weekly Report

> Say HELLO to our international friends (especially ArchiveTeam)!

A month ago, @OrIdow6 told us that he was working on a translation bridge for STWP:

[...] I'd like to bring knowledge of it to, and potentially foster collaboration with, English speakers; [...] set up a unidirectional chat bridge from the STWP Telegram channels to IRC? It would be run through a machine translator [...]


Now that the IRC channel is set up: #stwp-chat:hackint.org

Messages in @saveweb_chat are continuously being machine translated and forwarded to IRC.

(Messages are currently delayed by 30 minutes before being forwarded due to Telegram-side messages can be edited multiple times, and the t2bot.io public Telegram-Matrix Bridge sometimes delays and reorders messages)

Thanks to OrIdow6 for his efforts on this bridge, he spent so long tweaking it.

As a first result of the bridge connection, our box.saveweb.org RSS aggregation was discovered by ArchiveTeam guys.🙈 So, New posts in the aggregation are now ingested hourly into the #// project for archiving intime. (We don't need to call SPN API to archive these anymore! :D)
👍52
https://huggingface.co/datasets/alpindale/two-million-bluesky-posts

啥?数据集里才两百万条帖子?大家根本不用慌好吧,肯定是抽样数据。
随便网上找个非全球性的、小有名气的、垂直领域的社交媒体,哪个没有千万起步的帖子量的。

还有人不知道任何人都能订阅 Bluesky 全站事件吗(这TM才是开放的互联网!
(群友谁来做个亿级的数据集,吓死业界。)

#玩笑 上下文
👍2
STWP 2024 第 47 周周报

None.
👍5
Save The Web Project
STWP 2024 第 47 周周报 None.
STWP 2024 第 48 周周报

- Bilibili 字幕投毒
我们发现 Bilibili 开始在视频字幕 API 里投毒。目前如果不预先访问视频详情(网页/API)或者不做 wbi 签名,字幕 API 会返回随机的驴头不对马嘴的别的视频的字幕。
投毒具体开始时间尚不清楚,至少一个月前就存在这情况了。
也就是说,我们过去一个月存的 10k 多个视频的字幕都需要消毒。

- goo.gl 新进展
前段时间,“一位不可思议、了不起、才华横溢的志愿者”(看懂这个梗的掌声)ーー @prnake 联系了我们,带来了从 GitHub 镜像里提取出的 goo.glpage.link 链接,去重后,新增了 485966 个有效链接。

- 复活 SkinMe Mod
> SkinMe 是曾非常流行的盗版 Minecraft 皮肤站,不过早已停止服务。
@catme0w 发现 SkinMe Mod 内置了一些 fallback 服务,可惜当年的 fallback 服务们现在也都挂了,不过其中有两个已过期域名可注册。于是买下了它两并将请求重定向到 mojang 和现存的皮肤站。[repo]

- 其它项目都是小修小补,不在此列出。
👏243🥰1
Forwarded from tacwolfrevo
数据库设计越差,我们越开心
🐳18
Save The Web Project
STWP 2024 第 49 周周报 - AcFun AcFun 视频下载器已经写好了。等搓好 IA S3 上传库,就可以开始存档远古的 AcFun 视频了。
STWP 2024 第 50 周周报

- 小鸡词典
小鸡词典撑了几年还是撑不住了,官宣解散

- 某新兴板聊APP
本来只是觉得好玩然后想存它,结果发现它数据库的 row security polices (Row Level Security) 有逻辑问题,所以在此不公布APP的名字。三天前就把问题电邮给开发者了,中途又通过其他渠道尝试反馈了,但都没有收到回复,问题也一直没修……

---

接下来三周 STWP 放假,没有周报。
👍71
我宣佈:從今天開始,STWP 放假三週!
🥰18👏3
Save The Web Project
我宣佈:從今天開始,STWP 放假三週!
虽然放假了,但是作业还是要收。

各位同学请把 2024 年的作业提交到 saveweb/review-2024 ,谢谢。🥰
不交也不會受到任何處分。🙂
🥰8
Save The Web Project
- 某新兴板聊APP
答案揭晓,此APP是:対多 - 偽中国語掲示板

漏洞现已修复。
17
Save The Web Project
答案揭晓,此APP是:対多 - 偽中国語掲示板 漏洞现已修复。
主要有 posts 和 comments 两个表。(还有个 users 表,不过权限限得很死)

用户只能删除由自己创建的 post (if post.created_by == <user>.id),没毛病。(comment 同理)

但是它没有限制用户 update 别人的 post 或 comment,所以可以把别的 post/comment 的 created_by 改成自己。然后就能删任意帖子了。

——

用 PostgREST 这类中间件,让客户端直通数据库时要注意权限设计啊!毕竟没有传统意义上的“后端”来隔离客户端与数据库了。
🤯22
This media is not supported in your browser
VIEW IN TELEGRAM
🥰7🎉2
上个月存了 4 万个 BiliBili VOCAL 视频。🤩
11