Save The Web Project – Telegram
儿童节快乐!
Happy Children's Day!
🥰8
BiliBili 每日 Top 100 视频存档开始啦!

存档方式为:本地存档+上传 IA 。

目前 100 只视频共:45GiB (更新:换成了 HEVC 优先,总计:20GiB)
考虑到很多视频会留榜数天,实际的每日新增数据量倒是没有这么多。
16👍2
Save The Web Project
BiliBili 每日 Top 100 视频存档开始啦! 存档方式为:本地存档+上传 IA 。 目前 100 只视频共:45GiB (更新:换成了 HEVC 优先,总计:20GiB) 考虑到很多视频会留榜数天,实际的每日新增数据量倒是没有这么多。
不止 top 100 ,只要提供 BV 号(bvid) ,都能存档。

https://github.com/saveweb/biliarchiver

开大会员能下 4k ,强烈推荐各位给叔叔送钱。🌚
现在工具还非常非常原始。欢迎贡献各种渠道获取 bvids.txt 的代码。

有人对这个存档项目感兴趣吗?欢迎 参加开发/成为预备存档员/在评论区留下你觉得有存档价值的[视频/UP主/合集/列表/收藏夹]的链接。
👍4🤔1
Internet Archive 用户请注意,您的帐号 email 是公开的!

你上传的所有 item 的 metadata 中的 uploader 字段均是留的您的 email 地址。
哪怕你没有上传过任何 item ,IA 也会为你创建一个 fav-{username} 的默认 item 。

https://archive.org/metadata/fav-yzqzss 能看到我的邮箱。

#隐私 #提醒 #IA
👏3🤔3
Tubeup 用户请注意

在使用 Tubeup 把视频上传到 IA 存档时,由于 Tubeup 会直接把来自 yt-dlp 的 info.json 文件不经任何脱敏处理就原样上传 IA 。

> info.json 中的 formats 字段中记录着的视频分段资源的 URL、编码、大小以及应该用什么样的 HTTP Headers 去请求资源 URL

而分段资源 URL 中可能有用户的一些个人信息(比如 YouTube 会把你的 ip 嵌入进 URL,B 站则会把用户的 mid 嵌入)。

最危险的是 HTTP Headers 里的 Cookies ,如果你给 Tubeup 导入了 Cookies ,那么你的 Cookies 就有可能出现在 info.json 里!(现在大部分视频网站的主站和视频 CDN 都是跨域,主站的 Cookies 不太可能飞到 CDN ,但是 Tubeup 依赖的 yt-dlp 支持上千个不同的视频平台,哪些真的会泄露也说不一定)

#安全 #隐私 #提醒 #IA #Tubeup
🎉8👍1
🎉🎂 Save The Web Project 两岁啦!

大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉23🥰1
Save The Web Project pinned «🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
目前我们缺自己的基础设施(大流量+大硬盘的服务器、云存储等),导致很多存档项目没有规模化和自动化。毕竟我们一直在 低预算/零预算 下做各种项目,但存档规模不上去,我们的投入产出比就很低,我们各种项目存档的数据加起来可能也没有 10 TiB 。
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。

———

那么,各位大怨种和小可爱哪位手头有长期闲置的 VPS/独服 ,我们想白嫖。(图穷匕见🌚
👍5🥰1
现在遇到个问题,目前上传到 IA 的 identifier 的格式是: BiliBili-{bvid}_p{分P号}

刚好这有两个 bvid 在大小写不严格下完全一样:

BV1tx411c7Vn
BV1tx411c7vn

IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。

hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。

如此, identifier 变成: BiliBili-{bvid}_p{分P号}_{upper_part}

注:bvid 现在都是 "BV" 字符开头,但是未来 B 站可能也会换用其他的字符头,所以"BV"也要原样复制。

那么应该如何处理大写字母呢?
Save The Web Project
那么应该如何处理大写字母呢?
gledos 发现第一种去位复制大写的方法其实有很高的碰撞概率,如:

BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC

第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。

大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 " [A-Z] _ . ", _. 最好避免出现在最后面。

通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
👍2
Media is too big
VIEW IN TELEGRAM
以「YLSBS」为例的 BiliBili 存档操作教程🙈
https://github.com/saveweb/biliarchiver
6
https://bcy.net/item/detail/7243752692219124791
半次元 将于 2023/07/12 停服
正在紧急存档……

!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319

#FourDimensions
1
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。—[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018)

感谢 @OverflowCat投稿

存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly