Save The Web Project
不止 top 100 ,只要提供 BV 号(bvid) ,都能存档。 https://github.com/saveweb/biliarchiver 开大会员能下 4k ,强烈推荐各位给叔叔送钱。🌚 现在工具还非常非常原始。欢迎贡献各种渠道获取 bvids.txt 的代码。 有人对这个存档项目感兴趣吗?欢迎 参加开发/成为预备存档员/在评论区留下你觉得有存档价值的[视频/UP主/合集/列表/收藏夹]的链接。
太多搞笑视频了……
目前从排行榜存档的视频里,大半是存档价值低的搞笑视频,竖屏短视频居多。
果然如
目前从排行榜存档的视频里,大半是存档价值低的搞笑视频,竖屏短视频居多。
[图1]果然如
BV1fm4y1r7E6 所说 [图2][图3],B 站本质上就是一个搞笑网站。👍🤡16👍6
Tubeup 用户请注意
在使用 Tubeup 把视频上传到 IA 存档时,由于 Tubeup 会直接把来自 yt-dlp 的 info.json 文件不经任何脱敏处理就原样上传 IA 。
> info.json 中的 formats 字段中记录着的视频分段资源的 URL、编码、大小以及应该用什么样的 HTTP Headers 去请求资源 URL
而分段资源 URL 中可能有用户的一些个人信息(比如 YouTube 会把你的 ip 嵌入进 URL,B 站则会把用户的 mid 嵌入)。
最危险的是 HTTP Headers 里的 Cookies ,如果你给 Tubeup 导入了 Cookies ,那么你的 Cookies 就有可能出现在 info.json 里!(现在大部分视频网站的主站和视频 CDN 都是跨域,主站的 Cookies 不太可能飞到 CDN ,但是 Tubeup 依赖的 yt-dlp 支持上千个不同的视频平台,哪些真的会泄露也说不一定)
#安全 #隐私 #提醒 #IA #Tubeup
在使用 Tubeup 把视频上传到 IA 存档时,由于 Tubeup 会直接把来自 yt-dlp 的 info.json 文件不经任何脱敏处理就原样上传 IA 。
> info.json 中的 formats 字段中记录着的视频分段资源的 URL、编码、大小以及应该用什么样的 HTTP Headers 去请求资源 URL
而分段资源 URL 中可能有用户的一些个人信息(比如 YouTube 会把你的 ip 嵌入进 URL,B 站则会把用户的 mid 嵌入)。
最危险的是 HTTP Headers 里的 Cookies ,如果你给 Tubeup 导入了 Cookies ,那么你的 Cookies 就有可能出现在 info.json 里!(现在大部分视频网站的主站和视频 CDN 都是跨域,主站的 Cookies 不太可能飞到 CDN ,但是 Tubeup 依赖的 yt-dlp 支持上千个不同的视频平台,哪些真的会泄露也说不一定)
#安全 #隐私 #提醒 #IA #Tubeup
🎉8👍1
🎉🎂 Save The Web Project 两岁啦!
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉23🥰1
Save The Web Project pinned «🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
目前我们缺自己的基础设施(大流量+大硬盘的服务器、云存储等),导致很多存档项目没有规模化和自动化。毕竟我们一直在 低预算/零预算 下做各种项目,但存档规模不上去,我们的投入产出比就很低,我们各种项目存档的数据加起来可能也没有 10 TiB 。
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位大怨种和小可爱哪位手头有长期闲置的 VPS/独服 ,我们想白嫖。(图穷匕见)🌚
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位
👍5🥰1
现在遇到个问题,目前上传到 IA 的 identifier 的格式是: BiliBili-{bvid}_p{分P号}
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
那么应该如何处理大写字母呢?
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
BiliBili-{bvid}_p{分P号}_{upper_part}
(注:bvid 现在都是 "BV" 字符开头,但是未来 B 站可能也会换用其他的字符头,所以"BV"也要原样复制。)那么应该如何处理大写字母呢?
那么应该如何处理大写字母呢?
Final Results
11%
BV1HP411D7Rj -> BVHPDR
11%
BV1HP411D7Rj -> BV_HP___D_R_
22%
其他
56%
查看投票
Save The Web Project
那么应该如何处理大写字母呢?
gledos 发现第一种去位复制大写的方法其实有很高的碰撞概率,如:
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
[A-Z] _ . ", _ 和 . 最好避免出现在最后面。通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
👍2
https://bcy.net/item/detail/7243752692219124791
半次元 将于 2023/07/12 停服
正在紧急存档……
!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319
#FourDimensions
半次元 将于 2023/07/12 停服
正在紧急存档……
!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319
#FourDimensions
❤1
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。——[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018)
感谢 @OverflowCat 的投稿。
存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly
感谢 @OverflowCat 的投稿。
存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly
Save The Web Project
https://bcy.net/item/detail/7243752692219124791 半次元 将于 2023/07/12 停服 正在紧急存档…… !!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319 #FourDimensions
#请求帮助
半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。
加急,尽快。帐号多多益善。
直接联系:@MistyNya
注:有废号风险。
(不过反正一个月后半次元就关站了,所以不用在意炸号风险)
求扩散。
半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。
加急,尽快。帐号多多益善。
直接联系:@MistyNya
注:有废号风险。
(不过反正一个月后半次元就关站了,所以不用在意炸号风险)
求扩散。
😱9
Save The Web Project pinned «#请求帮助 半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。 加急,尽快。帐号多多益善。 直接联系:@MistyNya 注:有废号风险。 (不过反正一个月后半次元就关站了,所以不用在意炸号风险) 求扩散。»
Save The Web Project
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。——[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018) 感谢 @OverflowCat 的投稿。 存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328 #firefly
「萤火圈」的全部公开文章、图片、视频已经下载完毕了,目前正在归并(收集)各位志愿者本地已下载完毕的数据(项目收尾)。
归并预计会在数天内完成,数据量估测在 1TiB 左右。
归并完成后,存档不会立即上传到 IA 或者网盘之类的地方公开,因为……这个站有超级多的 NSFW 内容。🌚
如果需要获取存档,可以联系我们。(虽然 TG 上应该也没有这个 app 的用户就是了……毕竟是小众的女性社区)
参与本项目存档下载的志愿者/成员有,感谢:
@xwyqi @Ovler @oveRidea_C @FlyingSky7 @OverflowCat @yzqzss
P.S. 它 NSFW 内容多到什么程度?请看评论区。太逆天了,这还只是游客能访问到的公开内容。
归并预计会在数天内完成,数据量估测在 1TiB 左右。
归并完成后,存档不会立即上传到 IA 或者网盘之类的地方公开,因为……这个站有超级多的 NSFW 内容。🌚
如果需要获取存档,可以联系我们。(虽然 TG 上应该也没有这个 app 的用户就是了……毕竟是小众的女性社区)
参与本项目存档下载的志愿者/成员有,感谢:
@xwyqi @Ovler @oveRidea_C @FlyingSky7 @OverflowCat @yzqzss
P.S. 它 NSFW 内容多到什么程度?请看评论区。太逆天了,这还只是游客能访问到的公开内容。
🥰11
#新闻 #Miraheze #MediaWiki
Miraheze (一家非营利的 MediaWiki 农场)决定关站。
https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement
## 时间表:
目前~:停止新 Wiki 的注册
~2023-08-31: 仍可访问和编辑 Wiki。
~2023-09-01: 关站,从数据中心下线。
## 备份:
Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部备份,并且提供如何访问这些备份的信息。
用户可以在 Special:DataDump 下载 XML dump,但是图片等媒体资源的备份需要开工单请求(?)。
## 事发原因
似乎是社区/团队内部问题,与资金关系不大(?):
https://mastodon.social/@miraheze/110506683712194935
Miraheze (一家非营利的 MediaWiki 农场)决定关站。
https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement
## 时间表:
目前~:停止新 Wiki 的注册
~2023-08-31: 仍可访问和编辑 Wiki。
~2023-09-01: 关站,从数据中心下线。
## 备份:
Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部备份,并且提供如何访问这些备份的信息。
用户可以在 Special:DataDump 下载 XML dump,但是图片等媒体资源的备份需要开工单请求(?)。
## 事发原因
似乎是社区/团队内部问题,与资金关系不大(?):
https://mastodon.social/@miraheze/110506683712194935
Meta
Board/Policies/20230615-Statement
STATEMENT FROM MIRAHEZE LIMITED'S BOARD OF DIRECTORS The Directors have met to consider where the future of Miraheze as a project lies - taking into account recent...
😢8
Save The Web Project
#新闻 #Miraheze #MediaWiki Miraheze (一家非营利的 MediaWiki 农场)决定关站。 https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement ## 时间表: 目前~:停止新 Wiki 的注册 ~2023-08-31: 仍可访问和编辑 Wiki。 ~2023-09-01: 关站,从数据中心下线。 ## 备份: Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部…
不知道 Miraheze 会不会给一般的访客或用户(非 Wiki 拥有者/管理员)提供 wikidump 。
不过在 2023-09-01 关站前,任何人都可以用 https://github.com/mediawiki-client-tools/mediawiki-scraper/ 来备份你喜爱的 Wiki ,只要它 API 没关。🌚
(推荐使用参数:
不过在 2023-09-01 关站前,任何人都可以用 https://github.com/mediawiki-client-tools/mediawiki-scraper/ 来备份你喜爱的 Wiki ,只要它 API 没关。🌚
(推荐使用参数:
dumpgenerator --xml --xmlrevisions --image )GitHub
GitHub - mediawiki-client-tools/mediawiki-dump-generator: Python 3 tools for downloading and preserving wikis
Python 3 tools for downloading and preserving wikis - mediawiki-client-tools/mediawiki-dump-generator