Save The Web Project
DokuWiki存档马拉松开始! 网站列表见: https://github.com/orgs/saveweb/projects/4/views/2 (还在往里加) 群聊火热讨论中🔥: https://news.1rj.ru/str/saveweb_chat
(各位太猛了)
等大家全部上传了就结束比赛,还是添加更多的 DokuWiki ,继续?(目前还有 1k 多个 DokuWiki 等待存档……)
---
添加更多 DokuWiki ,继续。
❤2
Save The Web Project
列表中的近 100 个 DokuWiki 基本被大家分完了。 (各位太猛了) 等大家全部上传了就结束比赛,还是添加更多的 DokuWiki ,继续?(目前还有 1k 多个 DokuWiki 等待存档……) --- 添加更多 DokuWiki ,继续。
https://docs.google.com/spreadsheets/d/1iDlrcKR0rziuxFM0P7cK4Ct6-WkGytqzamh3LTqNyUE/edit?usp=sharing
1.4k 个 DokuWiki 。
1.4k 个 DokuWiki 。
Google Docs
[STWP|WikiTeam] DokuWiki Archive Project
❤2
Save The Web Project
DokuWiki存档马拉松开始! 网站列表见: https://github.com/orgs/saveweb/projects/4/views/2 (还在往里加) 群聊火热讨论中🔥: https://news.1rj.ru/str/saveweb_chat
7 天时间已到!马拉松结束。
7 天内大家共了存档 292 个 DokuWiki (未去重,实际数量要小些)。感谢大家!
活动结束不意味着存档结束,列表中还有 900+ DokuWiki 等待存档,各位有兴趣可以随便存几个。
7 天内大家共了存档 292 个 DokuWiki (未去重,实际数量要小些)。感谢大家!
活动结束不意味着存档结束,列表中还有 900+ DokuWiki 等待存档,各位有兴趣可以随便存几个。
❤8👍2
Save The Web Project
# 第 16 周项目详情 * 摸鱼 * 修了 wikiteam 的一个无足挂齿的 bug 。 * 摸鱼 * 存了几个无足挂齿的 MediaWiki 站。 * 「小宇宙」播客存档预备中。🌚 * 摸鱼 * 🥲🐟
# 第 17 和第 18 周摘要:
* vgtime.com 已全站存档(请求 archiveteam IRC 里的人用 archivebot 做的存档)
* 这两周内,共存档并上传了 ~400 个 DokuWiki 站点!
* 小修小补了下 wikiteam3 ,顺带存档了一个 MediaWiki 站。
* vgtime.com 已全站存档(请求 archiveteam IRC 里的人用 archivebot 做的存档)
* 这两周内,共存档并上传了 ~400 个 DokuWiki 站点!
* 小修小补了下 wikiteam3 ,顺带存档了一个 MediaWiki 站。
🙏1
#新闻
酷壳(
现在其博客
*有人愿意整理他的相关作品/社交媒体信息吗?极客时间、Twitter、微薄等。
酷壳(
Coolshell) 的博主陈皓前日突发心梗去世。现在其博客
https://coolshell.cn 可能因为访问量过大,非常不稳定。等今晚凌晨没人访问时,再做存档。*有人愿意整理他的相关作品/社交媒体信息吗?极客时间、Twitter、微薄等。
酷 壳 - CoolShell
享受编程和技术所带来的快乐 - Coding Your Ambition
🙏36👍1
Save The Web Project
BiliBili 每日 Top 100 视频存档开始啦! 存档方式为:本地存档+上传 IA 。 目前 100 只视频共:45GiB (更新:换成了 HEVC 优先,总计:20GiB) 考虑到很多视频会留榜数天,实际的每日新增数据量倒是没有这么多。
不止 top 100 ,只要提供 BV 号(bvid) ,都能存档。
https://github.com/saveweb/biliarchiver
开大会员能下 4k ,强烈推荐各位给叔叔送钱。🌚
现在工具还非常非常原始。欢迎贡献各种渠道获取 bvids.txt 的代码。
有人对这个存档项目感兴趣吗?欢迎 参加开发/成为预备存档员/在评论区留下你觉得有存档价值的[视频/UP主/合集/列表/收藏夹]的链接。
https://github.com/saveweb/biliarchiver
开大会员能下 4k ,强烈推荐各位给叔叔送钱。🌚
现在工具还非常非常原始。欢迎贡献各种渠道获取 bvids.txt 的代码。
有人对这个存档项目感兴趣吗?欢迎 参加开发/成为预备存档员/在评论区留下你觉得有存档价值的[视频/UP主/合集/列表/收藏夹]的链接。
GitHub
GitHub - saveweb/biliarchiver: Use bilix to archive BiliBili video with metadata and danmaku.
Use bilix to archive BiliBili video with metadata and danmaku. - saveweb/biliarchiver
👍4🤔1
Save The Web Project
不止 top 100 ,只要提供 BV 号(bvid) ,都能存档。 https://github.com/saveweb/biliarchiver 开大会员能下 4k ,强烈推荐各位给叔叔送钱。🌚 现在工具还非常非常原始。欢迎贡献各种渠道获取 bvids.txt 的代码。 有人对这个存档项目感兴趣吗?欢迎 参加开发/成为预备存档员/在评论区留下你觉得有存档价值的[视频/UP主/合集/列表/收藏夹]的链接。
太多搞笑视频了……
目前从排行榜存档的视频里,大半是存档价值低的搞笑视频,竖屏短视频居多。
果然如
目前从排行榜存档的视频里,大半是存档价值低的搞笑视频,竖屏短视频居多。
[图1]果然如
BV1fm4y1r7E6 所说 [图2][图3],B 站本质上就是一个搞笑网站。👍🤡16👍6
Tubeup 用户请注意
在使用 Tubeup 把视频上传到 IA 存档时,由于 Tubeup 会直接把来自 yt-dlp 的 info.json 文件不经任何脱敏处理就原样上传 IA 。
> info.json 中的 formats 字段中记录着的视频分段资源的 URL、编码、大小以及应该用什么样的 HTTP Headers 去请求资源 URL
而分段资源 URL 中可能有用户的一些个人信息(比如 YouTube 会把你的 ip 嵌入进 URL,B 站则会把用户的 mid 嵌入)。
最危险的是 HTTP Headers 里的 Cookies ,如果你给 Tubeup 导入了 Cookies ,那么你的 Cookies 就有可能出现在 info.json 里!(现在大部分视频网站的主站和视频 CDN 都是跨域,主站的 Cookies 不太可能飞到 CDN ,但是 Tubeup 依赖的 yt-dlp 支持上千个不同的视频平台,哪些真的会泄露也说不一定)
#安全 #隐私 #提醒 #IA #Tubeup
在使用 Tubeup 把视频上传到 IA 存档时,由于 Tubeup 会直接把来自 yt-dlp 的 info.json 文件不经任何脱敏处理就原样上传 IA 。
> info.json 中的 formats 字段中记录着的视频分段资源的 URL、编码、大小以及应该用什么样的 HTTP Headers 去请求资源 URL
而分段资源 URL 中可能有用户的一些个人信息(比如 YouTube 会把你的 ip 嵌入进 URL,B 站则会把用户的 mid 嵌入)。
最危险的是 HTTP Headers 里的 Cookies ,如果你给 Tubeup 导入了 Cookies ,那么你的 Cookies 就有可能出现在 info.json 里!(现在大部分视频网站的主站和视频 CDN 都是跨域,主站的 Cookies 不太可能飞到 CDN ,但是 Tubeup 依赖的 yt-dlp 支持上千个不同的视频平台,哪些真的会泄露也说不一定)
#安全 #隐私 #提醒 #IA #Tubeup
🎉8👍1
🎉🎂 Save The Web Project 两岁啦!
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉23🥰1
Save The Web Project pinned «🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
目前我们缺自己的基础设施(大流量+大硬盘的服务器、云存储等),导致很多存档项目没有规模化和自动化。毕竟我们一直在 低预算/零预算 下做各种项目,但存档规模不上去,我们的投入产出比就很低,我们各种项目存档的数据加起来可能也没有 10 TiB 。
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位大怨种和小可爱哪位手头有长期闲置的 VPS/独服 ,我们想白嫖。(图穷匕见)🌚
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位
👍5🥰1
现在遇到个问题,目前上传到 IA 的 identifier 的格式是: BiliBili-{bvid}_p{分P号}
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
那么应该如何处理大写字母呢?
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
BiliBili-{bvid}_p{分P号}_{upper_part}
(注:bvid 现在都是 "BV" 字符开头,但是未来 B 站可能也会换用其他的字符头,所以"BV"也要原样复制。)那么应该如何处理大写字母呢?
那么应该如何处理大写字母呢?
Final Results
11%
BV1HP411D7Rj -> BVHPDR
11%
BV1HP411D7Rj -> BV_HP___D_R_
22%
其他
56%
查看投票
Save The Web Project
那么应该如何处理大写字母呢?
gledos 发现第一种去位复制大写的方法其实有很高的碰撞概率,如:
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
[A-Z] _ . ", _ 和 . 最好避免出现在最后面。通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
👍2