🎉🎂 Save The Web Project 两岁啦!
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀
🎉23🥰1
Save The Web Project pinned «🎉🎂 Save The Web Project 两岁啦! 大家有什么想说的吗?或者希望我们接下来做哪些方面的工作?😀»
目前我们缺自己的基础设施(大流量+大硬盘的服务器、云存储等),导致很多存档项目没有规模化和自动化。毕竟我们一直在 低预算/零预算 下做各种项目,但存档规模不上去,我们的投入产出比就很低,我们各种项目存档的数据加起来可能也没有 10 TiB 。
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位大怨种和小可爱哪位手头有长期闲置的 VPS/独服 ,我们想白嫖。(图穷匕见)🌚
所以接下来我想开始我们的基础设施建设,要致富,先砍树嘛。
———
那么,各位
👍5🥰1
现在遇到个问题,目前上传到 IA 的 identifier 的格式是: BiliBili-{bvid}_p{分P号}
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
那么应该如何处理大写字母呢?
刚好这有两个 bvid 在大小写不严格下完全一样:
BV1tx411c7Vn
BV1tx411c7vn
IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。
hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。
如此, identifier 变成:
BiliBili-{bvid}_p{分P号}_{upper_part}
(注:bvid 现在都是 "BV" 字符开头,但是未来 B 站可能也会换用其他的字符头,所以"BV"也要原样复制。)那么应该如何处理大写字母呢?
那么应该如何处理大写字母呢?
Final Results
11%
BV1HP411D7Rj -> BVHPDR
11%
BV1HP411D7Rj -> BV_HP___D_R_
22%
其他
56%
查看投票
Save The Web Project
那么应该如何处理大写字母呢?
gledos 发现第一种去位复制大写的方法其实有很高的碰撞概率,如:
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC
第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。
大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 "
[A-Z] _ . ", _ 和 . 最好避免出现在最后面。通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
👍2
https://bcy.net/item/detail/7243752692219124791
半次元 将于 2023/07/12 停服
正在紧急存档……
!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319
#FourDimensions
半次元 将于 2023/07/12 停服
正在紧急存档……
!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319
#FourDimensions
❤1
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。——[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018)
感谢 @OverflowCat 的投稿。
存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly
感谢 @OverflowCat 的投稿。
存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly
Save The Web Project
https://bcy.net/item/detail/7243752692219124791 半次元 将于 2023/07/12 停服 正在紧急存档…… !!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319 #FourDimensions
#请求帮助
半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。
加急,尽快。帐号多多益善。
直接联系:@MistyNya
注:有废号风险。
(不过反正一个月后半次元就关站了,所以不用在意炸号风险)
求扩散。
半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。
加急,尽快。帐号多多益善。
直接联系:@MistyNya
注:有废号风险。
(不过反正一个月后半次元就关站了,所以不用在意炸号风险)
求扩散。
😱9
Save The Web Project pinned «#请求帮助 半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。 加急,尽快。帐号多多益善。 直接联系:@MistyNya 注:有废号风险。 (不过反正一个月后半次元就关站了,所以不用在意炸号风险) 求扩散。»
Save The Web Project
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。——[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018) 感谢 @OverflowCat 的投稿。 存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328 #firefly
「萤火圈」的全部公开文章、图片、视频已经下载完毕了,目前正在归并(收集)各位志愿者本地已下载完毕的数据(项目收尾)。
归并预计会在数天内完成,数据量估测在 1TiB 左右。
归并完成后,存档不会立即上传到 IA 或者网盘之类的地方公开,因为……这个站有超级多的 NSFW 内容。🌚
如果需要获取存档,可以联系我们。(虽然 TG 上应该也没有这个 app 的用户就是了……毕竟是小众的女性社区)
参与本项目存档下载的志愿者/成员有,感谢:
@xwyqi @Ovler @oveRidea_C @FlyingSky7 @OverflowCat @yzqzss
P.S. 它 NSFW 内容多到什么程度?请看评论区。太逆天了,这还只是游客能访问到的公开内容。
归并预计会在数天内完成,数据量估测在 1TiB 左右。
归并完成后,存档不会立即上传到 IA 或者网盘之类的地方公开,因为……这个站有超级多的 NSFW 内容。🌚
如果需要获取存档,可以联系我们。(虽然 TG 上应该也没有这个 app 的用户就是了……毕竟是小众的女性社区)
参与本项目存档下载的志愿者/成员有,感谢:
@xwyqi @Ovler @oveRidea_C @FlyingSky7 @OverflowCat @yzqzss
P.S. 它 NSFW 内容多到什么程度?请看评论区。太逆天了,这还只是游客能访问到的公开内容。
🥰11
#新闻 #Miraheze #MediaWiki
Miraheze (一家非营利的 MediaWiki 农场)决定关站。
https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement
## 时间表:
目前~:停止新 Wiki 的注册
~2023-08-31: 仍可访问和编辑 Wiki。
~2023-09-01: 关站,从数据中心下线。
## 备份:
Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部备份,并且提供如何访问这些备份的信息。
用户可以在 Special:DataDump 下载 XML dump,但是图片等媒体资源的备份需要开工单请求(?)。
## 事发原因
似乎是社区/团队内部问题,与资金关系不大(?):
https://mastodon.social/@miraheze/110506683712194935
Miraheze (一家非营利的 MediaWiki 农场)决定关站。
https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement
## 时间表:
目前~:停止新 Wiki 的注册
~2023-08-31: 仍可访问和编辑 Wiki。
~2023-09-01: 关站,从数据中心下线。
## 备份:
Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部备份,并且提供如何访问这些备份的信息。
用户可以在 Special:DataDump 下载 XML dump,但是图片等媒体资源的备份需要开工单请求(?)。
## 事发原因
似乎是社区/团队内部问题,与资金关系不大(?):
https://mastodon.social/@miraheze/110506683712194935
Meta
Board/Policies/20230615-Statement
STATEMENT FROM MIRAHEZE LIMITED'S BOARD OF DIRECTORS The Directors have met to consider where the future of Miraheze as a project lies - taking into account recent...
😢8
Save The Web Project
#新闻 #Miraheze #MediaWiki Miraheze (一家非营利的 MediaWiki 农场)决定关站。 https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement ## 时间表: 目前~:停止新 Wiki 的注册 ~2023-08-31: 仍可访问和编辑 Wiki。 ~2023-09-01: 关站,从数据中心下线。 ## 备份: Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部…
不知道 Miraheze 会不会给一般的访客或用户(非 Wiki 拥有者/管理员)提供 wikidump 。
不过在 2023-09-01 关站前,任何人都可以用 https://github.com/mediawiki-client-tools/mediawiki-scraper/ 来备份你喜爱的 Wiki ,只要它 API 没关。🌚
(推荐使用参数:
不过在 2023-09-01 关站前,任何人都可以用 https://github.com/mediawiki-client-tools/mediawiki-scraper/ 来备份你喜爱的 Wiki ,只要它 API 没关。🌚
(推荐使用参数:
dumpgenerator --xml --xmlrevisions --image )GitHub
GitHub - mediawiki-client-tools/mediawiki-dump-generator: Python 3 tools for downloading and preserving wikis
Python 3 tools for downloading and preserving wikis - mediawiki-client-tools/mediawiki-dump-generator
Save The Web Project
https://bcy.net/item/detail/7243752692219124791 半次元 将于 2023/07/12 停服 正在紧急存档…… !!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319 #FourDimensions
#请求帮助
我们想抽样测试一下我们已经爬取到的内容占全站的比例。(覆盖率)
如果您是半次元用户,请在本条消息的评论区留言,我们想通过您的点赞/喜欢列表来做抽样。非常感谢!
#半次元 #banciyuan #wuciyuan #FourDimensions
我们想抽样测试一下我们已经爬取到的内容占全站的比例。(覆盖率)
如果您是半次元用户,请在本条消息的评论区留言,我们想通过您的点赞/喜欢列表来做抽样。非常感谢!
#半次元 #banciyuan #wuciyuan #FourDimensions