Save The Web Project – Telegram
现在遇到个问题,目前上传到 IA 的 identifier 的格式是: BiliBili-{bvid}_p{分P号}

刚好这有两个 bvid 在大小写不严格下完全一样:

BV1tx411c7Vn
BV1tx411c7vn

IA 的 identifier 是区分大小写的,但如果已有一个 identifier ,那么该 identifier 的其他大小写形式就不允许创建了。

hash 可能不太适合(包括截断的 hash),因为存在碰撞的可能性,所以目前设想的方法是直接对大写字母进行处理,将大写字母复制一份放置在文件名之后。

如此, identifier 变成: BiliBili-{bvid}_p{分P号}_{upper_part}

注:bvid 现在都是 "BV" 字符开头,但是未来 B 站可能也会换用其他的字符头,所以"BV"也要原样复制。

那么应该如何处理大写字母呢?
Save The Web Project
那么应该如何处理大写字母呢?
gledos 发现第一种去位复制大写的方法其实有很高的碰撞概率,如:

BV1mx411c7cC -> BVC
BV1mx411c7Cc -> BVC

第二种完美解决实际问题,但又太丑了。如果没有其他方案的话就只能用它了。

大家有什么奇思妙想吗?设计目标:因为是作为 identifier ,所以最好能让人一眼看懂其格式,可以手敲出来。长度不易过长。可以使用 " [A-Z] _ . ", _. 最好避免出现在最后面。

通用描述:能保证为同一字符串序列的不同大小写形式生成不碰撞的字符串。
👍2
Media is too big
VIEW IN TELEGRAM
以「YLSBS」为例的 BiliBili 存档操作教程🙈
https://github.com/saveweb/biliarchiver
6
https://bcy.net/item/detail/7243752692219124791
半次元 将于 2023/07/12 停服
正在紧急存档……

!!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319

#FourDimensions
1
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。—[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018)

感谢 @OverflowCat投稿

存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328
#firefly
Save The Web Project
https://bcy.net/item/detail/7243752692219124791 半次元 将于 2023/07/12 停服 正在紧急存档…… !!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319 #FourDimensions
#请求帮助

半次元 (
bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。
加急,尽快。帐号多多益善。

直接联系:
@MistyNya

注:有废号风险。
(不过反正一个月后半次元就关站了,所以不用在意炸号风险)

求扩散。
😱9
Save The Web Project pinned «#请求帮助 半次元 (bcy.net) 关闭了新用户注册,有爱心人士有帐号的可以给我们借用一下您的帐号吗?用于存档。 加急,尽快。帐号多多益善。 直接联系:@MistyNya 注:有废号风险。 (不过反正一个月后半次元就关站了,所以不用在意炸号风险) 求扩散。»
Save The Web Project
在半次元宣布停服前几天,小众APP萤火圈也宣布将停服。这款以女性游戏用户为主的APP运营3年,日活5万的情况下,付费不到5%,官方曾在抖音直播带货自救。——[半次元停服了,我的快乐老家没有了-36氪](https://36kr.com/p/2300020474326018) 感谢 @OverflowCat 的投稿。 存档项目已开,正在存:https://news.1rj.ru/str/saveweb_projects/1328 #firefly
「萤火圈」的全部公开文章、图片、视频已经下载完毕了,目前正在归并(收集)各位志愿者本地已下载完毕的数据(项目收尾)。

归并预计会在数天内完成,数据量估测在 1TiB 左右。
归并完成后,存档不会立即上传到 IA 或者网盘之类的地方公开,因为……这个站有超级多的 NSFW 内容。🌚
如果需要获取存档,可以联系我们。(虽然 TG 上应该也没有这个 app 的用户就是了……毕竟是小众的女性社区)

参与本项目存档下载的志愿者/成员有,感谢:
@xwyqi @Ovler @oveRidea_C @FlyingSky7 @OverflowCat @yzqzss

P.S. 它 NSFW 内容多到什么程度?请看评论区。太逆天了,这还只是游客能访问到的公开内容。
🥰11
#新闻 #Miraheze #MediaWiki

Miraheze (一家非营利的 MediaWiki 农场)决定关站。
https://meta.miraheze.org/wiki/Board/Policies/20230615-Statement


## 时间表:

目前~:停止新 Wiki 的注册
~2023-08-31: 仍可访问和编辑 Wiki。
~2023-09-01: 关站,从数据中心下线。

## 备份:

Miraheze 表示只要资金允许,会无限期按照要求提供全部 wiki 的全部备份,并且提供如何访问这些备份的信息。
用户可以在 Special:DataDump 下载 XML dump,但是图片等媒体资源的备份需要开工单请求(?)。

## 事发原因

似乎是社区/团队内部问题,与资金关系不大(?):
https://mastodon.social/@miraheze/110506683712194935
😢8
Save The Web Project
https://bcy.net/item/detail/7243752692219124791 半次元 将于 2023/07/12 停服 正在紧急存档…… !!! 半次元存档项目群已开 !!!: https://news.1rj.ru/str/saveweb_projects/319 #FourDimensions
#请求帮助

我们想抽样测试一下我们已经爬取到的内容占全站的比例。(覆盖率)

如果您是半次元用户,请在本条消息的评论区留言,我们想通过您的点赞/喜欢列表来做抽样。非常感谢!

#半次元 #banciyuan #wuciyuan #FourDimensions
# STWP 2023 第 25 周周报

## 第 25 周项目摘要

### 萤火圈

> 已为 5 位萤火圈用户提供了个人公开数据备份。

### 半次元

> 半次元全部图片已下载完毕,总量 95 TB;source
> 半次元存档状态见 here by @MistyNya

### 播客

> 尝试使用 Golang 重写播客存档的工具;source
> 小宇宙保护性存档;source
> 存档范围确定,忽略 iTunes 平台上的播客。source

### BiliBili

+ 自动化 OCR 识别“周刊哔哩哔哩排行榜”的视频编号 (bvid/avid) 的程序 schroedinger-extractor 开发中。source, demo] by @OverflowCat

### 广播电台

+ 正协助 Internet Archive 从 radio.cn, cnr.cn 下载并存档各种广播。source by @yzqzss

---

## 其他综合慢讯

+ 霏凡论坛又又又将继续,但发展前景仍然未知。source
+ 天涯论坛的创始人(邪明)和早期用户仍在争吵转型路线问题。source
+ Miraheze 组建了新的团队,项目将继续。source
+ Ragtag Archive 可能会把视频上传到 IA 。IRC: #archiveteam-bs
+ WikiApiary 仍处于只读状态,已经一个月了。

2023-06-19 ~ 2023-06-25
👍8🥰2😁2🏆11
Niconico 的页游发布平台 Game Atsumaru 将在18小时后关闭,

> 希望寻求有带宽、储存条件的志愿者们帮忙操作存档脚本: https://github.com/yts98/game-atsumaru-discovery
> 有懂爬取 Unity 的大佬吗?或是跟 Akashic Engine、TyranoBuilder、GameMaker Studio、Tonyu System、Visual Novel Maker打过交道的?
> 能帮忙的人愈多愈好。

by @yth98

详情及讨论请至:
https://news.1rj.ru/str/saveweb_projects/5882/7716

Update:
20230628 11:08 (UTC+8) 现已关站,所有页面和 api 均被重定向到了 <https://blog.nicovideo.jp/niconews/194994.html> 。