Save The Web Project – Telegram
Save The Web Project
https://archive.org/details/bilibili_videos IA 上的 BiliBili Videos Collection 现已创建! (感谢 Archive Team & Internet Archive 的 arkiver ) 现已有 3k+ 视频。 各位在 B 站碰到好视频/UP不妨存一存&上传IA。😊 讨论:https://news.1rj.ru/str/saveweb_projects/208
接下来的 bilibili 存档专题(不限 B 站,其他平台有也可以存):

1. 各种学术|行业讲座、交流会、沙龙、讨论会,演讲。
2. 从 cnki/维普/arxiv 等各种论文库全文搜索引用了 bilibili 视频的论文,然后存这些被引视频。
3. 人物访谈。
4. 各种产品发布会(包括2C、2B、2G)

对于 1. 和 2. ,我们需要一个学科分类表、行业词库,以便通过领域关键词找到这些视频。
对于 2. ,一些期刊可能需要好心人帮忙下😂
对于 1. 和 3. ,我们需要社会名人/知识分子清单。
对于 4. ,消费电子推荐存档已经死掉的产品线/品牌的产品发布会,列出产品清单(参考 https://github.com/saveweb/product-launch-events/issues/1 )。政府|商业|工业发布会等随意。

大概的存档类型样本可以见 https://news.1rj.ru/str/+ibNyu3ZpXeJlMzU1 最近存档的视频。

入群参与: https://news.1rj.ru/str/saveweb_projects/208
4
## 是你了!想小小地参与 Internet Archive 的 Radio Programs 吗?Internet Archive STWP 需要你!🌚

成为本次众包元数据收集活动的小小志愿者吧!这次真的真的是无门槛了,欢迎大家踊跃参与!

要做的事情很简单,加入 https://news.1rj.ru/str/saveweb_projects/6155 群,然后大喊一句“来个任务”,我们会从 https://www.cnr.cn/gbzb/ 上找个广播让你完善下面的元数据填下模板。过程非常简单,只需要 F12 复制一下链接,搜下简介和广播电台的别名,再发出来就可以了。如果你喜欢某个广播电台,也可以主动提交它们到 https://github.com/saveweb/radios 而不由我们派发(最好发下消息告知一下)。

之后我们会将给元数据整理发给 IA 。4 个月过去了,他们终于准备好接收全部的中文广播了

同时欢迎港澳台的朋友提交当地广播电台!

元数据模板
🥰2👍1
bilibili 存档 API 已开放,欢迎测试。

http://hz1.server.saveweb.org:41835 (临时地址,IPv4/6)

POST /archive/BVXXXXXX # 提交视频到 pending 队列,也可以用 PUT
DELETE /archive/BVXXXXXX # 从 pending 队列中移除
GET /archive/BVXXXXXX # 查任务状态
GET /archive # 查看 pending 队列 + 最近完成的最多 250 个任务的状态。


<讨论群>
Save The Web Project
向 @code_arxiv_bot 发送

/git {url}
下次又有开源代码仓库要出事,请使用咱们这 @code_arxiv_bot 打个快照。

它会往我们服务器、SWH、IA推送备份。

用过的都说好。😒👍

<讨论群>
👍72
Prolific PL2303 与软盘存档项目

笔者很久之前买了一条 USB 转 RS232 的线,但是作者的那台装着 Windows 11 的电脑始终装不上驱动,后来一查需要安装一个旧版驱动,而新版驱动则是[1]故意限制 Windows 11 使用旧设备。

为什么说这和软盘存档项目有关呢? 这纯粹是 Prolific 搞的计划报废,通过故意限制旧设备在新系统上的使用,来迫使用户购买新的转接线;而软盘存档项目其中一个目的就是保留一些老设备的驱动防止老设备被迫成为废铁。

虽然 Prolific 那边又发布了新版芯片,但是谁知道他们会不会继续复刻这种行为呢?不过正因为Linux上面有开源驱动,所以这个问题在Linux上面(应该)不会存在。

[1] https://misc.daniel-marschall.de/patches/prolific_drivers/
Dism++ 老用户请注意,请于今日发送不少于 520 字的《年度Dism++改进意见》到 mingkuang@live.com 。

根据其用户协议:

满 30 天后的用户(包含节假日)需向小鸭子(Email:mingkuang@live.com)邮箱发送一份不少于 345 字的《Dism++体验报告》。满 8 个月的老用户,每年的 11 月 11 日(当地时间)还需要发送不少于 520 字的《年度Dism++改进意见》。


如果您不遵守以上条款,即被视为 Dism++ 的盗版用户🧐
😁19👍1🥰1👏1
Live stream started
下次开 Skype 吧……Telegram 很多人都加不进语音。🙈
🤯5
在 Telegram,存 [Media|Doku]Wiki !

@DigitalDwagonWikiBot 来到 Telegram 了。

现在,你不需要安装 WikiTeam3 或 DokuWikiDumper ,发现了任何 wiki ,把存档命令喂给 @wikiteambot 就好。

使用帮助:https://cdn.digitaldragon.dev/wikibot/help.html (注:Telegram 这边需要用 / 替换掉 ! 作为命令头)

例如:

/mw --url https://example.com/ --xml --xmlrevisions --images --explain "no coverage"

另外,虽然 bot 现在接受私聊,但为了让我们知晓您的操作,推荐在群聊中发送命令。
👍4
#快讯

IA 正在激进地封禁(dark/take down)大量帐号以应对 spam,建议大家近期不要上传 item 以免麻烦。

- digitaldragons 的 wikibot 昨天被 dark 了: https://archive.org/details/@digitaldragons
- 我们 BiliBili 存档用的 bot 帐号今天被 dark 了:https://archive.org/details/@biliarchiver_bot
- 我们的 ChinaXiv 存档帐号更是离谱,昨天创了两个测试 item,且元数据格式比较规范,今天也被 dark 了:https://archive.org/details/@chinaxiv_mirror_project
- 我们的 https://archive.org/details/@save_the_web_project 被 dark


在我们得到进一步信息前,bilibili 存档 API 和 bot 先暂时关闭。
wikibot 仍然可以用,且可以正常上传,只是不能访问用户页了。

[p1] item be taken down(darkend)
[p2] IA dark 各种帐号的操作日志
顺带宣布一下我们对 ChinaXiv.org 的存档项目。存档项目名定为: ChinaXivXiv 或 ChinaXiv Mirror Project

> ChinaXiv 是中科院维护的一个类似 arXiv 的预印本平台(当然规模小很多)。

为啥存它:
- 开放获取,根据其 license,只要署源留链即可任意再分发。
- 目前网上没有看到别的地方有它的内容镜像。
- 近几年的新 paper 实际上没有镀 DOI ,显示的 DOI 是假的。
- 声明“永久访问”,实际上他们会删历史版本文件。(我们边爬,他们边删;是否会删论文还不确定,需要长期观察)
- 网站极其不稳定。

目前已完成 27k 个有效版本id(一篇论文一般有1~2个版本)的元数据爬取和文件下载。数据量特小,只有~50G。

之后会将文件和元数据都完整的论文传 IA (少部分我们爬取流程还没跑完,ChinaXiv 就把东西删了)

(另外还发现有几百篇实际存在的 paper 的详情页根本就打不开,会循环 302 到详情页自身)

项目群
🤡7👍3🤔1
Save The Web Project
Photo
账号均已恢复。
👍5
#慢讯

https://www.bilibili.com/opus/869747456019005490

台风论坛 (https://tybbs.org.cn/) 已于 2023 年 12 月 1 日闪电永久关站。仅提前不到一天发出关站通知。
😢18
#快讯
https://www.thiswebsitewillselfdestruct.com/ 在昨天自毁了。

作者证实网站已自毁:https://twitter.com/FemmeAndroid/status/1730993804218376331

> 这个网站创建于 2020 年 4 月,此时正值全球疫情的高峰。每个人都可以以匿名的身份向网站留言,讲述自己想说的任何话,或是随机查看其他用户投递的留言。如果这个网站在 24 小时内没有收到新消息就会自毁。


转自一位可能不愿意透露ID的网友。
😢24
#无奖竞猜

@saveweb 的 similar channels 会有哪些?
🙏24
JEI2JEYwJDlGJEE1JEEzJEYwJDlGJDhEJDk0JEYwJDlGJEE1JEIxJEYwJDlGJDkxJDhFJEYwJDlG
JDlGJEE2JDkzJEYwJDlGJEE0JDlDJEYwJDlGJDkyJEFFJEYwJDlGJEE2JDg2JEUyJDk4JDk1Cg==


#5oiR5LiN6YCg5ZWKCg
👍4🆒4