Save The Web Project – Telegram
Live stream started
下次开 Skype 吧……Telegram 很多人都加不进语音。🙈
🤯5
在 Telegram,存 [Media|Doku]Wiki !

@DigitalDwagonWikiBot 来到 Telegram 了。

现在,你不需要安装 WikiTeam3 或 DokuWikiDumper ,发现了任何 wiki ,把存档命令喂给 @wikiteambot 就好。

使用帮助:https://cdn.digitaldragon.dev/wikibot/help.html (注:Telegram 这边需要用 / 替换掉 ! 作为命令头)

例如:

/mw --url https://example.com/ --xml --xmlrevisions --images --explain "no coverage"

另外,虽然 bot 现在接受私聊,但为了让我们知晓您的操作,推荐在群聊中发送命令。
👍4
#快讯

IA 正在激进地封禁(dark/take down)大量帐号以应对 spam,建议大家近期不要上传 item 以免麻烦。

- digitaldragons 的 wikibot 昨天被 dark 了: https://archive.org/details/@digitaldragons
- 我们 BiliBili 存档用的 bot 帐号今天被 dark 了:https://archive.org/details/@biliarchiver_bot
- 我们的 ChinaXiv 存档帐号更是离谱,昨天创了两个测试 item,且元数据格式比较规范,今天也被 dark 了:https://archive.org/details/@chinaxiv_mirror_project
- 我们的 https://archive.org/details/@save_the_web_project 被 dark


在我们得到进一步信息前,bilibili 存档 API 和 bot 先暂时关闭。
wikibot 仍然可以用,且可以正常上传,只是不能访问用户页了。

[p1] item be taken down(darkend)
[p2] IA dark 各种帐号的操作日志
顺带宣布一下我们对 ChinaXiv.org 的存档项目。存档项目名定为: ChinaXivXiv 或 ChinaXiv Mirror Project

> ChinaXiv 是中科院维护的一个类似 arXiv 的预印本平台(当然规模小很多)。

为啥存它:
- 开放获取,根据其 license,只要署源留链即可任意再分发。
- 目前网上没有看到别的地方有它的内容镜像。
- 近几年的新 paper 实际上没有镀 DOI ,显示的 DOI 是假的。
- 声明“永久访问”,实际上他们会删历史版本文件。(我们边爬,他们边删;是否会删论文还不确定,需要长期观察)
- 网站极其不稳定。

目前已完成 27k 个有效版本id(一篇论文一般有1~2个版本)的元数据爬取和文件下载。数据量特小,只有~50G。

之后会将文件和元数据都完整的论文传 IA (少部分我们爬取流程还没跑完,ChinaXiv 就把东西删了)

(另外还发现有几百篇实际存在的 paper 的详情页根本就打不开,会循环 302 到详情页自身)

项目群
🤡7👍3🤔1
Save The Web Project
Photo
账号均已恢复。
👍5
#慢讯

https://www.bilibili.com/opus/869747456019005490

台风论坛 (https://tybbs.org.cn/) 已于 2023 年 12 月 1 日闪电永久关站。仅提前不到一天发出关站通知。
😢18
#快讯
https://www.thiswebsitewillselfdestruct.com/ 在昨天自毁了。

作者证实网站已自毁:https://twitter.com/FemmeAndroid/status/1730993804218376331

> 这个网站创建于 2020 年 4 月,此时正值全球疫情的高峰。每个人都可以以匿名的身份向网站留言,讲述自己想说的任何话,或是随机查看其他用户投递的留言。如果这个网站在 24 小时内没有收到新消息就会自毁。


转自一位可能不愿意透露ID的网友。
😢24
#无奖竞猜

@saveweb 的 similar channels 会有哪些?
🙏24
JEI2JEYwJDlGJEE1JEEzJEYwJDlGJDhEJDk0JEYwJDlGJEE1JEIxJEYwJDlGJDkxJDhFJEYwJDlG
JDlGJEE2JDkzJEYwJDlGJEE0JDlDJEYwJDlGJDkyJEFFJEYwJDlGJEE2JDg2JEUyJDk4JDk1Cg==


#5oiR5LiN6YCg5ZWKCg
👍4🆒4
😁9
好消息。我们的邮局提供商 MXRoute 的一台名叫 lucy 的服务器宕机了 4 天,我们丢失了 2023-12-02 之后的全部邮件。
😁10👻7🤯5
Save The Web Project
bilibili 存档 API 已开放,欢迎测试。 http://hz1.server.saveweb.org:41835 (临时地址,IPv4/6) POST /archive/BVXXXXXX # 提交视频到 pending 队列,也可以用 PUT DELETE /archive/BVXXXXXX # 从 pending 队列中移除 GET /archive/BVXXXXXX # 查任务状态 GET /archive # 查看 pending 队列 + 最近完成的最多 250 个任务的状态。 <讨论群>
不要上传任何与 索尼音乐 有关的艺人/团体的视频;不要上传美漫/日漫的op/ed,哪怕是0几年的作品;不要上传用日本动漫音乐作bgm的手书视频(因为发 dmca 的机器/人可分不清手书和原版 mv 的区别)。

我们目前收到了三封版权投诉:

Sony Music: b23.tv/BV1cA411T7F2
Sony Music Entertainment (Japan) Inc: b23.tv/BV1hW4y1C7ja
Nippon Animation: b23.tv/BV1d341137tK

存档 API 已关。
😱15🤔1🤨1
Save The Web Project
二〇二三年的年终总结都写好了吗? https://github.com/saveweb/review-2023
在 2023 年的最后一天,发了年终总结的博客们!

真的出现了现在才发 2022 年终总结的神人!

(UTC+8; 混入了少数非年终总结的博文; 晚些时候再同步到仓库里)
8😁4🥰2🤯2