Save The Web Project
我们又买下了 saveweb.org (域名的原持有者在 2010 年注册后,于近期不再续费)
# saveweb.org 域名的故事
saveweb.org 原本是一位名为 Fedor Sulyagin 的俄罗斯人创建的网页截图快照项目[1][2],但该项目自 2012 年后就无限期冻结(也许是资金原因),令人惊奇的是这个网站直到 2023 年域名过期前首页也一直挂着项目冻结告示[3],十多年诶!
[1 - 项目介绍自述{俄语}] https://habr.com/ru/articles/114921/
[2 - saveweb.org] http://web.archive.org/web/20110825153101/http://saveweb.org/
[3 - 项目冻结告示{俄语}] http://web.archive.org/web/20121231102116/http://saveweb.org/
[4 - 有意思的 robots.txt] http://web.archive.org/web/20110523000930/http://www.saveweb.org/robots.txt
saveweb.org 原本是一位名为 Fedor Sulyagin 的俄罗斯人创建的网页截图快照项目[1][2],但该项目自 2012 年后就无限期冻结(也许是资金原因),令人惊奇的是这个网站直到 2023 年域名过期前首页也一直挂着项目冻结告示[3],十多年诶!
[1 - 项目介绍自述{俄语}] https://habr.com/ru/articles/114921/
[2 - saveweb.org] http://web.archive.org/web/20110825153101/http://saveweb.org/
[3 - 项目冻结告示{俄语}] http://web.archive.org/web/20121231102116/http://saveweb.org/
[4 - 有意思的 robots.txt] http://web.archive.org/web/20110523000930/http://www.saveweb.org/robots.txt
👍19
Save The Web Project
https://archive.org/details/bilibili_videos IA 上的 BiliBili Videos Collection 现已创建! (感谢 Archive Team & Internet Archive 的 arkiver ) 现已有 3k+ 视频。 各位在 B 站碰到好视频/UP不妨存一存&上传IA。😊 讨论:https://news.1rj.ru/str/saveweb_projects/208
接下来的 bilibili 存档专题(不限 B 站,其他平台有也可以存):
1. 各种学术|行业讲座、交流会、沙龙、讨论会,演讲。
2. 从 cnki/维普/arxiv 等各种论文库全文搜索引用了 bilibili 视频的论文,然后存这些被引视频。
3. 人物访谈。
4. 各种产品发布会(包括2C、2B、2G)
对于 1. 和 2. ,我们需要一个学科分类表、行业词库,以便通过领域关键词找到这些视频。
对于 2. ,一些期刊可能需要好心人帮忙下😂。
对于 1. 和 3. ,我们需要社会名人/知识分子清单。
对于 4. ,消费电子推荐存档已经死掉的产品线/品牌的产品发布会,列出产品清单(参考 https://github.com/saveweb/product-launch-events/issues/1 )。政府|商业|工业发布会等随意。
大概的存档类型样本可以见 https://news.1rj.ru/str/+ibNyu3ZpXeJlMzU1 最近存档的视频。
入群参与: https://news.1rj.ru/str/saveweb_projects/208
1. 各种学术|行业讲座、交流会、沙龙、讨论会,演讲。
2. 从 cnki/维普/arxiv 等各种论文库全文搜索引用了 bilibili 视频的论文,然后存这些被引视频。
3. 人物访谈。
4. 各种产品发布会(包括2C、2B、2G)
对于 1. 和 2. ,我们需要一个学科分类表、行业词库,以便通过领域关键词找到这些视频。
对于 2. ,一些期刊可能需要好心人帮忙下😂。
对于 1. 和 3. ,我们需要社会名人/知识分子清单。
对于 4. ,消费电子推荐存档已经死掉的产品线/品牌的产品发布会,列出产品清单(参考 https://github.com/saveweb/product-launch-events/issues/1 )。政府|商业|工业发布会等随意。
大概的存档类型样本可以见 https://news.1rj.ru/str/+ibNyu3ZpXeJlMzU1 最近存档的视频。
入群参与: https://news.1rj.ru/str/saveweb_projects/208
GitHub
北京神奇工场科技有限公司 | ZUK | 自由客 · Issue #1 · saveweb/product-launch-events
统一社会信用代码:91110108318338204D 发布过的产品: Z1 【常程\联想手机】ZUK Z1新品发布会现场视频,常程在联想公司的发布会首秀。 P1 第一部分 : 爱豆正当时的青春 : Free Download, Borrow, and Streaming : Internet Archive 【常程\联想手机】ZUK Z1新品发布会现场视频,常程在联想公司的发布会首秀。 P...
❤4
## 是你了!想小小地参与 Internet Archive 的 Radio Programs 吗?Internet Archive STWP 需要你!🌚
成为本次众包元数据收集活动的小小志愿者吧!这次真的真的是无门槛了,欢迎大家踊跃参与!
要做的事情很简单,加入 https://news.1rj.ru/str/saveweb_projects/6155 群,然后大喊一句“来个任务”,我们会从 https://www.cnr.cn/gbzb/ 上找个广播让你完善下面的元数据填下模板。过程非常简单,只需要 F12 复制一下链接,搜下简介和广播电台的别名,再发出来就可以了。如果你喜欢某个广播电台,也可以主动提交它们到 https://github.com/saveweb/radios 而不由我们派发(最好发下消息告知一下)。
之后我们会将给元数据整理发给 IA 。4 个月过去了,他们终于准备好接收全部的中文广播了 。
同时欢迎港澳台的朋友提交当地广播电台!
元数据模板
成为本次众包元数据收集活动的小小志愿者吧!这次真的真的是无门槛了,欢迎大家踊跃参与!
要做的事情很简单,加入 https://news.1rj.ru/str/saveweb_projects/6155 群,然后大喊一句“来个任务”,我们会从 https://www.cnr.cn/gbzb/ 上找个广播让你完善下面的元数据填下模板。过程非常简单,只需要 F12 复制一下链接,搜下简介和广播电台的别名,再发出来就可以了。如果你喜欢某个广播电台,也可以主动提交它们到 https://github.com/saveweb/radios 而不由我们派发(最好发下消息告知一下)。
之后我们会将给元数据整理发给 IA 。
同时欢迎港澳台的朋友提交当地广播电台!
元数据模板
www.cnr.cn
广播直播·央广网
央广网是由中央广播电视总台主办的,中国最大的音频新闻网站,是中央重点新闻网站和中国最具影响力的网络媒体之一,旨在通过互联网“让中国的声音传向世界”。作为互联网新闻传播的国家队,央广网不断创新传播理念和发展模式,“讲好中国故事传播中国声音”。充分发挥原创新闻优势,以权威、及时、多样为特色,主打“快新闻”,突出“央广独家”。专注报道时事新闻,把握热点资讯,关注民生话题,第一时间发出央广权威评论,引领正确舆论导向。
🥰2👍1
Save The Web Project
## 是你了!想小小地参与 Internet Archive 的 Radio Programs 吗?Internet Archive STWP 需要你!🌚 成为本次众包元数据收集活动的小小志愿者吧!这次真的真的是无门槛了,欢迎大家踊跃参与! 要做的事情很简单,加入 https://news.1rj.ru/str/saveweb_projects/6155 群,然后大喊一句“来个任务”,我们会从 https://www.cnr.cn/gbzb/ 上找个广播让你完善下面的元数据填下模板。过程非常简单,只需要 F12 复制一下链…
没人参与……
现在降低难度,有手就行。只需要在 saveweb/radios 参照 temp.yml 修改 Local/ 或者 National/ 目录下的任意 Last commit message 不为 “scraped data”(即内容为 "
就只需要完善下
<讨论群>
现在降低难度,有手就行。只需要在 saveweb/radios 参照 temp.yml 修改 Local/ 或者 National/ 目录下的任意 Last commit message 不为 “scraped data”(即内容为 "
submitted: no") 的 .yml 文件就行,完善一个也是完善。目前还有 200+ 个广播,我一个人弄太费时间了。就只需要完善下
noscript, denoscription, homepage, schedule ,有手就行。<讨论群>
GitHub
GitHub - saveweb/radios
Contribute to saveweb/radios development by creating an account on GitHub.
🤣6😁3
bilibili 存档 API 已开放,欢迎测试。
http://hz1.server.saveweb.org:41835 (临时地址,IPv4/6)
<讨论群>
http://hz1.server.saveweb.org:41835 (临时地址,IPv4/6)
POST /archive/BVXXXXXX # 提交视频到 pending 队列,也可以用 PUT
DELETE /archive/BVXXXXXX # 从 pending 队列中移除
GET /archive/BVXXXXXX # 查任务状态
GET /archive # 查看 pending 队列 + 最近完成的最多 250 个任务的状态。
<讨论群>
1.7亿篇科技文献 PubScholar公益学术平台今日向社会开放
给中科院打 #广告 ,大雾。
索引了很多数据库的元数据(含摘要,不含全文),又多了一个 all in one 找东西的地方。
专利数据库没有登陆墙,直链,算是特点。
貌似有些数据资源方虽然挂着 logo 但还没对接,比如某知网。
#新闻
---
update: 访问量过高,已经被薅秃了。
给中科院打 #广告 ,
索引了很多数据库的元数据(含摘要,不含全文),又多了一个 all in one 找东西的地方。
专利数据库没有登陆墙,直链,算是特点。
貌似有些数据资源方虽然挂着 logo 但还没对接,比如某知网。
#新闻
---
update: 访问量过高,已经被薅秃了。
pubscholar.cn
PubScholar公益学术平台
PubScholar公益学术平台是中国科学院作为国家战略科技力量的主力军,履行学术资源保障“国家队”职责,为满足全国科技界和全社会科技创新的学术资源基础保障需求,建设的提供公益性学术资源的检索发现、内容获取和交流共享等服务的平台。平台在尊重知识产权和国际通行规范的前提下,发挥中国科学院自身拥有丰富且高质量学术资源的优势,带动国内外的学术资源机构积极合作,最大限度地开放优质学术资源。目前,平台整合集成了中国科学院的科技成果资源、科技出版资源和学术交流资源;OA环境下允许集成服务的学术资源;以及通过协议授权…
👍6❤4
Save The Web Project
bilibili 存档 API 已开放,欢迎测试。 http://hz1.server.saveweb.org:41835 (临时地址,IPv4/6) POST /archive/BVXXXXXX # 提交视频到 pending 队列,也可以用 PUT DELETE /archive/BVXXXXXX # 从 pending 队列中移除 GET /archive/BVXXXXXX # 查任务状态 GET /archive # 查看 pending 队列 + 最近完成的最多 250 个任务的状态。 <讨论群>
喵喵的 bilibili 存档 bot @lefetchbot 上线啦。
向其发送
注意:我们会主动删除潜在的易被 DMCA take down 的内容。
https://github.com/saveweb/biliarchiverbot
向其发送
/bili <BV号或带BV号的视频链接(非b23短链)>即可存档 bilibili 视频。bot 也可在群内使用。
注意:我们会主动删除潜在的易被 DMCA take down 的内容。
https://github.com/saveweb/biliarchiverbot
🥰5👍2🤔1
Prolific PL2303 与软盘存档项目
笔者很久之前买了一条 USB 转 RS232 的线,但是作者的那台装着 Windows 11 的电脑始终装不上驱动,后来一查需要安装一个旧版驱动,而新版驱动则是[1]故意限制 Windows 11 使用旧设备。
为什么说这和软盘存档项目有关呢? 这纯粹是 Prolific 搞的计划报废,通过故意限制旧设备在新系统上的使用,来迫使用户购买新的转接线;而软盘存档项目其中一个目的就是保留一些老设备的驱动防止老设备被迫成为废铁。
虽然 Prolific 那边又发布了新版芯片,但是谁知道他们会不会继续复刻这种行为呢?不过正因为Linux上面有开源驱动,所以这个问题在Linux上面(应该)不会存在。
[1] https://misc.daniel-marschall.de/patches/prolific_drivers/
笔者很久之前买了一条 USB 转 RS232 的线,但是作者的那台装着 Windows 11 的电脑始终装不上驱动,后来一查需要安装一个旧版驱动,而新版驱动则是[1]故意限制 Windows 11 使用旧设备。
为什么说这和软盘存档项目有关呢? 这纯粹是 Prolific 搞的计划报废,通过故意限制旧设备在新系统上的使用,来迫使用户购买新的转接线;而软盘存档项目其中一个目的就是保留一些老设备的驱动防止老设备被迫成为废铁。
虽然 Prolific 那边又发布了新版芯片,但是谁知道他们会不会继续复刻这种行为呢?不过正因为Linux上面有开源驱动,所以这个问题在Linux上面(应该)不会存在。
[1] https://misc.daniel-marschall.de/patches/prolific_drivers/
Dism++ 老用户请注意,请于今日发送不少于 520 字的《年度Dism++改进意见》到 mingkuang@live.com 。
根据其用户协议:
如果您不遵守以上条款,即被视为 Dism++ 的盗版用户。🧐
根据其用户协议:
满 30 天后的用户(包含节假日)需向小鸭子(Email:mingkuang@live.com)邮箱发送一份不少于 345 字的《Dism++体验报告》。满 8 个月的老用户,每年的 11 月 11 日(当地时间)还需要发送不少于 520 字的《年度Dism++改进意见》。
如果您不遵守以上条款,即被视为 Dism++ 的盗版用户。🧐
GitHub
Dism-Multi-language/Languages/zh-Hans.xml at d9ed286484c581256c3acc2ccb41d1f48deeba56 · Chuyu-Team/Dism-Multi-language
Dism++ Multi-language Support & BUG Report. Contribute to Chuyu-Team/Dism-Multi-language development by creating an account on GitHub.
😁19👍1🥰1👏1
在 Telegram,存 [Media|Doku]Wiki !
@DigitalDwagon 的 WikiBot 来到 Telegram 了。
现在,你不需要安装 WikiTeam3 或 DokuWikiDumper ,发现了任何 wiki ,把存档命令喂给 @wikiteambot 就好。
使用帮助:https://cdn.digitaldragon.dev/wikibot/help.html (注:Telegram 这边需要用 / 替换掉 ! 作为命令头)
例如:
另外,虽然 bot 现在接受私聊,但为了让我们知晓您的操作,推荐在群聊中发送命令。
@DigitalDwagon 的 WikiBot 来到 Telegram 了。
现在,你不需要安装 WikiTeam3 或 DokuWikiDumper ,发现了任何 wiki ,把存档命令喂给 @wikiteambot 就好。
使用帮助:https://cdn.digitaldragon.dev/wikibot/help.html (注:Telegram 这边需要用 / 替换掉 ! 作为命令头)
例如:
/mw --url https://example.com/ --xml --xmlrevisions --images --explain "no coverage"另外,虽然 bot 现在接受私聊,但为了让我们知晓您的操作,推荐在群聊中发送命令。
GitHub
GitHub - DigitalDwagon/WikiBot: WikiBot: It archives wikis!
WikiBot: It archives wikis! Contribute to DigitalDwagon/WikiBot development by creating an account on GitHub.
👍4
#快讯
IA 正在激进地封禁(dark/take down)大量帐号以应对 spam,建议大家近期不要上传 item 以免麻烦。
- digitaldragons 的 wikibot 昨天被 dark 了: https://archive.org/details/@digitaldragons
- 我们 BiliBili 存档用的 bot 帐号今天被 dark 了:https://archive.org/details/@biliarchiver_bot
- 我们的 ChinaXiv 存档帐号更是离谱,昨天创了两个测试 item,且元数据格式比较规范,今天也被 dark 了:https://archive.org/details/@chinaxiv_mirror_project
- 我们的 https://archive.org/details/@save_the_web_project 被 dark
在我们得到进一步信息前,bilibili 存档 API 和 bot 先暂时关闭。
wikibot 仍然可以用,且可以正常上传,只是不能访问用户页了。
[p1] item be taken down(darkend)
[p2] IA dark 各种帐号的操作日志
IA 正在激进地封禁(dark/take down)大量帐号以应对 spam,建议大家近期不要上传 item 以免麻烦。
- digitaldragons 的 wikibot 昨天被 dark 了: https://archive.org/details/@digitaldragons
- 我们 BiliBili 存档用的 bot 帐号今天被 dark 了:https://archive.org/details/@biliarchiver_bot
- 我们的 ChinaXiv 存档帐号更是离谱,昨天创了两个测试 item,且元数据格式比较规范,今天也被 dark 了:https://archive.org/details/@chinaxiv_mirror_project
- 我们的 https://archive.org/details/@save_the_web_project 被 dark
在我们得到进一步信息前,bilibili 存档 API 和 bot 先暂时关闭。
wikibot 仍然可以用,且可以正常上传,只是不能访问用户页了。
[p1] item be taken down(darkend)
[p2] IA dark 各种帐号的操作日志
顺带宣布一下我们对 ChinaXiv.org 的存档项目。存档项目名定为: ChinaXivXiv 或 ChinaXiv Mirror Project
> ChinaXiv 是中科院维护的一个类似 arXiv 的预印本平台(当然规模小很多)。
为啥存它:
- 开放获取,根据其 license,只要署源留链即可任意再分发。
- 目前网上没有看到别的地方有它的内容镜像。
- 近几年的新 paper 实际上没有镀 DOI ,显示的 DOI 是假的。
- 声明“永久访问”,实际上他们会删历史版本文件。(我们边爬,他们边删;是否会删论文还不确定,需要长期观察)
- 网站极其不稳定。
目前已完成 27k 个有效版本id(一篇论文一般有1~2个版本)的元数据爬取和文件下载。数据量特小,只有~50G。
之后会将文件和元数据都完整的论文传 IA (少部分我们爬取流程还没跑完,ChinaXiv 就把东西删了)
(另外还发现有几百篇实际存在的 paper 的详情页根本就打不开,会循环 302 到详情页自身)
<项目群>
> ChinaXiv 是中科院维护的一个类似 arXiv 的预印本平台(当然规模小很多)。
为啥存它:
- 开放获取,根据其 license,只要署源留链即可任意再分发。
- 目前网上没有看到别的地方有它的内容镜像。
- 近几年的新 paper 实际上没有镀 DOI ,显示的 DOI 是假的。
- 声明“永久访问”,实际上他们会删历史版本文件。(我们边爬,他们边删;是否会删论文还不确定,需要长期观察)
- 网站极其不稳定。
目前已完成 27k 个有效版本id(一篇论文一般有1~2个版本)的元数据爬取和文件下载。数据量特小,只有~50G。
之后会将文件和元数据都完整的论文传 IA (少部分我们爬取流程还没跑完,ChinaXiv 就把东西删了)
(另外还发现有几百篇实际存在的 paper 的详情页根本就打不开,会循环 302 到详情页自身)
<项目群>
🤡7👍3🤔1