# 科学网博客平台存档计划
科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。
> 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。)
其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!)
因此我们发起「科学网博客平台存档计划」,这是个长期项目,完成第一阶段的存档行动后,会定期 跟踪并存档 平台上新发布的文章。
目前用于该项目的存档脚本程序已经写好并运行。会将所有文章的 URL 推送到 archive.org 存档,待第一阶段存档完成后,我们会将详细存档结果(
估计需要存档的文章数量在一百万左右,仅存档可公开访问的文章。
科学网的博客平台( https://blog.sciencenet.cn )是国内少有的能存活到现在的博客平台(2007~)。
> 「科学网」由「中国科学报社」运营。「中国科学报社」是「中国科学院」所属唯一经国家新闻出版署批准的新闻媒体单位。(一句话:背景很大。)
其博客平台粗略目测没有任何广告,建站之初(2007)的老文章的存活率很高,而现今这个博客平台仍然有大量的活跃用户和新文章发布(估计每5分钟就会有一篇新文章,且多为长篇)。(一句话:存档价值很高!)
因此我们发起「科学网博客平台存档计划」,这是个长期项目,完成第一阶段的存档行动后,会定期 跟踪并存档 平台上新发布的文章。
目前用于该项目的存档脚本程序已经写好并运行。会将所有文章的 URL 推送到 archive.org 存档,待第一阶段存档完成后,我们会将详细存档结果(
Archive.log)公开。估计需要存档的文章数量在一百万左右,仅存档可公开访问的文章。
👍14❤2😱1
大家有没有什么网页需要不定期 archive ? ,例如:新闻资讯、论坛、热搜、视频投稿页面等各种经常更新的页面。
评论区留下链接即可!🙏
评论区留下链接即可!🙏
❤8
Forwarded from 你有一个打折需要了解 (NT³)
许久不见,中秋节快乐🌕
相信已经很多朋友已经获知,我们近期在 Telegram 上打造了一个专门存储游戏方面书籍的频道——『游戏书籍 Hub』
以尽可能在稳定保存的环境下,以供大家未来阅读、怀念、和研究游戏发展史。
现在,大部分书籍已正式整理完毕,欢迎查阅。
我们得到了来自五湖四海的帮助,并尽最大可能收集、上传了目前能收集到的游戏书籍。
许多曾经出版、曾辉煌一时,但如今已难以查找的游戏书籍得以获得了整理和保存,感谢大家。
最后,我们发现即便是 http://archive.org ,这方面的资源仍然相对空白。我们手上有着许多上面没有,但出版社已经倒闭多年的书籍。
因此,我们也安排了人员将上面没有的书籍进行上传,以获得更专业和长久的保存。
感谢各位帮忙,并祝中秋快乐。
作者 @nt_cubic
#游戏书籍 #NY2164
相信已经很多朋友已经获知,我们近期在 Telegram 上打造了一个专门存储游戏方面书籍的频道——『游戏书籍 Hub』
以尽可能在稳定保存的环境下,以供大家未来阅读、怀念、和研究游戏发展史。
现在,大部分书籍已正式整理完毕,欢迎查阅。
我们得到了来自五湖四海的帮助,并尽最大可能收集、上传了目前能收集到的游戏书籍。
许多曾经出版、曾辉煌一时,但如今已难以查找的游戏书籍得以获得了整理和保存,感谢大家。
最后,我们发现即便是 http://archive.org ,这方面的资源仍然相对空白。我们手上有着许多上面没有,但出版社已经倒闭多年的书籍。
因此,我们也安排了人员将上面没有的书籍进行上传,以获得更专业和长久的保存。
感谢各位帮忙,并祝中秋快乐。
作者 @nt_cubic
#游戏书籍 #NY2164
Telegram
游戏书籍 Hub
整理并收录上传到 TG 上的游戏杂志频道
管理员: @nt_cubic
管理员: @nt_cubic
❤7
Save The Web Project
# 大家一起收集整理老光盘、老软件(Link) QQ群号:854318908 Telegram: https://news.1rj.ru/str/+gTUsMX3n_g8yNzc1 - 已分享内容列表 - 已分享内容检索系统 (支持搜索光盘内部的文件) 欢迎伸手党,本倡议的目的就是为了让老光盘不消失,让大家尽量容易地得到老光盘中的内容,如果你只为下载,没有光盘可分享,可以不用加群,群里分享的光盘已全部包含在上述汇总文档中了。 当然了,也更加欢迎加群分享您手上的光盘。 就像老电脑正在消失一样,老的软件和光盘也正在消失,希…
爱范儿(
文件下载地址:https://oddownload.nuduseng.com/
——
*
* 项目检索系统的搜索结果中也加入了 http 直链;
* http 服务器的文件同步尚未完成,大多数直链暂无法下载,截至发稿时,已完成 11/42 的下载进度。
——
STWP 在此再次呼吁各位 Data Holder 为此项目作种。有磁带的(反正我是没有的)可以考虑写带存档。
#新闻 #友情广告
ifanr.com)赞助了「老光盘老软件」项目,为其存档的文件[注1]提供 http 直链下载支持!文件下载地址:https://oddownload.nuduseng.com/
——
*
[注1]:部分易受 DMCA 的音视频文件除外(?);* 项目检索系统的搜索结果中也加入了 http 直链;
* http 服务器的文件同步尚未完成,大多数直链暂无法下载,截至发稿时,已完成 11/42 的下载进度。
——
STWP 在此再次呼吁各位 Data Holder 为此项目作种。有磁带的
#新闻 #友情广告
爱范儿
聚焦新创和消费主题的科技媒体,成立于 2008 年 10 月,关注产品及体验,致力于“独立,前瞻,深入”的原创报道和分析评论,是国内唯一一家在产业和产品领域同时具有强势影响力的科技媒体。旗下现有 ifanr.com、SocialBase.cn、AppSolution、玩物志、创业及产品社区 MindStore 等多个细分领域的知名产品。
❤7🎉2
猜测国家图书馆的网页快照存档项目的规模与速度。
图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》
按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。
如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:
国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。
它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》
(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
(哪天有钱了,咋们也整个 heritrix 玩玩)
当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?
但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
图1,2020年09月 的论文中提到的 2018 年的数据——保存的数据量 210 TB。
——《国家图书馆网络资源采集与保存平台的技术实现》
图2,2021年03月 的论文中提到的最新数据(2021年3月)——300TB。
——《国家图书馆网络信息资源采集与保存平台关键技术实现》
按照论文里的说法,这个新(?)系统是 2018 年研制(基于 IIPC 的一整套轮子魔改)完成。那么算得国家图书馆的网页抓取量大概在每天 90 GiB 左右,且政府网站占其存档的比例约为 70% 。
如果每天抓取量在 90 GiB 左右的话,我们会得到一个很可笑的结论:
国家图书馆的网页抓取项目的有效数据录入带宽只有大约 10mbps 🙈🙈。
它的增量存档功能是居于 heritrix 3.4 二次开发。然后 heritrix 3.4 的第一个版本是在 2019-02 发布,并维护至今。——《国家图书馆WEB数据增量采集设计及其实现》
(它的存档系统有去重和压缩,但是这个存档效率真的……感觉一点都不“国家图书馆”)
(
当然,也许是我们对网页的“大小”预估太大了,或许大部分网页的单页体积其实很小?
抑或许是政府网站的变动率小,所以易于增量存档?
但 10 mbps 的有效信息采集速度实在是太慢啦!(而且其论文里提到他们是 html、css、js、图片都会全部采集的。)
# 语雀公开知识库紧急存档行动
语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。
因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(
发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)
由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。
或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。
因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(
archive.org) 做网页快照存档。发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档)
我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代码不会开源,但我们会公开存档范围和结果。)
由于缺少合适的方法来获取热门的语雀用户名,所以号召大家在本条消息的评论区发送你想让我们存档的语雀文档、知识库、用户主页等链接,我们会去重然后添加到我们的存档列表中。
或者发送你的用户主页链接,我们会把你关注列表里的用户全给存档。
👍11
Save The Web Project
# 语雀公开知识库紧急存档行动 语雀新定价规则计划在 2022 年 11 月 03 日上线,将停止免费用户的互联网公开分享功能,届时免费用户公开分享的内容可能会404。 因此我们准备在这几天内尽可能多地存档语雀的公开知识库,并将链接推送到 IA(archive.org) 做网页快照存档。 发稿时已完成 ~350 个热门语雀帐号的本地存档。(暂未推送到 IA 存档) 我们存档的全部语雀用户名列表可见 saveweb/yuque-archive-accounts-list-pub 。(为防滥用,此项目的代…
勘误&更新:
根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。
于是,我们有更多时间来抢救语雀的公开知识库了。
截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。
并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。
组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。
我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。
如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档。
----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
根据《语雀个人定价调整的致歉》,新定价规则将延迟到在11月中旬再上线。
于是,我们有更多时间来抢救语雀的公开知识库了。
截至发稿时,完成了 1400 个账号的全部知识库文档的本地存档(仅存档文本,不含图片)。
并且正在推送 400 个热门账号的知识库文档 url 到 IA (由于条件限制,哪怕一直推,下月中旬前也推不完全部,只能先将热门账号推完再说)。
组内成员亦有在做“不本地存档,获取全部文章的链接后,一股脑全推送给 IA”的存档路线,进展顺利。
我们将在语雀11月中旬上线新规后,结束并公布我们的存档结果和范围。
如果可行,在那之后,此紧急存档项目会转为长期维护的常态化存档项目,持续存档语雀付费优质内容创作者的知识库文档。
----
存档工作正在进行,欢迎各位继续在评论区提交语雀链接。
❤19
👍6🔥1😁1
Save The Web Project
「搜狗科学百科」将于 11 月 11 日关站。 注:「搜狗科学百科」与「搜狗百科」是两个不同的产品,不要混淆。 搜狗科学百科自己的介绍条目:「搜狗科学百科」(链接关站后失效) 此百科的亮点: - 各条目的分类依靠学科树 (链接关站后失效) - 对编辑者有专业要求 - 有同行评审 - 尝试建立自治社区 - 以 知识共享 署名-相同方式共享 3.0协议(CC-BY-SA 3.0)开放版权 截至目前,共积累了 849(?) 篇条目。 —— 我们正在存档此站。
尴尬了,我们发现 IA(
动用的还是 Wiki Collection 专项收集……
Internet Archive) 在 10 月 25号~28日 已经集中对「搜狗科学百科」做过条目网页的快照存档……动用的还是 Wiki Collection 专项收集……
译文:「如何成为“海盗”存档者?」出炉啦
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
片面地说,这是篇讲如何给盗版资源做存档的入门文章。
翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html
> Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。
翻译已得到了作者允许。👍13