不要使用
很明显我们没有在谈论 。
然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
b23.tv 短链,b23.tv 短链只有超短的一年有效期。b23.tv/[av|BV]然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
👍27❤1
WARCs all the way going forward my friends! -- Zeno developer
STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的
在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。
特性:
- 由 IA 维护
- 除了 IA,
-
- 并发
- 有代码,
- 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。
- 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio)
- 可随机使用 IP 出口
- 即将支持 DNS archiving
在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在
我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But
所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。
#STWP #WARC #Zeno
❤17👍2🔥2
hedgedoc 的 demo 实例 2024 年 06 月左右由于被滥用,停止了服务并将旧有数据存档到了 https://demo-archive.hedgedoc.org (存档站预计将在 2025年初关闭)。
https://community.hedgedoc.org/t/status-of-the-demo-instance/1634
如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息
https://community.hedgedoc.org/t/status-of-the-demo-instance/1634
如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息
demo-archive.hedgedoc.org
HedgeDoc - Ideas grow better together
Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。
https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/
似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。
目前 cache: 运算符依然有效。
#Google #Wayback
https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。
#Google #Wayback
👍18🥰5
曲奇云盘于9月30日停服。用户需尽快下载数据。
https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw
#新闻 #曲奇云盘
Announce Cookie Down When September Ends
https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw
#新闻 #曲奇云盘
Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
博客园清偿完了贷款。
https://www.cnblogs.com/cmt/p/18432948
#新闻 #博客园
这三年困难阶段,园子靠想尽各种方法贷款维持,负债累累下园子的发展寸步难行,救园是为了还掉贷款,渡过难关。
截止9月30日 23:15,当天总收入¥189,662,两天累计收入¥350,992(包含会员、捐助、周边),另外收到2位园友的6w借款,1位园友的6w投资,总计53w。
https://www.cnblogs.com/cmt/p/18432948
#新闻 #博客园
Cnblogs
风雨过后见彩虹:救园成功 - 博客园团队 - 博客园
如果终身VIP会员名额满了,说明救园肯定成功了。如果终身VIP会员名额没满,还要看年度会员、周边、捐助、赞助的收入情况,只要2天收入达到40w左右,救园就成功了。如果救下来,就是园子的一次重生,就是一次脱胎换骨的辞旧迎新(10月开始建设新园子)
🎉50👍1
Forwarded from QAQ
你们刚在说什么呢。现在显示器不是都支持800*600了吗,640*480是上个世纪的东西了🤪
🐳19❤1
2005-2024,天涯小筑正式谢幕 [原文(已无法访问), STWP 快照]
天涯小筑 - 通向英语电视世界的中文门户
时间线:
2014/11/24 - 《预告:本站作为常规美剧新闻网站的使命将在一个月后正式结束》 [IA]
(此时是射手网关闭后的第三天,而实际上天涯小筑又持续更新了5年。见下方时间线……)
2015/03/17 - 《(希望不是永久)再见,亲爱的朋友们!》 [IA]
2019/06/30 - 《感谢各位关注本人近况 本站将继续停止更新》 [IA]
2024/10/10 - 《2005-2024,天涯小筑正式谢幕》 [STWP 快照]
———
我们已经存完了它现有的 22502 篇文章。(不包含 donatino.skygate[.]cn 2005-2011 这个时间段的文章)。
总共 8.3GiB WARC(去重压缩后),不多。等 IA 恢复就上传。
天涯小筑 - 通向英语电视世界的中文门户
时间线:
2014/11/24 - 《预告:本站作为常规美剧新闻网站的使命将在一个月后正式结束》 [IA]
(此时是射手网关闭后的第三天,而实际上天涯小筑又持续更新了5年。见下方时间线……)
我当然可以用网站来赚钱,或者在上传的视频中给自己「打广告」,但我过去没有这样做,今后也不会这样做——这违背了真正的网络分享精神。只有第一代网络人才明白什么是真正的网络分享精神,对于那些一边偷偷数钞票一边自诩「分享者」的人……我只能感到遗憾。对于那些做了一丁点好事还要强行留名的假雷锋……我同样只能感到遗憾。
2015/03/17 - 《(希望不是永久)再见,亲爱的朋友们!》 [IA]
「我已被确诊为中度肝硬化,下一步的发展方向便是死亡率极高的肝癌。」
「本站已经陪伴大家度过了整整10年。「遥想」当年,当本站还在使用 donatino.skygate.cn 域名时(很遗憾,那个域名因为种种原因已被废弃,2005年-2011年的所有内容全都化为流水,虽然我有完整的内容备份,但要恢复那些内容太费时费力),当我发表第一篇文章《迷你剧《Taken》(异度接触/劫持)[简介]》和第一个组图《大型图片展:我最喜欢的古装电视剧女演员及其角色》时,谁又能料到这个小小的个人博客能维持10年时光?出于对电视剧和幻想(科幻)的共同爱好,我结识了许多朋友,也向大家介绍了许多剧集。我「发明」过许多如今美剧界已经普遍使用的专有名词,也为许多剧集起过中文名字,我甚至还写过长篇大论来描述科幻剧的历史和剧集的开发史。但是这些都已经过去,我这个「老朽」已经有了无数接班人,我好高兴。历史的车轮注定是要前进的,《天涯小筑》也不可能永恒。我一直十分喜欢斯皮尔伯格电影《人工智能》(AI)的这句台词:「I am, I was.」我只是个普通人,我并不想得到什么,但《天涯小筑》这十年让我的存在被人记住,被人认可,我的人生总算有些亮色。我不想离开大家,但人的遭遇却由不得你自己做主。」
「话不絮烦,请大家不要为我担心,我的心态很好。我有信心战胜疾病,一年,两年……只要是条件允许、身体允许,我会再回来的。但是如果有一天我离大家而去,请大家记住我——这个曾经默默给大家做过些许奉献的人。」
2019/06/30 - 《感谢各位关注本人近况 本站将继续停止更新》 [IA]
因父母双亲三月份同时重病住院,我一方面要做「孝子」,另一方面自己身上多年来也积累了很多伤病,再加上工作和生活上的压力,这几个月确实过得很糟糕。从四月初开始,本站已经停止更新。以我目前的状态,在可以预见的未来都不可能有精力恢复本站的日常更新,敬请原谅
2024/10/10 - 《2005-2024,天涯小筑正式谢幕》 [STWP 快照]
感谢各位朋友多年来的关心与支持,本站将于10月17日站点服务到期后自动下线,永久关闭。我本想再延续一年,让本站凑满20周年,但那其实没什么意义。自2005年以来,《天涯小筑》在昔日“飞翔网”的帮助下一路走来,一直坚持独立发展、义务服务的模式。如今,一个时代已经过去,另一个时代正在飞速发展,与大家道别的日子也终于来临。我相信,每一个成熟起来的人,终会和我一样有成年人的责任与义务。每一个真正热爱自己国家的人更会感受到,别人的文化虽好,但自己的文化更好。
朋友们,再见了~~衷心祝福你们幸福、快乐。
《天涯小筑》,2005-2024。
———
我们已经存完了它现有的 22502 篇文章。(不包含 donatino.skygate[.]cn 2005-2011 这个时间段的文章)。
总共 8.3GiB WARC(去重压缩后),不多。等 IA 恢复就上传。
tvfantasy.net
2005-2024,天涯小筑正式谢幕 | 天涯小筑
天涯小筑是一个权威的英语电视剧信息博客网站,提供美国、英国、加拿大、澳大利亚电视剧集的最新资讯和所有新剧的详细介绍。
🫡26
STWP 2024 第 42 周周报
本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?
STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler
STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。
本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。
- @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。
#STWP
本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?
STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler
STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。
本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry 。
- @rowink:matrix.org 觉得 search.saveweb.org “有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。
#STWP
❤14🥰2👍1
STWP 2024 第 43 周周报
周报迟到,因为本周确实无事。
STWP 本周进展:
- 某项目:完成阶段目标。
- 某项目: @Ovler 在写克隆 API,然后大家发现 @oveRidea_China 6月份搓的代码貌似改改还能用,于是捡起来……? 才怪!
本周疑问:
- JavaScript 中生成 RSS/ATOM 什么库好用?
#STWP
周报迟到,因为本周确实无事。
STWP 本周进展:
- 某项目:完成阶段目标。
- 某项目: @Ovler 在写克隆 API,然后大家发现 @oveRidea_China 6月份搓的代码貌似改改还能用,于是捡起来……? 才怪!
没用!全新手搓了!
逻辑和依赖全部重做!
本周疑问:
- JavaScript 中生成 RSS/ATOM 什么库好用?
#STWP
🔥3