Save The Web Project – Telegram
不要使用 b23.tv 短链,b23.tv 短链只有超短的一年有效期。

很明显我们没有在谈论 b23.tv/[av|BV]
然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
👍271
WARCs all the way going forward my friends! -- Zeno developer


STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。

在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。

特性:

- 由 IA 维护
- 除了 IA,没人用
- MyGo 写的
- 并发 bug 很多
- 有代码,没文档
- 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd,我们什么都愿意做的.jpg
- 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio)
- 可随机使用 IP 出口
- 即将支持 DNS archiving

过去一周的高密度 PR☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在差不多算是生产爆炸就绪了。

我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But it's MyGo!!!

所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。

#STWP #WARC #Zeno
17👍2🔥2
Live stream started
Live stream finished (1 hour)
MFM-HD 512K SSD
🤣20
hedgedoc 的 demo 实例 2024 年 06 月左右由于被滥用,停止了服务并将旧有数据存档到了 https://demo-archive.hedgedoc.org (存档站预计将在 2025年初关闭)。

https://community.hedgedoc.org/t/status-of-the-demo-instance/1634

如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息
Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。

https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/

似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。

目前 cache: 运算符依然有效。

#Google #Wayback
👍18🥰5
曲奇云盘于9月30日停服。用户需尽快下载数据。

https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw

#新闻 #曲奇云盘
Announce Cookie Down When September Ends
(`・ω・´)
58🫡11🥰3👍1
Forwarded from QAQ
你们刚在说什么呢。现在显示器不是都支持800*600了吗,640*480是上个世纪的东西了🤪
🐳191
2005-2024,天涯小筑正式谢幕 [原文(已无法访问), STWP 快照]

天涯小筑 - 通向英语电视世界的中文门户

时间线:

2014/11/24 - 《预告:本站作为常规美剧新闻网站的使命将在一个月后正式结束》 [IA]
(此时是射手网关闭后的第三天,而实际上天涯小筑又持续更新了5年。见下方时间线……)
我当然可以用网站来赚钱,或者在上传的视频中给自己「打广告」,但我过去没有这样做,今后也不会这样做——这违背了真正的网络分享精神。只有第一代网络人才明白什么是真正的网络分享精神,对于那些一边偷偷数钞票一边自诩「分享者」的人……我只能感到遗憾。对于那些做了一丁点好事还要强行留名的假雷锋……我同样只能感到遗憾。

2015/03/17 - 《(希望不是永久)再见,亲爱的朋友们!》 [IA]
「我已被确诊为中度肝硬化,下一步的发展方向便是死亡率极高的肝癌。」
「本站已经陪伴大家度过了整整10年。「遥想」当年,当本站还在使用 donatino.skygate.cn 域名时(很遗憾,那个域名因为种种原因已被废弃,2005年-2011年的所有内容全都化为流水,虽然我有完整的内容备份,但要恢复那些内容太费时费力),当我发表第一篇文章《迷你剧《Taken》(异度接触/劫持)[简介]》和第一个组图《大型图片展:我最喜欢的古装电视剧女演员及其角色》时,谁又能料到这个小小的个人博客能维持10年时光?出于对电视剧和幻想(科幻)的共同爱好,我结识了许多朋友,也向大家介绍了许多剧集。我「发明」过许多如今美剧界已经普遍使用的专有名词,也为许多剧集起过中文名字,我甚至还写过长篇大论来描述科幻剧的历史和剧集的开发史。但是这些都已经过去,我这个「老朽」已经有了无数接班人,我好高兴。历史的车轮注定是要前进的,《天涯小筑》也不可能永恒。我一直十分喜欢斯皮尔伯格电影《人工智能》(AI)的这句台词:「I am, I was.」我只是个普通人,我并不想得到什么,但《天涯小筑》这十年让我的存在被人记住,被人认可,我的人生总算有些亮色。我不想离开大家,但人的遭遇却由不得你自己做主。」
「话不絮烦,请大家不要为我担心,我的心态很好。我有信心战胜疾病,一年,两年……只要是条件允许、身体允许,我会再回来的。但是如果有一天我离大家而去,请大家记住我——这个曾经默默给大家做过些许奉献的人。」


2019/06/30 - 《感谢各位关注本人近况 本站将继续停止更新》 [IA]
因父母双亲三月份同时重病住院,我一方面要做「孝子」,另一方面自己身上多年来也积累了很多伤病,再加上工作和生活上的压力,这几个月确实过得很糟糕。从四月初开始,本站已经停止更新。以我目前的状态,在可以预见的未来都不可能有精力恢复本站的日常更新,敬请原谅

2024/10/10 - 《2005-2024,天涯小筑正式谢幕》 [STWP 快照]
感谢各位朋友多年来的关心与支持,本站将于10月17日站点服务到期后自动下线,永久关闭。我本想再延续一年,让本站凑满20周年,但那其实没什么意义。自2005年以来,《天涯小筑》在昔日“飞翔网”的帮助下一路走来,一直坚持独立发展、义务服务的模式。如今,一个时代已经过去,另一个时代正在飞速发展,与大家道别的日子也终于来临。我相信,每一个成熟起来的人,终会和我一样有成年人的责任与义务。每一个真正热爱自己国家的人更会感受到,别人的文化虽好,但自己的文化更好。

朋友们,再见了~~衷心祝福你们幸福、快乐。

《天涯小筑》,2005-2024。


———

我们已经存完了它现有的 22502 篇文章。(不包含 donatino.skygate[.]cn 2005-2011 这个时间段的文章)。
总共 8.3GiB WARC(去重压缩后),不多。等 IA 恢复就上传。
🫡26
STWP 2024 第 42 周周报

本周新闻:
- IA 即便宕机也要办活动 —— Escaping the Memory Hole 活动将于下周周三 2024-10-23 17:00 (UTC+8) 开始并线上直播。活动主题是:「在一个主要娱乐网站一夜之间消失、流媒体毫无征兆地从平台上消失的世界里,我们的数字文化面临着被抹去的风险。有哪些保障措施可以保存我们的集体记忆?」
- WordPress Foundation 向 IA 捐款十万$。究竟是人文关怀还是公关支出?

STWP 本周进展:
- 某项目:单机数据库迁副本集。重构,错误处理,Redis 队列,并行化。 @luoingly
- 天涯小筑:打好了 warc ,等待上传。 @yzqzss
- 某项目:4 号开始,已存四千万 post/comment ,预计下星期到目标高度。 @yzqzss
- 某项目:新适配了一个目标网站。 @Ovler

STWP 基建:
- 听闻 MongoDB 8.0 有性能提升,于是升级了。现在没荷载,不知性能改进的真假。
- 用超了 Grafana Cloud 的免费 10k metrics,遂自建 Grafana&Prometheus。大家都说“好用爱用”。

本周趣闻:
- 我们的三个 pypi 包本月的下载量激增到 4.9k/4.5k/2.3k。木有头绪。
- 在 IA 宕机的这段时间里, pypi 包 internetarchive 的下载量骤降。[twitter]
- 我们 biliarchiver 包的下载量大约是上游依赖包 bilix 的一半。
- Zeno 最近实现了“将 DNS 记录写进 warc 元数据”的功能,但没有实现 DNS fallback。这意外地让我们发现了 Hetzner 机子上长期以来各种对外网络请求超时的原因—— /etc/resolv.conf 中的第一个 nameserver 实际上无法使用。(hetzner 屏蔽了对外 DNS 请求,需要用它的自有 DNS,但 hetzner 没有屏蔽对这些 DNS ip 的 icmp ping。于是 systemd-resolver 发现能 ping 通 8.8.8.8/1.1.1.1 一众 DNS,延迟跟 Hetzner DHCP 下发的自有 DNS 差不太多,就在 /etc/resolv.conf 把这些实际被屏蔽的公共 DNS 设为首选,DHCP 下发的作为 Fallback)。
- 我们有台机子被禁了 UDP,时间漂了,故寻找不靠 UDP(NTP) 同步时间的优美方法。发现 HTP 这种从多个 http server 的 Date: header 取时间的方式非常地“优美”,非常 web 。还真别说,用上 HTP 这玩意后,发现它精准度还不错,误差最多十几毫秒级呢。另见:《HTP 笑传:扔掉 UDP,试试并不特殊的低精度时间同步》 by @wowjerry
- @rowink:matrix.org 觉得 search.saveweb.org有些rss输出markdown,搜索结果看着会有点乱”,想给它加个 markdown 渲染。而后他创建了他来到 GitHub 以来的第一个 PR,这个 PR 没有实现目标,他在后续的 PR 中完成吗?敬请期待。
- 《我有旧硬盘可以送你们》故事主人公的后续:“硬盘已经被其他人分得七七八八了,因为实验室搬了”。

#STWP
14🥰2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
这么酷炫一定要发出来。

@gledos_greensearch.saveweb.org 画了个动态 icon 。
18💯4🏆3👍1🥰1
Forwarded from 布里吉斯
ichouti.cn
抽屉居然打赢复活赛了
👍6😨2
STWP 2024 第 43 周周报

周报迟到,因为本周确实无事。

STWP 本周进展:
- 某项目:完成阶段目标。
- 某项目: @Ovler 在写克隆 API,然后大家发现 @oveRidea_China 6月份搓的代码貌似改改还能用,于是捡起来……? 才怪!
没用!全新手搓了!
逻辑和依赖全部重做!


本周疑问:
- JavaScript 中生成 RSS/ATOM 什么库好用?

#STWP
🔥3
pip(x) install git+https://git.saveweb.org/saveweb/aixifan_videoinfo@v0.1.4-compatible
aixifan_videoinfo


🧐长期,不紧急,最近没啥事,发出来大家可以跑着玩。
👍2