Save The Web Project – Telegram
Save The Web Project
Photo
感谢 ArchiveTeam。
来自抽屉的 13,623,632 个外部网页链接(多为新闻、帖子)已全部完成爬取,其中有效的网页(预计 >20% <70%)已编入 Wayback Machine 中。
👍9
Save The Web Project
https://git.saveweb.org/saveweb/acfunction_go/releases 尝试存档 AcFun 全站弹幕。(目标高度:2亿) Coming s∞n: AcFun 视频存档。 #FunWithoutB
目前所有的 DPoS 项目都已获得半官方的 docker 容器支持(目前仅提供 Linux amd64/arm64 镜像)
容器运行不污染环境,不会遇到依赖项无法满足的问题,且开箱就能获得不错的安全隔离,推荐 Linux/macOS 用户使用
🥰4
Q: 雨天时,当地的互联网带宽用量会比平时高一些吗?
我们统计了历年 AcFun 的全站弹幕数量,不出所料,发现 AcFun 用户触目惊心地巨量流失。
目前弹幕发送量不及其 2016 年的 3%,甚至不如当年(2018年)“倒闭”时的 16%。

(考虑到 2024 年才过去一半,于是在表上将它今年的数据翻了倍。)

#互联网观察

(另外。刚才两条消息发出后发现是误判,故撤回)
😁18😢8👍1
喜讯喜讯,特大喜讯,CentOS7 EOL 了!
🎉🎊🎉
👏18
抽屉新热榜 已于 2024-06-30 彻底关停。
😭5😇3
Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
#help

STWP 存档冲击!
要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……

download https://example.org/releases/download/v-{蛋糕} now!

(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)

darwin-amd64
darwin-arm64
linux-amd64
linux-arm
linux-arm64
windows-amd64.exe


———

担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!

echo Hello World

⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
🤣205🤩3🥰1
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org/blog/critical-window-chinese.html

仍然存在许多小型馆藏的长尾,每天都有新书被扫描或出版,但增长速度可能会逐渐减缓。我们的规模可能还会翻一番甚至增加两倍,但这将在更长的时间内发生。

过去10年中,硬盘成本每TB大致减少了三分之一,并且可能会继续以类似的速度下降。磁带似乎也在类似的轨迹上。固态硬盘价格下降速度更快,可能会在本世纪末超过硬盘价格。

一直以来都有第三种选择,但它的质量如此糟糕,以至于我们从未考虑过它:OCR,即光学字符识别。这是通过使用AI检测照片中的字符,将照片转换为纯文本的过程。这方面的工具长期以来一直存在,而且相当不错,但对于保存目的来说,"相当不错"是不够的。

然而,最近的多模态深度学习模型取得了极其快速的进步,尽管成本仍然很高。我们预计准确性和成本在未来几年内将大幅提高,到那时将有可能应用于我们整个图书馆。

总的来说,预计总文件大小至少会减少5-10倍,甚至更多。即使保守地减少5倍,即使我们的图书馆规模增加了三倍,在10年内我们也只需要1,000美元到3,000美元。


不幸的是,大语言模型的出现及其对数据的饥渴训练,使许多版权持有者变得更加防御性。甚至比他们已经如此的程度还要更多。许多网站正在使得抓取和归档变得更加困难,诉讼案不断涌现,与此同时,实体图书馆和档案馆继续被忽视。

我们只能预料到这些趋势将继续恶化,许多作品将在进入公有领域之前就丢失。

我们正处于保存革命的前夕,但"失去的无法挽回。"我们有一个大约5-10年的关键时期,在这个时期,运营一个影子图书馆并在世界各地创建许多镜像仍然相当昂贵,而且在这个时期,访问权限还没有被完全关闭。


#阅读材料
10👍2
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。
在这些链接失效前收集好,便于后人找到原链。

注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。
url shortening was a fucking awful idea


#linkrotkiller
30🤡3👍2
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
#补充情报

goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务,它将同日(2025-08-25)关闭
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。

When will Firebase Dynamic Links stop working?

On August 25th, 2025, Firebase Dynamic Links will shut down. All links served by Firebase Dynamic Links (both those hosted on custom domains and on page.link subdomains) will stop working.


我们根据一些情报估测了届时将会消失的链接数量(估值为保守计算):

goo.gl/*           至少存在70亿  URLs
*.app.goo.gl/* 至少存在2亿 URLs
goo.gl/**/* 未知
*.page.link 至少存在1.2亿 URLs
自定义域名 未知


一夜之间,百亿链接灰飞烟灭。
Only Google can do
🤬18🔥2😢2😭2🍾1🖕1🗿1
大家帮个忙,献祭下自己 Google 账号这个月的 Google BigQuery 的 1TiB 免费查询配额,帮我们把 GitHub 上杂七杂八的地方出现的 goo.gl 链接提出来。

1. 登录
https://console.developers.google.com/
2. 创建一个项目
https://developers.google.com/console/help/#creatingdeletingprojects
3. 激活 BigQuery
https://developers.google.com/console/help/#activatingapis
4. 看协作文档
https://pad.notkiska.pw/p/bigquerygoogl ,挑个还没查的日期范围。
5. 执行下面的 SQL 查询,并导出 JSON,然后把 JSON 文件名适当重命名后发到群里。然后打叉表示处理完了。

查整年(以 2011 年为例):
SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.year.2011`
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0

查某年的月份区间(以 2019 年 01 月到 06 月为例)

SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.month.2019*`
WHERE
_TABLE_SUFFIX BETWEEN '01' AND '06'
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0


协作:
https://pad.notkiska.pw/p/bigquerygoogl
👍2
不要使用 b23.tv 短链,b23.tv 短链只有超短的一年有效期。

很明显我们没有在谈论 b23.tv/[av|BV]
然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
👍271
WARCs all the way going forward my friends! -- Zeno developer


STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。

在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。

特性:

- 由 IA 维护
- 除了 IA,没人用
- MyGo 写的
- 并发 bug 很多
- 有代码,没文档
- 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd,我们什么都愿意做的.jpg
- 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio)
- 可随机使用 IP 出口
- 即将支持 DNS archiving

过去一周的高密度 PR☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在差不多算是生产爆炸就绪了。

我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But it's MyGo!!!

所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。

#STWP #WARC #Zeno
17👍2🔥2
Live stream started
Live stream finished (1 hour)