NEW BOT Телеграм, страница - 821475254

Save The Web Project

1.4K subscribers

102 photos

2 videos

1 file

232 links

#STWP #STW #saveweb

A tiny web archival team

https://saveweb.org/㋿Ξ㍾㍿/ʇɔǝɾoɹԀ-qǝM-ǝɥʇ-ǝʌɐS.html/../../../
https://github.com/saveweb

Download Telegram

About

Blog

Apps

Platform

Save The Web Project

1.4K subscribers

Save The Web Project

Save The Web Project

感谢 ArchiveTeam。
来自抽屉的 13,623,632 个外部网页链接（多为新闻、帖子）已全部完成爬取，其中有效的网页（预计 >20% <70%）已编入 Wayback Machine 中。

👍9

1.3K viewsedited 08:47

Save The Web Project

Save The Web Project

https://git.saveweb.org/saveweb/acfunction_go/releases 尝试存档 AcFun 全站弹幕。（目标高度：2亿） Coming s∞n: AcFun 视频存档。 #FunWithoutB

目前所有的 DPoS 项目都已获得半官方的 docker 容器支持（目前仅提供 Linux amd64/arm64 镜像）
容器运行不污染环境，不会遇到依赖项无法满足的问题，且开箱就能获得不错的安全隔离，推荐 Linux/macOS 用户使用

🥰4

1.72K viewsIceCode New, edited 09:51

Save The Web Project

Q: 雨天时，当地的互联网带宽用量会比平时高一些吗？

1.74K viewsyzqzss | 一座桥在水上, 06:37

Save The Web Project

我们统计了历年 AcFun 的全站弹幕数量，不出所料，发现 AcFun 用户触目惊心地巨量流失。
目前弹幕发送量不及其 2016 年的 3%，甚至不如当年(2018年)“倒闭”时的 16%。

（考虑到 2024 年才过去一半，于是在表上将它今年的数据翻了倍。）

#互联网观察

（另外。刚才两条消息发出后发现是误判，故撤回）

😁18😢8👍1

3.33K viewsedited 21:32

Save The Web Project

喜讯喜讯，特大喜讯，CentOS7 EOL 了！
🎉🎊🎉

👏18

2.13K views11:06

Save The Web Project

抽屉新热榜已于 2024-06-30 彻底关停。

😭5😇3

1.71K viewsedited 16:48

Save The Web Project

Save The Web Project

#安全警告 #GitHub 如果你有 GitHub 组织，并且将 Member privileges 的 Base permissions 手动设为了 No permission （默认是 Read）。那么您组织的 Owner 名单（包括 Private Owner）就可以被通过一种妙妙地方式泄漏出来（Private Member 名单不会被泄漏）。几天前我们无意间发现了这个小 bug，报给 GitHub 了，但现在还没收到回复。建议各位用 Team/Repo 细粒度划分权限的组织暂时将 Base…

GitHub 已修复此漏洞。

👏14

1.58K views16:53

Save The Web Project

求救信：救下园子，保住这块开发者的天地 - 博客园团队 - 博客园

创建园子，是人生的最大押注，相信只要专心为开发者服务，一定会有出路。二十年的专注，如今除了园子一无所有，却要在2024年第三季度一掷孤注，尽一切可能让这块伴随众多开发者成长的热土被保住。时间的脚步一刻不停留，将园子推到命运的关口，如果这个季度再不解决资金的缺口，园子将无路可走

https://www.cnblogs.com/cmt/p/18302049

...靠银行贷款的资金维持周转，每个月还了再借出来。
...意外的悲剧来袭，几乎所有渠道的贷款持续断流（还款后借不出来或者被降额）

？？？

1.29K viewsedited 01:08

Save The Web Project

Save The Web Project

https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转，每个月还了再借出来。 ...意外的悲剧来袭，几乎所有渠道的贷款持续断流（还款后借不出来或者被降额）？？？

#help

STWP 存档大冲击！
只要你敢运行——
2024-07-17 完全 DPoS 化！
来势汹汹的一千八百万文章激爆太阳追踪器，加上飞快的 golang，将你推向 internet abuser 之极地，不用等待，一起情不自禁HI起来，飞起来……

download https://example.org/releases/download/v-{蛋糕} now!

(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)

darwin-amd64
darwin-arm64
linux-amd64
linux-arm
linux-arm64
windows-amd64.exe

———

担心食品安全，又不愿意自己做蛋糕？把它放进集装箱里！

echo Hello World

敬⭐️某位写着 Dockerfile 写睡着的帕鲁喜。

🤣20❤5🤩3🥰1

1.22K viewsedited 19:20

Save The Web Project

Save The Web Project

#help STWP 存档大冲击！只要你敢运行—— 2024-07-17 完全 DPoS 化！来势汹汹的一千八百万文章激爆太阳追踪器，加上飞快的 golang，将你推向 internet abuser 之极地，不用等待，一起情不自禁HI起来，飞起来…… download https://example.org/releases/download/v-{蛋糕} now! (注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕) darwin-amd64 darwin-arm64…

圣战打完了（stage2 已完成）；刚好用时 24h。

🥰5

958 viewsedited 16:02

Save The Web Project

Save The Web Project

译文：「如何成为“海盗”存档者？」出炉啦片面地说，这是篇讲如何给盗版资源做存档的入门文章。翻译自 Pirate Library Mirror 项目的关联博客（anna's blog），原文：http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。翻译已得到了作者允许。

https://annas-archive.org/blog/critical-window-chinese.html

仍然存在许多小型馆藏的长尾，每天都有新书被扫描或出版，但增长速度可能会逐渐减缓。我们的规模可能还会翻一番甚至增加两倍，但这将在更长的时间内发生。

过去10年中,硬盘成本每TB大致减少了三分之一,并且可能会继续以类似的速度下降。磁带似乎也在类似的轨迹上。固态硬盘价格下降速度更快,可能会在本世纪末超过硬盘价格。

一直以来都有第三种选择,但它的质量如此糟糕,以至于我们从未考虑过它:OCR,即光学字符识别。这是通过使用AI检测照片中的字符,将照片转换为纯文本的过程。这方面的工具长期以来一直存在,而且相当不错,但对于保存目的来说,"相当不错"是不够的。

然而,最近的多模态深度学习模型取得了极其快速的进步,尽管成本仍然很高。我们预计准确性和成本在未来几年内将大幅提高,到那时将有可能应用于我们整个图书馆。

总的来说,预计总文件大小至少会减少5-10倍,甚至更多。即使保守地减少5倍,即使我们的图书馆规模增加了三倍,在10年内我们也只需要1,000美元到3,000美元。

不幸的是,大语言模型的出现及其对数据的饥渴训练,使许多版权持有者变得更加防御性。甚至比他们已经如此的程度还要更多。许多网站正在使得抓取和归档变得更加困难,诉讼案不断涌现,与此同时,实体图书馆和档案馆继续被忽视。

我们只能预料到这些趋势将继续恶化,许多作品将在进入公有领域之前就丢失。

我们正处于保存革命的前夕,但"失去的无法挽回。"我们有一个大约5-10年的关键时期,在这个时期,运营一个影子图书馆并在世界各地创建许多镜像仍然相当昂贵,而且在这个时期,访问权限还没有被完全关闭。

annas-archive.org

海盗图书馆的关键时期

我们如何确保永久保存已达1 PB的馆藏？

❤10👍2

1.26K viewsedited 19:44

Save The Web Project

https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/

Google 将于 2025-08-25 杀死 goo.gl 短链接服务，现有短链接届时将失效。

#BreakingURLs #BreakingNews

Google for Developers Blog - News about Web, Mobile, AI and Cloud

Understand how you will be impacted by our decision to turn off the serving portion of Google URL Shortener.

1.74K viewsedited 21:08

Save The Web Project

Save The Web Project

https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务，现有短链接届时将失效。 #BreakingURLs #BreakingNews

我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。
在这些链接失效前收集好，便于后人找到原链。

注：到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。

url shortening was a fucking awful idea

❤30🤡3👍2

2.42K viewsedited 16:13

Save The Web Project

Save The Web Project

https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务，现有短链接届时将失效。 #BreakingURLs #BreakingNews

#补充情报

goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务，它将同日（2025-08-25）关闭。
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。

When will Firebase Dynamic Links stop working?

On August 25th, 2025, Firebase Dynamic Links will shut down. All links served by Firebase Dynamic Links (both those hosted on custom domains and on page.link subdomains) will stop working.

我们根据一些情报估测了届时将会消失的链接数量（估值为保守计算）：

goo.gl/*           至少存在70亿  URLs
*.app.goo.gl/*     至少存在2亿   URLs
goo.gl/**/*        未知
*.page.link        至少存在1.2亿 URLs
自定义域名          未知

一夜之间，百亿链接灰飞烟灭。
Only Google™ can do

🤬18🔥2😢2😭2🍾1🖕1🗿1

2.07K viewsedited 19:39

Save The Web Project

Save The Web Project

我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。在这些链接失效前收集好，便于后人找到原链。注：到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。 url shortening was a fucking awful idea #linkrotkiller

开始爬 GitHub 啦，ETA: 2d
预计能收获 ~2000k goo.gl 链接。
然后再花一天收割 page.link 链接。
三天搞定，完美。🫠🫠🫠

🥰6

1.42K viewsedited 07:38

Save The Web Project

~~大家帮个忙，献祭下自己 Google 账号这个月的 Google BigQuery 的 1TiB 免费查询配额，帮我们把 GitHub 上杂七杂八的地方出现的~~ ~~goo.gl~~ 链接提出来。

1. 登录 ~~https://console.developers.google.com/~~
~~2. 创建一个项目~~ ~~https://developers.google.com/console/help/#creatingdeletingprojects~~
~~3. 激活 BigQuery~~ ~~https://developers.google.com/console/help/#activatingapis~~
~~4. 看协作文档~~ ~~https://pad.notkiska.pw/p/bigquerygoogl~~ ，挑个还没查的日期范围。
5. 执行下面的 SQL 查询，并导出 JSON，然后把 JSON 文件名适当重命名后发到群里。然后打叉表示处理完了。

查整年（以 2011 年为例）：

SELECT
  URL
FROM (
  SELECT
    REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
  FROM
    `githubarchive.year.2011`
),
  UNNEST(URLS) AS URL
WHERE
  ARRAY_LENGTH(URLS)!=0

~~查某年的月份区间（以 2019 年 01 月到 06 月为例）~~

SELECT
  URL
FROM (
  SELECT
    REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
  FROM
    `githubarchive.month.2019*`
  WHERE
    _TABLE_SUFFIX BETWEEN '01' AND '06'
),
  UNNEST(URLS) AS URL
WHERE
  ARRAY_LENGTH(URLS)!=0

~~协作:~~ ~~https://pad.notkiska.pw/p/bigquerygoogl~~

Google Cloud Platform Console Help

Official Google Cloud Platform Console Help Center where you can find tips and tutorials on using Google Cloud Platform Console and other answers to frequently asked questions.

👍2

2.11K viewsedited 22:27

Save The Web Project

Save The Web Project

大家帮个忙，献祭下自己 Google 账号这个月的 Google BigQuery 的 1TiB 免费查询配额，帮我们把 GitHub 上杂七杂八的地方出现的 goo.gl 链接提出来。 1. 登录 https://console.developers.google.com/ 2. 创建一个项目 https://developers.google.com/console/help/#creatingdeletingprojects 3. 激活 BigQuery https://developer…

F**K YOU GOOGLE

一分钟烧了群友百多刀赠金，结果 TMD 去重后只有 4 万 goo.gl 链接。

😱35

2.37K viewsedited 01:03

Save The Web Project

不要使用 b23.tv 短链，b23.tv 短链只有超短的一年有效期。

很明显我们没有在谈论

b23.tv/[av|BV]

。

然后，虽然不太清楚知道会不会发生，但你的链接过期后，可能有 4e-06 的概率被重新分配给新的链接。

👍27❤1

5.75K viewsedited 16:29

Save The Web Project

WARCs all the way going forward my friends! -- Zeno developer

STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的祥子了。

在调研了市面上的 WARC recorder 后，我们最终选择使用 Zeno 作为我们的 WARC recorder 。

特性：

- 由 IA 维护
- 除了 IA，没人用
- MyGo 写的
- 并发 bug 很多
- 有代码，没文档
- 是除 ArchiveTeam 的 wget-AT 外，唯一一个支持写 zstd WARC 的 recorder。只要支持 zstd，我们什么都愿意做的.jpg
- 严格遵守 IIPC WARC/1.1 标准，正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点（这点强烈批评 webrecorder/warcio）
- 可随机使用 IP 出口
- 即将支持 DNS archiving

在过去一周的高密度 PR 的☢️冲击下，这灵车从一周前“启动就 panic，开起来就 CPU 100%，关闭就 hang”到现在差不多算是生产爆炸就绪了。

我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm，听起来是重新造 ArchiveBot 的轮子？确实…… But ~~it's MyGo~~!!!

所以我们目前在单机跑 Zeno，对于这个第一个 WARC 项目的 target，我们预计要花一个月的时间存档约 4TiB 的数据（如果没有阻碍的话）。

#STWP #WARC #Zeno

❤17👍2🔥2

2.19K viewsedited 15:09

Save The Web Project

Live stream started

10:43

Save The Web Project

Live stream finished (1 hour)

12:10