Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
#help
STWP 存档大冲击!
只要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……
download
(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)
———
担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!
敬⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
STWP 存档大冲击!
只要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……
download
https://example.org/releases/download/v-{蛋糕} now!(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)
darwin-amd64
darwin-arm64
linux-amd64
linux-arm
linux-arm64
windows-amd64.exe
———
担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!
echo Hello World
敬⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
🤣20❤5🤩3🥰1
Save The Web Project
#help STWP 存档大冲击! 只要你敢运行—— 2024-07-17 完全 DPoS 化! 来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来…… download https://example.org/releases/download/v-{蛋糕} now! (注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕) darwin-amd64 darwin-arm64…
圣战打完了(stage2 已完成);刚好用时 24h。
🥰5
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org/blog/critical-window-chinese.html
#阅读材料
仍然存在许多小型馆藏的长尾,每天都有新书被扫描或出版,但增长速度可能会逐渐减缓。我们的规模可能还会翻一番甚至增加两倍,但这将在更长的时间内发生。
过去10年中,硬盘成本每TB大致减少了三分之一,并且可能会继续以类似的速度下降。磁带似乎也在类似的轨迹上。固态硬盘价格下降速度更快,可能会在本世纪末超过硬盘价格。
一直以来都有第三种选择,但它的质量如此糟糕,以至于我们从未考虑过它:OCR,即光学字符识别。这是通过使用AI检测照片中的字符,将照片转换为纯文本的过程。这方面的工具长期以来一直存在,而且相当不错,但对于保存目的来说,"相当不错"是不够的。
然而,最近的多模态深度学习模型取得了极其快速的进步,尽管成本仍然很高。我们预计准确性和成本在未来几年内将大幅提高,到那时将有可能应用于我们整个图书馆。
总的来说,预计总文件大小至少会减少5-10倍,甚至更多。即使保守地减少5倍,即使我们的图书馆规模增加了三倍,在10年内我们也只需要1,000美元到3,000美元。
不幸的是,大语言模型的出现及其对数据的饥渴训练,使许多版权持有者变得更加防御性。甚至比他们已经如此的程度还要更多。许多网站正在使得抓取和归档变得更加困难,诉讼案不断涌现,与此同时,实体图书馆和档案馆继续被忽视。
我们只能预料到这些趋势将继续恶化,许多作品将在进入公有领域之前就丢失。
我们正处于保存革命的前夕,但"失去的无法挽回。"我们有一个大约5-10年的关键时期,在这个时期,运营一个影子图书馆并在世界各地创建许多镜像仍然相当昂贵,而且在这个时期,访问权限还没有被完全关闭。
#阅读材料
annas-archive.org
海盗图书馆的关键时期
我们如何确保永久保存已达1 PB的馆藏?
❤10👍2
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/
Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。
#BreakingURLs #BreakingNews
Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。
#BreakingURLs #BreakingNews
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Understand how you will be impacted by our decision to turn off the serving portion of Google URL Shortener.
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。
在这些链接失效前收集好,便于后人找到原链。
注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。
#linkrotkiller
在这些链接失效前收集好,便于后人找到原链。
注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。
url shortening was a fucking awful idea
#linkrotkiller
❤30🤡3👍2
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
#补充情报
goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务,它将同日(2025-08-25)关闭。
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。
我们根据一些情报估测了届时将会消失的链接数量(估值为保守计算):
一夜之间,百亿链接灰飞烟灭。
Only Google™ can do
goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务,它将同日(2025-08-25)关闭。
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。
When will Firebase Dynamic Links stop working?
On August 25th, 2025, Firebase Dynamic Links will shut down. All links served by Firebase Dynamic Links (both those hosted on custom domains and on page.link subdomains) will stop working.
我们根据一些情报估测了届时将会消失的链接数量(估值为保守计算):
goo.gl/* 至少存在70亿 URLs
*.app.goo.gl/* 至少存在2亿 URLs
goo.gl/**/* 未知
*.page.link 至少存在1.2亿 URLs
自定义域名 未知
一夜之间,百亿链接灰飞烟灭。
Only Google™ can do
🤬18🔥2😢2😭2🍾1🖕1🗿1
1. 登录
2. 创建一个项目
3. 激活 BigQuery
4. 看协作文档
5. 执行下面的 SQL 查询,并导出 JSON,然后把 JSON 文件名适当重命名后发到群里。然后打叉表示处理完了。
查整年(以 2011 年为例):
SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.year.2011`
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0
查某年的月份区间(以 2019 年 01 月到 06 月为例)
SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.month.2019*`
WHERE
_TABLE_SUFFIX BETWEEN '01' AND '06'
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0
协作:
Google
Google Cloud Platform Console Help
Official Google Cloud Platform Console Help Center where you can find tips and tutorials on using Google Cloud Platform Console and other answers to frequently asked questions.
👍2
不要使用
很明显我们没有在谈论 。
然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
b23.tv 短链,b23.tv 短链只有超短的一年有效期。b23.tv/[av|BV]然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
👍27❤1
WARCs all the way going forward my friends! -- Zeno developer
STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的
在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。
特性:
- 由 IA 维护
- 除了 IA,
-
- 并发
- 有代码,
- 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。
- 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio)
- 可随机使用 IP 出口
- 即将支持 DNS archiving
在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在
我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But
所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。
#STWP #WARC #Zeno
❤17👍2🔥2
hedgedoc 的 demo 实例 2024 年 06 月左右由于被滥用,停止了服务并将旧有数据存档到了 https://demo-archive.hedgedoc.org (存档站预计将在 2025年初关闭)。
https://community.hedgedoc.org/t/status-of-the-demo-instance/1634
如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息
https://community.hedgedoc.org/t/status-of-the-demo-instance/1634
如果你在 demo 实例上存有笔记,记得在关存档前导出。
#迟到的消息
demo-archive.hedgedoc.org
HedgeDoc - Ideas grow better together
Google 兑现了承诺:Google 搜索已在“关于此结果”中添加了指向 Wayback Machine 快照的链接。
https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/
似乎这个功能还没广泛铺开,很多搜索结果并没有到 WBM 的外链。
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。
目前 cache: 运算符依然有效。
#Google #Wayback
https://blog.archive.org/2024/09/11/new-feature-alert-access-archived-webpages-directly-through-google-search/
update: 这功能开始广泛可用了,也许几小时后所有的搜索结果都会有了。
#Google #Wayback
👍18🥰5
曲奇云盘于9月30日停服。用户需尽快下载数据。
https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw
#新闻 #曲奇云盘
Announce Cookie Down When September Ends
https://mp.weixin.qq.com/s/4nVAq955YqiyOLlko9eLxw
#新闻 #曲奇云盘
Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
博客园清偿完了贷款。
https://www.cnblogs.com/cmt/p/18432948
#新闻 #博客园
这三年困难阶段,园子靠想尽各种方法贷款维持,负债累累下园子的发展寸步难行,救园是为了还掉贷款,渡过难关。
截止9月30日 23:15,当天总收入¥189,662,两天累计收入¥350,992(包含会员、捐助、周边),另外收到2位园友的6w借款,1位园友的6w投资,总计53w。
https://www.cnblogs.com/cmt/p/18432948
#新闻 #博客园
Cnblogs
风雨过后见彩虹:救园成功 - 博客园团队 - 博客园
如果终身VIP会员名额满了,说明救园肯定成功了。如果终身VIP会员名额没满,还要看年度会员、周边、捐助、赞助的收入情况,只要2天收入达到40w左右,救园就成功了。如果救下来,就是园子的一次重生,就是一次脱胎换骨的辞旧迎新(10月开始建设新园子)
🎉50👍1