https://blog.nicovideo.jp/niconews/225099.html
TL;DR:
NicoNico 被勒索组织攻击,攻击进到了内部私有云,大量虚拟机被锁。
(他们拿 2007 年的备份搭了个临时站?? https://www.nicovideo.jp ,一朝回到解放前)
TL;DR:
NicoNico 被勒索组织攻击,攻击进到了内部私有云,大量虚拟机被锁。
(他们拿 2007 年的备份搭了个临时站?? https://www.nicovideo.jp ,一朝回到解放前)
【追記】ニコニコサービスが利用できない状況について|ニコニコインフォ
【8/5追記】 いつもご愛顧いただきありがとうございます。ニコニコ運営チームです。 大変お待たせいたしました。 8月5日(月)15時より、新バージョン「帰ってきたニコニコ」として、「ニコニコ」サービス
🤨13
https://git.saveweb.org/saveweb/acfunction_go/releases
尝试存档 AcFun 全站弹幕。(目标高度:2亿)
Coming s∞n: AcFun 视频存档。
#FunWithoutB
尝试存档 AcFun 全站弹幕。(目标高度:2亿)
Coming s∞n: AcFun 视频存档。
#FunWithoutB
Giweb: Git with a cup of web
acfunction_go
❤8
Save The Web Project
Photo
感谢 ArchiveTeam。
来自抽屉的 13,623,632 个外部网页链接(多为新闻、帖子)已全部完成爬取,其中有效的网页(预计 >20% <70%)已编入 Wayback Machine 中。
来自抽屉的 13,623,632 个外部网页链接(多为新闻、帖子)已全部完成爬取,其中有效的网页(预计 >20% <70%)已编入 Wayback Machine 中。
👍9
Save The Web Project
https://git.saveweb.org/saveweb/acfunction_go/releases 尝试存档 AcFun 全站弹幕。(目标高度:2亿) Coming s∞n: AcFun 视频存档。 #FunWithoutB
目前所有的 DPoS 项目都已获得半官方的 docker 容器支持(目前仅提供 Linux amd64/arm64 镜像)
容器运行不污染环境,不会遇到依赖项无法满足的问题,且开箱就能获得不错的安全隔离,推荐 Linux/macOS 用户使用
容器运行不污染环境,不会遇到依赖项无法满足的问题,且开箱就能获得不错的安全隔离,推荐 Linux/macOS 用户使用
🥰4
我们统计了历年 AcFun 的全站弹幕数量,不出所料,发现 AcFun 用户触目惊心地巨量流失。
目前弹幕发送量不及其 2016 年的 3%,甚至不如当年(2018年)“倒闭”时的 16%。
(考虑到 2024 年才过去一半,于是在表上将它今年的数据翻了倍。)
#互联网观察
(另外。刚才两条消息发出后发现是误判,故撤回)
目前弹幕发送量不及其 2016 年的 3%,甚至不如当年(2018年)“倒闭”时的 16%。
(考虑到 2024 年才过去一半,于是在表上将它今年的数据翻了倍。)
#互联网观察
😁18😢8👍1
Cnblogs
求救信:救下园子,保住这块开发者的天地 - 博客园团队 - 博客园
创建园子,是人生的最大押注,相信只要专心为开发者服务,一定会有出路。二十年的专注,如今除了园子一无所有,却要在2024年第三季度一掷孤注,尽一切可能让这块伴随众多开发者成长的热土被保住。时间的脚步一刻不停留,将园子推到命运的关口,如果这个季度再不解决资金的缺口,园子将无路可走
https://www.cnblogs.com/cmt/p/18302049
???
...靠银行贷款的资金维持周转,每个月还了再借出来。
...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额)
???
Save The Web Project
https://www.cnblogs.com/cmt/p/18302049 ...靠银行贷款的资金维持周转,每个月还了再借出来。 ...意外的悲剧来袭,几乎所有渠道的贷款持续断流(还款后借不出来或者被降额) ???
#help
STWP 存档大冲击!
只要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……
download
(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)
———
担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!
敬⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
STWP 存档大冲击!
只要你敢运行——
2024-07-17 完全 DPoS 化!
来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来……
download
https://example.org/releases/download/v-{蛋糕} now!(注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕)
darwin-amd64
darwin-arm64
linux-amd64
linux-arm
linux-arm64
windows-amd64.exe
———
担心食品安全,又不愿意自己做蛋糕?把它放进集装箱里!
echo Hello World
敬⭐️某位写着 Dockerfile 写睡着的帕鲁喜。
🤣20❤5🤩3🥰1
Save The Web Project
#help STWP 存档大冲击! 只要你敢运行—— 2024-07-17 完全 DPoS 化! 来势汹汹的一千八百万文章激爆太阳追踪器,加上飞快的 golang,将你推向 internet abuser 之极地,不用等待,一起情不自禁HI起来,飞起来…… download https://example.org/releases/download/v-{蛋糕} now! (注: 蛋糕预制口味自选↓↓“创”用户请自行 clone 制作蛋糕) darwin-amd64 darwin-arm64…
圣战打完了(stage2 已完成);刚好用时 24h。
🥰5
Save The Web Project
译文:「如何成为“海盗”存档者?」出炉啦 片面地说,这是篇讲如何给盗版资源做存档的入门文章。 翻译自 Pirate Library Mirror 项目的关联博客(anna's blog),原文:http://annas-blog.org/blog-how-to-become-a-pirate-archivist.html > Pirate Library Mirror 就是那个给 Z-Library 做全站镜像并做种分发的项目。 翻译已得到了作者允许。
https://annas-archive.org/blog/critical-window-chinese.html
#阅读材料
仍然存在许多小型馆藏的长尾,每天都有新书被扫描或出版,但增长速度可能会逐渐减缓。我们的规模可能还会翻一番甚至增加两倍,但这将在更长的时间内发生。
过去10年中,硬盘成本每TB大致减少了三分之一,并且可能会继续以类似的速度下降。磁带似乎也在类似的轨迹上。固态硬盘价格下降速度更快,可能会在本世纪末超过硬盘价格。
一直以来都有第三种选择,但它的质量如此糟糕,以至于我们从未考虑过它:OCR,即光学字符识别。这是通过使用AI检测照片中的字符,将照片转换为纯文本的过程。这方面的工具长期以来一直存在,而且相当不错,但对于保存目的来说,"相当不错"是不够的。
然而,最近的多模态深度学习模型取得了极其快速的进步,尽管成本仍然很高。我们预计准确性和成本在未来几年内将大幅提高,到那时将有可能应用于我们整个图书馆。
总的来说,预计总文件大小至少会减少5-10倍,甚至更多。即使保守地减少5倍,即使我们的图书馆规模增加了三倍,在10年内我们也只需要1,000美元到3,000美元。
不幸的是,大语言模型的出现及其对数据的饥渴训练,使许多版权持有者变得更加防御性。甚至比他们已经如此的程度还要更多。许多网站正在使得抓取和归档变得更加困难,诉讼案不断涌现,与此同时,实体图书馆和档案馆继续被忽视。
我们只能预料到这些趋势将继续恶化,许多作品将在进入公有领域之前就丢失。
我们正处于保存革命的前夕,但"失去的无法挽回。"我们有一个大约5-10年的关键时期,在这个时期,运营一个影子图书馆并在世界各地创建许多镜像仍然相当昂贵,而且在这个时期,访问权限还没有被完全关闭。
#阅读材料
annas-archive.org
海盗图书馆的关键时期
我们如何确保永久保存已达1 PB的馆藏?
❤10👍2
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/
Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。
#BreakingURLs #BreakingNews
Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。
#BreakingURLs #BreakingNews
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Understand how you will be impacted by our decision to turn off the serving portion of Google URL Shortener.
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
我们将开启一个爬取 GitHub 上全部仓库中包含的 goo.gl 链接的项目。
在这些链接失效前收集好,便于后人找到原链。
注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。
#linkrotkiller
在这些链接失效前收集好,便于后人找到原链。
注:到时候我们不会起个 goo.gl 链接跳转服务。只提供一个手工输入链接查询跳转目的地的单页。
url shortening was a fucking awful idea
#linkrotkiller
❤30🤡3👍2
Save The Web Project
https://developers.googleblog.com/en/google-url-shortener-links-will-no-longer-be-available/ Google 将于 2025-08-25 杀死 goo.gl 短链接服务,现有短链接届时将失效。 #BreakingURLs #BreakingNews
#补充情报
goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务,它将同日(2025-08-25)关闭。
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。
我们根据一些情报估测了届时将会消失的链接数量(估值为保守计算):
一夜之间,百亿链接灰飞烟灭。
Only Google™ can do
goo.gl 背后实质上是 Google Firebase 的 Dynamic Links 服务,它将同日(2025-08-25)关闭。
所以除了 goo.gl 外, page.link 以及其它托管在 Dynamic Links 的短链接届时也会关闭。
When will Firebase Dynamic Links stop working?
On August 25th, 2025, Firebase Dynamic Links will shut down. All links served by Firebase Dynamic Links (both those hosted on custom domains and on page.link subdomains) will stop working.
我们根据一些情报估测了届时将会消失的链接数量(估值为保守计算):
goo.gl/* 至少存在70亿 URLs
*.app.goo.gl/* 至少存在2亿 URLs
goo.gl/**/* 未知
*.page.link 至少存在1.2亿 URLs
自定义域名 未知
一夜之间,百亿链接灰飞烟灭。
Only Google™ can do
🤬18🔥2😢2😭2🍾1🖕1🗿1
1. 登录
2. 创建一个项目
3. 激活 BigQuery
4. 看协作文档
5. 执行下面的 SQL 查询,并导出 JSON,然后把 JSON 文件名适当重命名后发到群里。然后打叉表示处理完了。
查整年(以 2011 年为例):
SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.year.2011`
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0
查某年的月份区间(以 2019 年 01 月到 06 月为例)
SELECT
URL
FROM (
SELECT
REGEXP_EXTRACT_ALL(payload, r'goo\.gl\/[0-9a-zA-Z\/]{4,256}') AS URLS
FROM
`githubarchive.month.2019*`
WHERE
_TABLE_SUFFIX BETWEEN '01' AND '06'
),
UNNEST(URLS) AS URL
WHERE
ARRAY_LENGTH(URLS)!=0
协作:
Google
Google Cloud Platform Console Help
Official Google Cloud Platform Console Help Center where you can find tips and tutorials on using Google Cloud Platform Console and other answers to frequently asked questions.
👍2
不要使用
很明显我们没有在谈论 。
然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
b23.tv 短链,b23.tv 短链只有超短的一年有效期。b23.tv/[av|BV]然后,虽然不太清楚知道会不会发生,但你的链接过期后,可能有 4e-06 的概率被重新分配给新的链接。
👍27❤1
WARCs all the way going forward my friends! -- Zeno developer
STWP 的首个 WARC 存档项目开始啦。终于有 Web Archive 的
在调研了市面上的 WARC recorder 后,我们最终选择使用 Zeno 作为我们的 WARC recorder 。
特性:
- 由 IA 维护
- 除了 IA,
-
- 并发
- 有代码,
- 是除 ArchiveTeam 的 wget-AT 外,唯一一个支持写 zstd WARC 的 recorder。
- 严格遵守 IIPC WARC/1.1 标准,正确处理 Transfer-Encoding 等 WARC 标准中的阅读理解易错点(这点强烈批评 webrecorder/warcio)
- 可随机使用 IP 出口
- 即将支持 DNS archiving
在过去一周的高密度 PR 的☢️冲击下,这灵车从一周前“启动就 panic,开起来就 CPU 100%,关闭就 hang”到现在
我们的 DPoS 爬网还需要搞定 urls 分发、Zeno 原地更新、尝试优化 zstd frame 写入性能、CLI 指定 hostname、URLs regex ignore set 动态加载、WARC 上传。等等一整个长链条。
hmmm,听起来是重新造 ArchiveBot 的轮子?确实…… But
所以我们目前在单机跑 Zeno,对于这个第一个 WARC 项目的 target,我们预计要花一个月的时间存档约 4TiB 的数据(如果没有阻碍的话)。
#STWP #WARC #Zeno
❤17👍2🔥2