* 存档大冲击 * 存档大冲击 * 存档大冲击 *
寒假和春节假期将至,STWP 招人,这个寒假我们要爆肝搞大事情!
如果你有存档网站/app或者其它奇奇怪怪的想法,咱或许可以一起搞!
(试试看能不能招到新人)
评论区或者群里扔想法就行,或者 saveweb@saveweb.org 。
寒假和春节假期将至,STWP 招人,这个寒假我们要爆肝搞大事情!
如果你有存档网站/app或者其它奇奇怪怪的想法,咱或许可以一起搞!
评论区或者群里扔想法就行,或者 saveweb@saveweb.org 。
🤔4🔥1
Forwarded from Hacker News
"Twelfth Night Till Candlemas" – A 40-year book-quest (Score: 150+ in 19 hours)
Link: https://readhacker.news/s/6kRnT
Comments: https://readhacker.news/c/6kRnT
Link: https://readhacker.news/s/6kRnT
Comments: https://readhacker.news/c/6kRnT
The Law and Policy Blog
“Twelfth Night Till Candlemas” – the story of a forty-year book-quest and of its remarkable ending
The day before the Winter Solstice, 2024 This post is about finally finding a book from one’s youth forty years later – and after nearly thirty years of searching. It is also a tale about gob…
search.saveweb.org
丑搜 v3
中文独立博客全文搜索引擎(收录 2k+ 博客)
姐妹们!我又来啦!上次给大家安利的宝藏搜索引擎「丑搜」竟然又双叒叕更新啦!速度也太快了吧!简直是光速迭代!
>>> https://search.save-web.org/ <<<
之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂!
这次v3版本简直是史诗级更新! 让我来给姐妹们划重点:
- 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17w+博文!又有更多宝藏内容可以挖掘啦! 姐妹们再也不用担心找不到新鲜好文章看啦!
- 时间排序OK啦! 以前是按匹配度排序,虽然能找到最相关的文章,但有时候也想看看最近更新的嘛!现在可以按时间排序啦!同时,之前是手动月更,现在会每日更新!想看最新的博文?安排!✅
- 高级搜索也安排上啦! 以前只能简单搜关键词,现在可以写 query 用筛选功能精准搜索! 比如你想找某个作者的文章,或者特定时间段的,统统不在话下!
- 新界面也太酷了8! 前端之猫用 Next.js 以新粗野主义设计风格的前端,名字叫 neo-uglysearch,还有 Telegram 的可爱小黄鸭,简直萌化了我的少女心!用起来也敲丝滑!流畅度up up!
姐妹们最关心的高级搜索,我来详细说说! 它可以根据各种属性来筛选,比如标题、内容、作者、标签、发布时间等等!简直不要太强大!
举几个例子给姐妹们康康:
- 想找标题里包含“年终总结”,并且链接是
- 想看diygod大佬写的,内容里包含“rss”的文章?
- 想看某个时间段的周报?
- 想看 CTF Writeup?
是不是感觉打开了新世界的大门?! 姐妹们再也不用担心找不到自己想看的博客文章啦! 快去试试这个宝藏搜索引擎吧!
#中文独立博客 #搜索引擎 #宝藏网站 #干货分享 #冲浪必备 #效率工具 #新发现 #好物推荐 #宝藏博主 #内容爱好者 #小众爱好 #信息检索 #科技好物 #实用工具 #互联网冲浪指南
>>> https://search.save-web.org/ <<<
之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂!
这次v3版本简直是史诗级更新! 让我来给姐妹们划重点:
- 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17w+博文!又有更多宝藏内容可以挖掘啦! 姐妹们再也不用担心找不到新鲜好文章看啦!
- 时间排序OK啦! 以前是按匹配度排序,虽然能找到最相关的文章,但有时候也想看看最近更新的嘛!现在可以按时间排序啦!同时,之前是手动月更,现在会每日更新!想看最新的博文?安排!✅
- 高级搜索也安排上啦! 以前只能简单搜关键词,现在可以写 query 用筛选功能精准搜索! 比如你想找某个作者的文章,或者特定时间段的,统统不在话下!
- 新界面也太酷了8! 前端之猫用 Next.js 以新粗野主义设计风格的前端,名字叫 neo-uglysearch,还有 Telegram 的可爱小黄鸭,简直萌化了我的少女心!用起来也敲丝滑!流畅度up up!
姐妹们最关心的高级搜索,我来详细说说! 它可以根据各种属性来筛选,比如标题、内容、作者、标签、发布时间等等!简直不要太强大!
举几个例子给姐妹们康康:
- 想找标题里包含“年终总结”,并且链接是
.github.io 或 .org 结尾的文章?
(noscript CONTAINS 年终总结 AND (link CONTAINS ".github.io" OR link CONTAINS ".org/"))
- 想看diygod大佬写的,内容里包含“rss”的文章?
(author IN [diygod] AND (content CONTAINS rss))
- 想看某个时间段的周报?
(tags IN [周报, 日报] AND date sec(2024-01-01) TO sec(2025-01-01))
- 想看 CTF Writeup?
((tags IN [ctf, writeup, pwn, misc, reverse]) OR (link CONTAINS "ctf" OR link CONTAINS "writeup") OR (noscript CONTAINS "ctf" OR noscript CONTAINS "writeup"))
是不是感觉打开了新世界的大门?! 姐妹们再也不用担心找不到自己想看的博客文章啦! 快去试试这个宝藏搜索引擎吧!
#中文独立博客 #搜索引擎 #宝藏网站 #干货分享 #冲浪必备 #效率工具 #新发现 #好物推荐 #宝藏博主 #内容爱好者 #小众爱好 #信息检索 #科技好物 #实用工具 #互联网冲浪指南
以上内容使用 2.0 Flash Experimental 辅助创作。有时可能无法按预期运作。
👍14🥰6🤯6💩6🤔1
STWP 2025 第 3 周周报
- @OverflowCat 搓了新丑搜前端、尝试了 MITM 鸿蒙 APP 做存档。
- @luoingly 负责的项目到达了目标高度。
- @yzqzss 正在存档某个有着 16 年历史的网站,预计一周内完成。
- @yangyunfei 磁带机准备好了。
- @taranaki_neko review-2024 已经收集了 320 篇年终总结。
- @Ovler 由于时不时有人滥用 biliarchiverbot 存版权视频,现在加了日志和黑名单机制。
- @OverflowCat 搓了新丑搜前端、尝试了 MITM 鸿蒙 APP 做存档。
- @luoingly 负责的项目到达了目标高度。
- @yzqzss 正在存档某个有着 16 年历史的网站,预计一周内完成。
- @yangyunfei 磁带机准备好了。
- @taranaki_neko review-2024 已经收集了 320 篇年终总结。
- @Ovler 由于时不时有人滥用 biliarchiverbot 存版权视频,现在加了日志和黑名单机制。
❤4
box.、丑搜、rss-list、year-review 项目的变动:
- 今日起,box. 和丑搜关闭全文输出。(更新)
- review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。
- 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。
- 今日起,box. 和丑搜关闭全文输出。(更新)
- review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。
- 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。
🤯20👍3😱2
STWP 2025 第 4 周周报
- NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。
- c2025-1: 进度 90%
- 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。
- 响应了博客/文章收录删除请求。
- NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。
- c2025-1: 进度 90%
- 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。
- 响应了博客/文章收录删除请求。
👍7👏1
STWP 2025 第 5 周周报
- NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+
- c2025-1: 100%
- 一封画吧备份找回请求。
- NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+
- c2025-1: 100%
- 一封画吧备份找回请求。
❤4
https://tracker.archiveteam.org/goo-gl/
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
^^^ 可以把
* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
git clone https://github.com/ArchiveTeam/goo-gl-grab.git
cd goo-gl-grab
docker build -t archiveteam/goo-gl-grab .
docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community
^^^ 可以把
saveweb_community 改成你自己的 id ,单 ip 并发目前不建议 20+ 。* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
❤11
前情提要:「关于竹白的下线通知」
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
STWP 2025 第 9 周周报
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
GitHub
GitHub - saveweb/altcrawlhq_server: A simple CrawlHQ implementation
A simple CrawlHQ implementation. Contribute to saveweb/altcrawlhq_server development by creating an account on GitHub.
🥰6
Save The Web Project
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
https://github.com/ArchiveTeam/zhubai-grab
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
GitHub
GitHub - ArchiveTeam/zhubai-grab: Archiving 竹白 (Zhubai).
Archiving 竹白 (Zhubai). Contribute to ArchiveTeam/zhubai-grab development by creating an account on GitHub.
上周忙,无周报。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,虽然对我们没什么影响。受 anubis 启发,现已加上了手搓(素材从 anubis 复制的)的靠 CSS 就能工作的反 AI WAF (无需 JS)。之后会撤销 WAF。
- “丑搜”限时改名“挖抓搜”。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,
- “丑搜”限时改名“挖抓搜”。
❤8🤩1
STWP 2025 第 13 周周报
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
2023/5/28 17:12
# [PyPI] Your request for a new organization named 'saveweb' has been submitted
2025/4/1 05:43
# [PyPI] Your new organization named 'saveweb' has been approved and created
两年过去了,我们在 PyPI 上的组织申请竟然通过了。
现在包都迁过去了。
❤6🔥1