Forwarded from Hacker News
"Twelfth Night Till Candlemas" – A 40-year book-quest (Score: 150+ in 19 hours)
Link: https://readhacker.news/s/6kRnT
Comments: https://readhacker.news/c/6kRnT
Link: https://readhacker.news/s/6kRnT
Comments: https://readhacker.news/c/6kRnT
The Law and Policy Blog
“Twelfth Night Till Candlemas” – the story of a forty-year book-quest and of its remarkable ending
The day before the Winter Solstice, 2024 This post is about finally finding a book from one’s youth forty years later – and after nearly thirty years of searching. It is also a tale about gob…
search.saveweb.org
丑搜 v3
中文独立博客全文搜索引擎(收录 2k+ 博客)
姐妹们!我又来啦!上次给大家安利的宝藏搜索引擎「丑搜」竟然又双叒叕更新啦!速度也太快了吧!简直是光速迭代!
>>> https://search.save-web.org/ <<<
之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂!
这次v3版本简直是史诗级更新! 让我来给姐妹们划重点:
- 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17w+博文!又有更多宝藏内容可以挖掘啦! 姐妹们再也不用担心找不到新鲜好文章看啦!
- 时间排序OK啦! 以前是按匹配度排序,虽然能找到最相关的文章,但有时候也想看看最近更新的嘛!现在可以按时间排序啦!同时,之前是手动月更,现在会每日更新!想看最新的博文?安排!✅
- 高级搜索也安排上啦! 以前只能简单搜关键词,现在可以写 query 用筛选功能精准搜索! 比如你想找某个作者的文章,或者特定时间段的,统统不在话下!
- 新界面也太酷了8! 前端之猫用 Next.js 以新粗野主义设计风格的前端,名字叫 neo-uglysearch,还有 Telegram 的可爱小黄鸭,简直萌化了我的少女心!用起来也敲丝滑!流畅度up up!
姐妹们最关心的高级搜索,我来详细说说! 它可以根据各种属性来筛选,比如标题、内容、作者、标签、发布时间等等!简直不要太强大!
举几个例子给姐妹们康康:
- 想找标题里包含“年终总结”,并且链接是
- 想看diygod大佬写的,内容里包含“rss”的文章?
- 想看某个时间段的周报?
- 想看 CTF Writeup?
是不是感觉打开了新世界的大门?! 姐妹们再也不用担心找不到自己想看的博客文章啦! 快去试试这个宝藏搜索引擎吧!
#中文独立博客 #搜索引擎 #宝藏网站 #干货分享 #冲浪必备 #效率工具 #新发现 #好物推荐 #宝藏博主 #内容爱好者 #小众爱好 #信息检索 #科技好物 #实用工具 #互联网冲浪指南
>>> https://search.save-web.org/ <<<
之前就超爱用「丑搜」翻看各种小众又宝藏的博客文章,这次更新更是让我直呼OMG! 它收录了十几万篇中文独立博客文章,1.7k+独立博客(还有少量播客哦!),简直是内容爱好者的天堂!
这次v3版本简直是史诗级更新! 让我来给姐妹们划重点:
- 博客数量up up! 之前就有一千多个博客了,这次直接飙升到1.7k+博客、17w+博文!又有更多宝藏内容可以挖掘啦! 姐妹们再也不用担心找不到新鲜好文章看啦!
- 时间排序OK啦! 以前是按匹配度排序,虽然能找到最相关的文章,但有时候也想看看最近更新的嘛!现在可以按时间排序啦!同时,之前是手动月更,现在会每日更新!想看最新的博文?安排!✅
- 高级搜索也安排上啦! 以前只能简单搜关键词,现在可以写 query 用筛选功能精准搜索! 比如你想找某个作者的文章,或者特定时间段的,统统不在话下!
- 新界面也太酷了8! 前端之猫用 Next.js 以新粗野主义设计风格的前端,名字叫 neo-uglysearch,还有 Telegram 的可爱小黄鸭,简直萌化了我的少女心!用起来也敲丝滑!流畅度up up!
姐妹们最关心的高级搜索,我来详细说说! 它可以根据各种属性来筛选,比如标题、内容、作者、标签、发布时间等等!简直不要太强大!
举几个例子给姐妹们康康:
- 想找标题里包含“年终总结”,并且链接是
.github.io 或 .org 结尾的文章?
(noscript CONTAINS 年终总结 AND (link CONTAINS ".github.io" OR link CONTAINS ".org/"))
- 想看diygod大佬写的,内容里包含“rss”的文章?
(author IN [diygod] AND (content CONTAINS rss))
- 想看某个时间段的周报?
(tags IN [周报, 日报] AND date sec(2024-01-01) TO sec(2025-01-01))
- 想看 CTF Writeup?
((tags IN [ctf, writeup, pwn, misc, reverse]) OR (link CONTAINS "ctf" OR link CONTAINS "writeup") OR (noscript CONTAINS "ctf" OR noscript CONTAINS "writeup"))
是不是感觉打开了新世界的大门?! 姐妹们再也不用担心找不到自己想看的博客文章啦! 快去试试这个宝藏搜索引擎吧!
#中文独立博客 #搜索引擎 #宝藏网站 #干货分享 #冲浪必备 #效率工具 #新发现 #好物推荐 #宝藏博主 #内容爱好者 #小众爱好 #信息检索 #科技好物 #实用工具 #互联网冲浪指南
以上内容使用 2.0 Flash Experimental 辅助创作。有时可能无法按预期运作。
👍14🥰6🤯6💩6🤔1
STWP 2025 第 3 周周报
- @OverflowCat 搓了新丑搜前端、尝试了 MITM 鸿蒙 APP 做存档。
- @luoingly 负责的项目到达了目标高度。
- @yzqzss 正在存档某个有着 16 年历史的网站,预计一周内完成。
- @yangyunfei 磁带机准备好了。
- @taranaki_neko review-2024 已经收集了 320 篇年终总结。
- @Ovler 由于时不时有人滥用 biliarchiverbot 存版权视频,现在加了日志和黑名单机制。
- @OverflowCat 搓了新丑搜前端、尝试了 MITM 鸿蒙 APP 做存档。
- @luoingly 负责的项目到达了目标高度。
- @yzqzss 正在存档某个有着 16 年历史的网站,预计一周内完成。
- @yangyunfei 磁带机准备好了。
- @taranaki_neko review-2024 已经收集了 320 篇年终总结。
- @Ovler 由于时不时有人滥用 biliarchiverbot 存版权视频,现在加了日志和黑名单机制。
❤4
box.、丑搜、rss-list、year-review 项目的变动:
- 今日起,box. 和丑搜关闭全文输出。(更新)
- review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。
- 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。
- 今日起,box. 和丑搜关闭全文输出。(更新)
- review-2024、review-2023 项目将删掉所有非主动提交的与 [此处删除] 相关博客的文章收录,同时删除掉 box、search、rss-list 的收录。对于不在此类的博客且没有发过通知告知的,会补发通知。2021/2022 年的项目不做删除。
- 与中文独立博客有关的所有项目之后如何进行/是否继续,再议。
🤯20👍3😱2
STWP 2025 第 4 周周报
- NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。
- c2025-1: 进度 90%
- 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。
- 响应了博客/文章收录删除请求。
- NicoNico Shunga 存档进行中……已完成存档缩略图和原图,只剩网页本身了。预计 29 号 shutdown 前存下的作品数量会无限接近 114514 。完成后上传 WARC。ArchiveTeam 同时也在做这个。
- c2025-1: 进度 90%
- 不知道是不是因为离画吧关站即将一周年了 (2024-02-08),最近 14 天收到了 3 封备份找回请求。
- 响应了博客/文章收录删除请求。
👍7👏1
STWP 2025 第 5 周周报
- NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+
- c2025-1: 100%
- 一封画吧备份找回请求。
- NicoNico Shunga WARC 已上传,最终数量为 114517 ,可惜,没有撞上吉利数字。WARC 包含缩略图、PC详情页、原图。140GiB+
- c2025-1: 100%
- 一封画吧备份找回请求。
❤4
https://tracker.archiveteam.org/goo-gl/
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
^^^ 可以把
* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
AT 开始跑 goo.gl 了,欢迎大家去帮忙。
git clone https://github.com/ArchiveTeam/goo-gl-grab.git
cd goo-gl-grab
docker build -t archiveteam/goo-gl-grab .
docker run -d -it --name googl --label=com.centurylinklabs.watchtower.enable=true --log-driver json-file --log-opt max-size=50m --restart=unless-stopped archiveteam/goo-gl-grab --concurrent 10 saveweb_community
^^^ 可以把
saveweb_community 改成你自己的 id ,单 ip 并发目前不建议 20+ 。* 需要海外 vps 或海外实机,不要在国内机子上跑,也不要挂代理跑!!
❤11
前情提要:「关于竹白的下线通知」
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。
擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。
如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。
#help
STWP 2025 第 9 周周报
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
- 存 zhubai @yzqzss
- biliarchiver 加了个 clean 子命令 @Ovler
STWP 2025 第 10 周周报
- day1: 写了个能将就工作的 CrawlHQ 实现
https://github.com/saveweb/altcrawlhq_server
- day2: 部分梳理了 Zeno v2 的框架设计
- day3: 开始给 Zeno V2 写 local queue
- day4: 写完了,微调,测试,发 PR: https://github.com/internetarchive/Zeno/pull/243
- day5: 之前注意到 Zeno 存新世界的大门 (https://blog.xinshijiededa.men) 会解析出一堆不存在的 url assets。
发现是因为 inline css url() 解析是简单正则提取,只是简单地把所有 html style 属性里的 () 括号里的东西当成 url 提取出来,于是把 css 中的函数 tokens (如 rgb() )也提取出来了。
看了 https://www.w3.org/TR/css-values-4/ 和 https://www.w3.org/TR/css-syntax-3/ ,css 里 url()、src() 和 @import <string> 都能用来发网络请求。
src() 现在还没有被任何浏览器实现,可以直接忽略。( https://cssdb.org/#src-function )
url() 分 unquoted/quoted 两种,解析方法不同,都有自己的转义规则。
然后在 github 上搜了下 /url =.*getPropertyValue\(/ AND (language:JavaScript OR language:TypeScript OR language:HTML),发现一堆往 css 里存自定义的 <string> url,然后在 js 里取值的代码。这种迷惑行为广泛存在,所以我觉得那些以 https?://|// 开头的 <string> 也有解析价值。
综上,用简单的正则提取 css 里的外链可能不太合适。
但目前 golang 这边的 css parser 库们都没做 url/string value 实际内容值的细提取,都是 lexer/tokenizer 粗切片的库,不太能用。
那么之后的计划就是写个小 parser,把粗的 <url> 和 <string> token 解析出实际值。然后和现有的粗 parser 拼一起就行了。
- day6: 一点微调,PR 合进去了。
- day7: 无。
GitHub
GitHub - saveweb/altcrawlhq_server: A simple CrawlHQ implementation
A simple CrawlHQ implementation. Contribute to saveweb/altcrawlhq_server development by creating an account on GitHub.
🥰6
Save The Web Project
前情提要:「关于竹白的下线通知」 目前已经存完了 790 个竹白专栏(子域名),WARC 也已上传。但因为没有好方法发现全部的有效子域名,所以有遗漏。 擅长子域名发现的师傅可以试试找找 *.zhubai.love 的域名。 如发现了不在 subdomains-deduped.urls.txt 中的有效域名,欢迎 PR 。 #help
https://github.com/ArchiveTeam/zhubai-grab
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
https://tracker.archiveteam.org/zhubai/
ArchiveTeam 侧的存档也开始了,不紧急,可以去帮忙,会进 wbm。
GitHub
GitHub - ArchiveTeam/zhubai-grab: Archiving 竹白 (Zhubai).
Archiving 竹白 (Zhubai). Contribute to ArchiveTeam/zhubai-grab development by creating an account on GitHub.
上周忙,无周报。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,虽然对我们没什么影响。受 anubis 启发,现已加上了手搓(素材从 anubis 复制的)的靠 CSS 就能工作的反 AI WAF (无需 JS)。之后会撤销 WAF。
- “丑搜”限时改名“挖抓搜”。
整两个小活:
- 和其它开源组织的 gitea 实例一样,我们的 https://git.saveweb.org 也被傻乎乎的 AI BOT 跟着 history 爬每个 commit 的 diff 和 raw ,
- “丑搜”限时改名“挖抓搜”。
❤8🤩1
STWP 2025 第 13 周周报
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
- 竹白存档结束。但竹白服务器暂时还没关。
- 又响应了几个画吧备份请求。
- 忙
预告:第 19 周周报时会提及 11~13 周发生的趣事。
2023/5/28 17:12
# [PyPI] Your request for a new organization named 'saveweb' has been submitted
2025/4/1 05:43
# [PyPI] Your new organization named 'saveweb' has been approved and created
两年过去了,我们在 PyPI 上的组织申请竟然通过了。
现在包都迁过去了。
❤6🔥1
回顾一下,组织功能是在 2023-04-23 推出的,我们是在 2023-05-28 申请的。
https://blog.pypi.org/posts/2023-04-23-introducing-pypi-organizations/
也就等了 97 周而已,不多。🫠
https://blog.pypi.org/posts/2023-04-23-introducing-pypi-organizations/
Get started today
Both community projects (non-profits, NGO’s, hobbyists, etc) and corporate teams can sign up to request their organization name starting today. Submissions will begin seeing review and approval in the coming weeks, and corporate teams will be able to finalize their signup with billing details in May.
也就等了 97 周而已,不多。🫠
blog.pypi.org
Introducing PyPI Organizations - The Python Package Index Blog
Announcing the launch of a significant new collaboration feature for PyPI
🌚8😁3