Save The Web Project – Telegram
#志愿者 #画吧 #huabar

我们目前需要尽快(~20天时间窗口)从阿里云杭州内网 (OSS) 拉几百G(具体大小无法测算,可能上 TB)数据出来。
阿里云的坑人流量费太贵(GB/0.8元),我们可不想上钩。

如果您手上有闲置的杭州阿里云的 vps,请联系 @yzqzss ,我们用来中转流量。每一 mbps 都能上忙,谢谢!
(不需要提供服务器权限,只要运行一个脚本就行)

<#huabar 存档项目>
👍6
Save The Web Project
#志愿者 #画吧 #huabar 我们目前需要尽快(~20天时间窗口)从阿里云杭州内网 (OSS) 拉几百G(具体大小无法测算,可能上 TB)数据出来。 阿里云的坑人流量费太贵(GB/0.8元),我们可不想上钩。 如果您手上有闲置的杭州阿里云的 vps,请联系 @yzqzss ,我们用来中转流量。每一 mbps 都能上忙,谢谢! (不需要提供服务器权限,只要运行一个脚本就行) <#huabar 存档项目>
更新:

我们现在准确预计需要从阿里云杭州内网拉 ~10TB 数据出来。
走阿里的 OSS 外网流出正价是 0.25元/GB,这意味着我们仅出网流量费就要花 2.5k 。
这实在是太贵了,所以我们在寻求其他更便宜的出网方法,如果你在这方面有经验,请帮帮我们。🫠

我们目前找到的一个方案是:(预计花费 700~1000)

———

- 将这 10 TB 数据在源站关站前先走内网(下载免费)传到阿里的 “深度冷归档OSS”(上传免费)
> 一台轻量 2c2g 3m 99元/1年 (新用户仅需 61元/年),算下来一年能拉 3.6T 出网,半年能拉 1.8T 出网。

- 众筹出 6 台 3m 的机子,花半年的时间从内网拉出全部的 10T 数据。

这样总的最小花费就是: 460 (10T存半年) + 184 (10T的取回费) + 50 (被解冻文件的临时存储费) + 0~500(组内自购或众筹到的轻量 3m 机子)

———

我们希望能找到 <500 元的方案。
9👍1
嗨,朋友,你的床底有吃灰的硬盘吗?
不如捐给我们,让它再次焕发出生机。😢
你看这春节马上要到了,送我们点新春礼物吧。😭
🔥19😁3😭3
Save The Web Project
二〇二三年的年终总结都写好了吗? https://github.com/saveweb/review-2023
喜讯, saveweb/review-2023科技爱好者周刊了。
感谢热心网友帮忙投的稿。

特别感谢今年的仓库维护者: @k_sides
👍14🔥3🥰1
开机去咯。
🔥12
#关站预警 #脱水

我们注意到脱水 (http://www.tuoshuiapp.com) APP 在 2022 年后陷入了增长瓶颈,2023 年后社区活跃度大不如前,我们推测它现已处于停运边缘。

现在打开这个软件,会发现应用内的一些社区运营活动内容停留在 2022 年。它主页的“水星”功能区近 24h 只有 40 条动态,且有多条动态发布者是相同的(说明并不是筛选后的随机推荐,而是全站动态)。
#迟到的新闻 #互联网历史

有着二十三年历史的中文互联网活化石:诗生活网已于 2023年8月12日 关站。

我们现在才得到消息,所以没有提前抢救下来。
😭22
https://linux.cn/article-16602-1.html
老王的“Linux 中国”宣布停止运营

我会在春节期间将 “Linux 中国” 所有发布的文章都打包成一份电子书,供大家收藏留用,所以大家不必自己用网络爬虫来抓取了。


---

好的,AB 爬虫马上给你安排上。
[[abjob>35jlcjj78t5mdejz09dwt5mod]]
#新闻
😁22🤣6
2023 年年中, KHTML 官宣倒闭。 KHTML 是 KDE 项目组研发的浏览器引擎, 是大多数现代主流浏览器的祖先。

https://news.ycombinator.com/item?id=39222757

https://en.wikipedia.org/wiki/KHTML

群友 #投稿
😢9👍1
画吧是于 2013 年成立的绘画 APP。其特色功能是用户上传作品到社区时,APP 会同时上传工程文件。浏览者可以播放工程文件,看到每一笔一画的作画过程(100%没有 AIGC)。 其已于 2024-02-09 00:36 关站。

说起来挺赶巧, 在 2023 年 11 月,@yzqzss 去海鲜市场捡了台红米6来插多余的两张电信卡开 WiFi 热点。
心血来潮把小米自带应用市场的“社交”排行榜里的 APP (不包含约会婚恋类)从上到下全安装体验了一下。
然后发现了画吧这个奇葩。API 竟然木有鉴权,登录获取 jid(用户ID) 的时候有下发 token,且所有的 API HTTP 请求里都有 hbtoken 这个 field ,但是是置空的,后端不验证。

尝试过不同的渠道反馈这个问题,但官方一直没有回复。官方QQ群里的群友也说很难联系到客服。就不太对劲,然后我们一查,老板2023年上半年因为欠农业银行25万,被执行了(2023_苏0591执1084号之一.pdf),并且几个投资方也开始陆续撤股。生命体征很危险啊,必须给存上。

于是我们的爬网花了20多天把全部作品的元数据先全存了下来(彩蛋,一个爬虫节点还被主机商扬了)。在完成作品元数据爬取不久,2024-01-13 ,画吧宣布将于 2024-02-08 关站

问题来了,画吧作品的工程文件和图片抽样预计总量 10~13TiB,绝大部分放在七牛OSS。而根据他们的一次运营事故,我们得以推算他们的 CDN 月回源用量可能不超过 150G。如果我们真的从公网下(0.26元/GiB),可能中途他们账上那点点余额就穿了。

(1/2) #画吧
12👍3
Save The Web Project
画吧是于 2013 年成立的绘画 APP。其特色功能是用户上传作品到社区时,APP 会同时上传工程文件。浏览者可以播放工程文件,看到每一笔一画的作画过程(100%没有 AIGC)。 其已于 2024-02-09 00:36 关站。 说起来挺赶巧, 在 2023 年 11 月,@yzqzss 去海鲜市场捡了台红米6来插多余的两张电信卡开 WiFi 热点。 心血来潮把小米自带应用市场的“社交”排行榜里的 APP (不包含约会婚恋类)从上到下全安装体验了一下。 然后发现了画吧这个奇葩。API 竟然木有鉴权,登录获取…
然后 @wowjerry 发现七牛杭州OSS可以和同地域的七牛qvm内网互通@MistyNya 也确认了画吧用的就是七牛杭州OSS。事情好玩起来了,我们开了台七牛杭州的机子,可以以 100mbps 的带宽走内网把画吧的七牛OSS上的东西投到我们的七牛OSS上。这样帐单打穿的就不是画吧的钱包,而是我们的😭

还有更好玩的,机器到手 apt update 发现七牛用的阿里源,有点惊讶,但不多。
直到看到 htop 里的 aliyun-assist 进程时……我陷入了沉思。这东西……不会其实是阿里ECS吧?TM的还真是,七牛被阿里收编了,QVM就是阿里ECS的二道贩子。所以……我们可以在阿里杭州的ECS用阿里内网连上所谓的“七牛OSS”

更更好玩的是,从“真正的”阿里杭州 ECS 内网下“七牛”OSS 上的东西,带宽能打到 2Gbps 多,是“七牛内网”的 20 倍 xD。

——
最终存档:

* 19,218,609 个绘画作品(截止 2024-02-08T22:14:28+08
* ~8M个用户的自定义笔刷 by @Cronfox
* ???个用户的 7,616,587 条收藏记录 by @OverflowCat
* ???个用户的粉丝表 by @OverflowCat
* 画吧课堂等杂项

另外,它 APK 安装包没有任何混淆和保护,你完全可以把它硬编码的 API 域名改掉,然后利用我们存档的数据重建画吧APP。如果你有兴趣开发一个用于纪念的 fake API 后端,欢迎联系我们。

我们预计春节后可以向画吧画师提供个人绘画作品备份导出。

存档过程和数据详见: https://wiki.saveweb.org/画吧

——
感谢各位订户半月前实打实的帮助,以及在存档过程中提供了建议的群友,另外还要感谢 ArchiveTeam 的 JAA、Pokechu22 和 Arkiver 的帮助。

——
©头图《拜拜》由画吧用户“早点睡觉”创作,我们购得了这张画。理论上版权转让给我们了,但我们当时没说清是“买画”是买转让还是买使用权,所以……🫠

(2/2) #画吧
👍442🎉2👏1
Save The Web Project
为了 STWP 不长期咕咕咕🌚,我们将每周发布项目进展简讯。 --- 第 14 周项目摘要。 20230401 ~ 20230403: @jsun969 在尝试给 uglysearch.othing.xyz 写前端:https://github.com/saveweb/saveweb-search-frontend 20230405: saveweb/review-2022 收录 +1 20230403 ~ 20230406: * 播客存档项目开工,写存档工具:https://github.co…
#丑搜 #搜索引擎 #博客

> 什么,你不知道“丑搜”?这是一个索引了 133k+ 篇中文独立博客文章的搜索引擎。

🤗

由于半年前的一次服务器存储告急,为了腾空间就把丑搜的全文索引数据库删了。于是丑搜宕了快半年了……咕咕咕。

昨天重写了后端以及工作流,又捡起 @jsun969 去年给丑搜写的“新”前端,改进了下让它再次上线,现在它不丑了.jpg。或许不能再叫它丑搜了。

https://search.saveweb.org

* 加了查看快照的功能
* 可以实时更新数据库全文索引了(为防垃圾站瞬发投毒,暂不启用实时索引)
* 可按文章发布时间排序(前端还未实现)
* [NOTE]: 新前端还没做打字机模式

原丑搜还留着,目前充当 API: https://search-api.saveweb.org
👍10🥰3