终于轮到老外体验随机蹦中文了 😈
不过 r1 强化学习的时候有对语言同一性做激励(为此还跌了点性能),现在这样已经很好了,r1-zero 是稳定的出中美合拍的 cot(
不过 r1 强化学习的时候有对语言同一性做激励(为此还跌了点性能),现在这样已经很好了,r1-zero 是稳定的出中美合拍的 cot(
🥰63😁9
# Breeze Shell
Github | Release | 介绍视频
Windows 10/11 第三方右键菜单
偷偷要点 ⭐️ (/▽\)
2025 年初到现在一直在写的一个小玩具,终于写到了勉强能看的水平,发出来给大家玩玩()
起因是看到了 Nilesoft Shell,确实非常精致,但是没有动画...我想着去 PR 一份吧,看看代码发现了一座惊人的始山,在世界上的所有 C++ 项目里都算离谱的那种,有兴趣的群友可以去看看(
然后就想着自己写呗,就搞出了这么个东西
## 全是动画
不同于 Nilesoft 彪悍的直来直去,Breeze 在设计之初就考虑到了动画,所以 Breeze 像吃了德芙一样流畅。
## 小巧玲珑
Breeze 的二进制体积仅为 3M,不占什么资源,分发也方便
## 可拓展性
里面有个 JavaScript 运行环境(QuickJS),可以直接用脚本做非常多的事情,比如在右键的时候直接异步计算文件哈希并显示等等..
## 但是...
项目还比较年轻,可能会有些奇奇怪怪的问题,大家遇到了发个 issue 就行~
配置文件啥的都还没做呢,先把基础功能写完善()
后面可能还会发发这个项目的开发日常,也许还会把 Windows 的任务栏也重写了,我太馋 ChromeOS 和 Hyprland 那种风格的 shell 了ww
#breeze_shell
Github | Release | 介绍视频
Windows 10/11 第三方右键菜单
偷偷要点 ⭐️ (/▽\)
2025 年初到现在一直在写的一个小玩具,终于写到了勉强能看的水平,发出来给大家玩玩()
起因是看到了 Nilesoft Shell,确实非常精致,但是没有动画...我想着去 PR 一份吧,看看代码发现了一座惊人的始山,在世界上的所有 C++ 项目里都算离谱的那种,有兴趣的群友可以去看看(
然后就想着自己写呗,就搞出了这么个东西
## 全是动画
不同于 Nilesoft 彪悍的直来直去,Breeze 在设计之初就考虑到了动画,所以 Breeze 像吃了德芙一样流畅。
## 小巧玲珑
Breeze 的二进制体积仅为 3M,不占什么资源,分发也方便
## 可拓展性
里面有个 JavaScript 运行环境(QuickJS),可以直接用脚本做非常多的事情,比如在右键的时候直接异步计算文件哈希并显示等等..
## 但是...
项目还比较年轻,可能会有些奇奇怪怪的问题,大家遇到了发个 issue 就行~
配置文件啥的都还没做呢,先把基础功能写完善()
后面可能还会发发这个项目的开发日常,也许还会把 Windows 的任务栏也重写了,我太馋 ChromeOS 和 Hyprland 那种风格的 shell 了ww
#breeze_shell
🥰90👍29
橘橘橘子汁 & 🍊
# Breeze Shell Github | Release | 介绍视频 Windows 10/11 第三方右键菜单 偷偷要点 ⭐️ (/▽\) 2025 年初到现在一直在写的一个小玩具,终于写到了勉强能看的水平,发出来给大家玩玩() 起因是看到了 Nilesoft Shell,确实非常精致,但是没有动画...我想着去 PR 一份吧,看看代码发现了一座惊人的始山,在世界上的所有 C++ 项目里都算离谱的那种,有兴趣的群友可以去看看( 然后就想着自己写呗,就搞出了这么个东西 ## 全是动画 不同于…
This media is not supported in your browser
VIEW IN TELEGRAM
🔥30🥰14
Forwarded from BlockGram
AyuGram.exe
171.7 MB
5.10.3 [5.10.3]
- feat: 复读机功能
- i18n: 汉化 AyuGram 附加功能
@blockgram_ng
———————--
Fork 了一份 AyuGram 加了复读,大家想用的话自取
- feat: 复读机功能
- i18n: 汉化 AyuGram 附加功能
@blockgram_ng
———————--
Fork 了一份 AyuGram 加了复读,大家想用的话自取
🥰28❤3
群友在问 deepseek-r1 的特性,再次简单总结下我的感受,应该还算准确
优势:创造力(这个世界上所有模型都看不到 r1 尾气,真正的遥遥领先),中文文笔(自家孩子),价格(16块/1m token简直跟白送一样),这几个都是随便暴打 o1 的。逻辑/编码能力(这个也是 Top,o1 级别的),角色扮演能力(这个有点奇怪,入戏的很入戏,不入戏的很尬)
另外还有一些小优势比如对中国文化的了解程度更深(古诗文,对韵对仗...),还有甲比较薄好涩涩 就不细说了
劣势:指令遵循(孩子不太听话),世界知识(对世界的认识不足,很多东西不知道。因为后训练是大量强化学习而不是监督微调,所以好多都忘了),多轮对话能力(强化学习数据 DeepSeek 他们好像没做多轮,模型就没太学会),生成速度(DeepSeek 有点穷,r1 参数量 671b MoE 有点大,注意这不是模型本身的问题)
优势:创造力(这个世界上所有模型都看不到 r1 尾气,真正的遥遥领先),中文文笔(自家孩子),价格(16块/1m token简直跟白送一样),这几个都是随便暴打 o1 的。逻辑/编码能力(这个也是 Top,o1 级别的),角色扮演能力(这个有点奇怪,入戏的很入戏,不入戏的很尬)
另外还有一些小优势比如对中国文化的了解程度更深(古诗文,对韵对仗...),还有
劣势:指令遵循(孩子不太听话),世界知识(对世界的认识不足,很多东西不知道。因为后训练是大量强化学习而不是监督微调,所以好多都忘了),多轮对话能力(强化学习数据 DeepSeek 他们好像没做多轮,模型就没太学会),生成速度(DeepSeek 有点穷,r1 参数量 671b MoE 有点大,注意这不是模型本身的问题)
🥰36🐳8
橘橘橘子汁 & 🍊
卧槽大哥你还有活??无敌了 我迅速的去量子速读一下
> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications.
新活是一个支持图像多模态的 LLM,成功把图像生成和理解在单个模型中统一起来(不像其它大模型生成图片都用自然语言调用什么 SD Flux 啥的其它模型 ⁽¹⁾)
训练方式是传统 预训练 & SFT,没有用强化学习
这个模型比较小,只有 7b 参数量,大家可以随意本地运行,看这个 Series 估计先 PoC 以后后面再搞个大的
看技术报告里面全面打爆同参数量模型,技术报告还没上传,传了再看
现在预定的链接:
线上 Playground:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
DeepSeek 到底在干嘛,除夕也有新活,这也卷?感觉可以给 DS 磕两个
再这样下去别人的新模型就要比不上baseline了
——————-
⁽¹⁾: Gemini 2.0/GPT4o 也有在实验中的类似原理的多模态,但还并未开放使用,此处并不意为所有大模型均为语言交互生图
🔥59🤯18
橘橘橘子汁 & 🍊
> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in…
更新:这个系列是之前就有的,简单来说就是大模型视觉生成/读取端到端,现在这个比之前的效果好了很多(见评论区图),不过还是比不上专注图片生成领域的 Top(SD等),大概只是为了以后多模态的更大的模型探路
分辨率只有 384x384(输入输出都是),技术文档还没出,我瞎猜一下,可能是把 RectifiedFlow,SigLIP,SDXL-VAE 的架构整合进了 transformer decoder/encoder,然后一起训练来对齐语义向量
这个活没那么大,并没有 V3 和 R1 那么震撼,ds 一般小活,不过可以期待一下日后的表现
分辨率只有 384x384(输入输出都是),技术文档还没出,我瞎猜一下,可能是把 RectifiedFlow,SigLIP,SDXL-VAE 的架构整合进了 transformer decoder/encoder,然后一起训练来对齐语义向量
这个活没那么大,并没有 V3 和 R1 那么震撼,ds 一般小活,不过可以期待一下日后的表现
👌38🐳6