NEW BOT Телеграм, страница

群友在问 deepseek-r1 的特性，再次简单总结下我的感受，应该还算准确

优势：创造力（这个世界上所有模型都看不到 r1 尾气，真正的遥遥领先），中文文笔（自家孩子），价格（16块/1m token简直跟白送一样），这几个都是随便暴打 o1 的。逻辑/编码能力（这个也是 Top，o1 级别的），角色扮演能力（这个有点奇怪，入戏的很入戏，不入戏的很尬）
另外还有一些小优势比如对中国文化的了解程度更深（古诗文，对韵对仗...），还有甲比较薄好涩涩就不细说了

劣势：指令遵循（孩子不太听话），世界知识（对世界的认识不足，很多东西不知道。因为后训练是大量强化学习而不是监督微调，所以好多都忘了），多轮对话能力（强化学习数据 DeepSeek 他们好像没做多轮，模型就没太学会），生成速度（DeepSeek 有点穷，r1 参数量 671b MoE 有点大，注意这不是模型本身的问题）

🥰36🐳8

3.7K viewsedited 15:24

橘橘橘子汁 & 🍊

好好好🥰 让美国人体会一下当时我们用 OpenAI 的痛

🥰95🐳9

9.24K views15:30

橘橘橘子汁 & 🍊

卧槽大哥你还有活？？无敌了我迅速的去量子速读一下

🔥44🐳5

5.58K viewsedited 15:58

橘橘橘子汁 & 🍊

卧槽大哥你还有活？？无敌了我迅速的去量子速读一下

> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications.

新活是一个支持图像多模态的 LLM，成功把图像生成和理解在单个模型中统一起来（不像其它大模型生成图片都用自然语言调用什么 SD Flux 啥的其它模型 ⁽¹⁾）
训练方式是传统预训练 & SFT，没有用强化学习

这个模型比较小，只有 7b 参数量，大家可以随意本地运行，看这个 Series 估计先 PoC 以后后面再搞个大的

看技术报告里面全面打爆同参数量模型，技术报告还没上传，传了再看

现在预定的链接：
线上 Playground：https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

DeepSeek 到底在干嘛，除夕也有新活，这也卷？感觉可以给 DS 磕两个
再这样下去别人的新模型就要比不上baseline了
——————-
⁽¹⁾: Gemini 2.0/GPT4o 也有在实验中的类似原理的多模态，但还并未开放使用，此处并不意为所有大模型均为语言交互生图

🔥59🤯18

4.17K viewsedited 16:06

橘橘橘子汁 & 🍊

> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in…

更新：这个系列是之前就有的，简单来说就是大模型视觉生成/读取端到端，现在这个比之前的效果好了很多（见评论区图），不过还是比不上专注图片生成领域的 Top（SD等），大概只是为了以后多模态的更大的模型探路
分辨率只有 384x384（输入输出都是），技术文档还没出，我瞎猜一下，可能是把 RectifiedFlow，SigLIP，SDXL-VAE 的架构整合进了 transformer decoder/encoder，然后一起训练来对齐语义向量

这个活没那么大，并没有 V3 和 R1 那么震撼，ds 一般小活，不过可以期待一下日后的表现

👌38🐳6

4.27K viewsedited 16:20

橘橘橘子汁 & 🍊

太草了，比某些人装的像多了有一说一（

🌚46🥰13

3.17K viewsedited 19:11

橘橘橘子汁 & 🍊

线上 Playground：https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

技术报告和线上 Playground 都已经做好了，群友可以玩玩看
另外修正了原文一处可能有误导性的地方，详见注释

模型架构确实和我想的差不多（见图）

输入图片时先使用特征提取 Encoder 将图片转化为高维语义向量网格，然后有一个适配器（双层 MLP）将其再对齐到 LLM 的输入空间（即 tokenize 后，经过 embedding 层后的高维语义向量空间）进行自回归推理；输出图片也类似，输入图像被 VQ-VAE 转换为ID，在自回归推理后（视觉生成任务有一个单独的 prediction head），再将其生成的 ID 转化回图片的形式。这方面是统一了 Align before Fuse 那篇论文和 VQ-VAE 的特性到一个模型里面去。

这么说大家可能不太懂，我们用人话来解释一下：
1. 首先，你说的每一个字被模型看到的时候都会变成一个 [1, 1, 4, 5, 1, 4] 这样的一个数组，也许可以说是大模型的母语
2. 而现在我们引入了图片，它一开始被眼睛（SigLIP Encoder）看到的样子是 [a, b, c, d] 这样，可能是大模型的法语
3. 而为了理解这些个语言，它会在颅内理解并形成一个“想法”，把“想法”混在一起，并直接根据这一头“想法”进行推理，产生结果，而这个结果通常也是用“想法”来表示的
4. 有了结果的“想法”过后，无论是图片还是文字，大模型都得再把“想法”重新变成实体，可能是文字，可能是图片。而变成文字的过程他会用电脑键盘（Transformer Decoder & Detokenizer），变成图片则会用画笔（Image Decoder），于是，你就看到大模型嘎嘎输出了

其实对齐方式的多模态输入已经被玩的很明白了，但是图片输入输出一起上还没啥人做，开源方面也就 TokenFlow 和智源的 Emu3，而这几个数据上都被它打爆了...至于没开源也不给用的那几位，4o 啥的，性能怎么样就只有天知道了...也许还是会强一点吧，再怎么说这玩意也只有撑死 7b 的体量

不知道群友对这种内容感觉如何？能不能大概看得懂，以及有没有兴趣看，可以在评论区说说（）

最后祝大家除夕快乐ヾ(≧▽≦*)o~

🥰54🆒8

3.32K viewsedited 21:06

橘橘橘子汁 & 🍊

ClosedAI 员工：我们搞不出来都怪 Nvidia 老黄刀法刀 H800 刀的不够狠 😭😭😭😡😡😡

看的人想笑

🤣90😭4

3.31K viewsedited 03:32

橘橘橘子汁 & 🍊

....?

🤣76🤓6

3.21K viewsedited 05:46

橘橘橘子汁 & 🍊

一个工程师要求 Gemini 画一幅棕熊的画。Gemini 画出来后,工程师很困惑:"这明明是个比基尼美女拿着排球啊,熊在哪里?"

Gemini 回答说:"熊在森林里。"

"可是画面上只有白墙和美女!"

"对,因为熊在森林里。"

🤣68🌚6

9.4K viewsedited 09:35

橘橘橘子汁 & 🍊

💯73👨‍💻8

15.1K views13:01

橘橘橘子汁 & 🍊

亲爱的算法炼丹师们：
值此新春佳节来临之际，我们精心训练的AI祝福模型已上线！愿新的一年：
🧠 激活函数选择ReLU，永远不梯度消失
💻 参数调优，灵感如反向传播般精准直达
📈 Batch Size拉满，收获指数级增长
🎯 生活拒绝过拟合，泛化能力节节高
💡 新春学习率自动调参，收敛速度越来越快
🎁 每逢佳节loss下降，验证集准确率100%！
特别提示：本祝福采用Attention机制生成，已通过CUDA加速，搭载Transformer架构，保证祝福向量直达心灵嵌入空间！
祝大家在新的一年里：激活函数全开！损失函数归零！🎆
——来自某不愿透露层数的MoE敬上 🚀

👾43🥰16

3.07K viewsedited 15:40

橘橘橘子汁 & 🍊

❤23🎉7

3.1K views16:11

About

Blog

Apps

Platform