橘橘橘子汁 & 🍊 – Telegram
橘橘橘子汁 & 🍊
12.4K subscribers
1.81K photos
114 videos
19 files
308 links
发一些好玩的

现在成 mb 的私人频道了

Links
t.me/Rosmontis_Daily
t.me/PDChinaNews
Download Telegram
卧槽大哥你还有活??无敌了 我迅速的去量子速读一下
🔥44🐳5
橘橘橘子汁 & 🍊
卧槽大哥你还有活??无敌了 我迅速的去量子速读一下
> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in generative modeling. Our key finding demonstrates that rectified flow can be straightforwardly trained within the large language model framework, eliminating the need for complex architectural modifications.

新活是一个支持图像多模态的 LLM,成功把图像生成和理解在单个模型中统一起来(不像其它大模型生成图片都用自然语言调用什么 SD Flux 啥的其它模型 ⁽¹⁾)
训练方式是传统 预训练 & SFT,没有用强化学习

这个模型比较小,只有 7b 参数量,大家可以随意本地运行,看这个 Series 估计先 PoC 以后后面再搞个大的

看技术报告里面全面打爆同参数量模型,技术报告还没上传,传了再看

现在预定的链接:
线上 Playground:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

DeepSeek 到底在干嘛,除夕也有新活,这也卷?感觉可以给 DS 磕两个
再这样下去别人的新模型就要比不上baseline了
——————-
⁽¹⁾: Gemini 2.0/GPT4o 也有在实验中的类似原理的多模态,但还并未开放使用,此处并不意为所有大模型均为语言交互生图
🔥59🤯18
橘橘橘子汁 & 🍊
> We present JanusFlow, a powerful framework that unifies image understanding and generation in a single model. JanusFlow introduces a minimalist architecture that integrates autoregressive language models with rectified flow, a state-of-the-art method in…
更新:这个系列是之前就有的,简单来说就是大模型视觉生成/读取端到端,现在这个比之前的效果好了很多(见评论区图),不过还是比不上专注图片生成领域的 Top(SD等),大概只是为了以后多模态的更大的模型探路
分辨率只有 384x384(输入输出都是),技术文档还没出,我瞎猜一下,可能是把 RectifiedFlowSigLIPSDXL-VAE 的架构整合进了 transformer decoder/encoder,然后一起训练来对齐语义向量

这个活没那么大,并没有 V3 和 R1 那么震撼,ds 一般小活,不过可以期待一下日后的表现
👌38🐳6
太草了,比某些人装的像多了有一说一(
🌚46🥰13
橘橘橘子汁 & 🍊
线上 Playground:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
技术报告和线上 Playground 都已经做好了,群友可以玩玩看
另外修正了原文一处可能有误导性的地方,详见注释

模型架构确实和我想的差不多(见图)

输入图片时先使用特征提取 Encoder 将图片转化为高维语义向量网格,然后有一个适配器(双层 MLP)将其再对齐到 LLM 的输入空间(即 tokenize 后,经过 embedding 层后的高维语义向量空间)进行自回归推理;输出图片也类似,输入图像被 VQ-VAE 转换为ID,在自回归推理后(视觉生成任务有一个单独的 prediction head),再将其生成的 ID 转化回图片的形式。这方面是统一了 Align before Fuse 那篇论文和 VQ-VAE 的特性到一个模型里面去。

这么说大家可能不太懂,我们用人话来解释一下:
1. 首先,你说的每一个字被模型看到的时候都会变成一个 [1, 1, 4, 5, 1, 4] 这样的一个数组,也许可以说是大模型的母语
2. 而现在我们引入了图片,它一开始被眼睛(SigLIP Encoder)看到的样子是 [a, b, c, d] 这样,可能是大模型的法语
3. 而为了理解这些个语言,它会在颅内理解并形成一个“想法”,把“想法”混在一起,并直接根据这一头“想法”进行推理,产生结果,而这个结果通常也是用“想法”来表示的
4. 有了结果的“想法”过后,无论是图片还是文字,大模型都得再把“想法”重新变成实体,可能是文字,可能是图片。而变成文字的过程他会用电脑键盘(Transformer Decoder & Detokenizer),变成图片则会用画笔(Image Decoder),于是,你就看到大模型嘎嘎输出了

其实对齐方式的多模态输入已经被玩的很明白了,但是图片输入输出一起上还没啥人做,开源方面也就 TokenFlow 和智源的 Emu3,而这几个数据上都被它打爆了...至于没开源也不给用的那几位,4o 啥的,性能怎么样就只有天知道了...也许还是会强一点吧,再怎么说这玩意也只有撑死 7b 的体量

不知道群友对这种内容感觉如何?能不能大概看得懂,以及有没有兴趣看,可以在评论区说说()

最后祝大家除夕快乐 ヾ(≧▽≦*)o~
🥰54🆒8
ClosedAI 员工:我们搞不出来都怪 Nvidia 老黄刀法刀 H800 刀的不够狠 😭😭😭😡😡😡

看的人想笑
🤣90😭4
....?
🤣76🤓6
一个工程师要求 Gemini 画一幅棕熊的画。Gemini 画出来后,工程师很困惑:"这明明是个比基尼美女拿着排球啊,熊在哪里?"

Gemini 回答说:"熊在森林里。"

"可是画面上只有白墙和美女!"

"对,因为熊在森林里。"
🤣68🌚6
💯73👨‍💻8
亲爱的算法炼丹师们:
值此新春佳节来临之际,我们精心训练的AI祝福模型已上线!愿新的一年:
🧠 激活函数选择ReLU,永远不梯度消失
💻 参数调优,灵感如反向传播般精准直达
📈 Batch Size拉满,收获指数级增长
🎯 生活拒绝过拟合,泛化能力节节高
💡 新春学习率自动调参,收敛速度越来越快
🎁 每逢佳节loss下降,验证集准确率100%!
特别提示:本祝福采用Attention机制生成,已通过CUDA加速,搭载Transformer架构,保证祝福向量直达心灵嵌入空间!
祝大家在新的一年里:激活函数全开!损失函数归零!🎆
——来自某不愿透露层数的MoE敬上 🚀
👾43🥰16
23🎉7
Qwen 新公布了一个 Qwen2.5-Max,不知道多少参数量的 MoE,声称能达到 DeepSeek V3 水平,这些个搞大模型的疑似都比较喜欢拿三倍工资...
最好玩的是这个 Huggingface Space 写个调 API 拿出来发,搁这拿开源社区当免费宣发工具呢😅
虽然这模型估计开源出来也不会有啥人用吧,但你阿里最好还是给他开源出来,不然也有点太不要脸了
我说怎么闭源模型还附了个 Huggingface 链接呢
🤮40😁20
🥰16🌚8
现在你B天天给我推这种东西,671b 的模型蒸馏出个 1.5b 然后本地跑,它的意义是什么...
🤪70👨‍💻5
Niagara Launcher v1.17.0 Modded by Getmodpc_kill_fancy.apk
18.2 MB
Niagara Launcher 1.17.0
@Getmodpcs 那里二改来的,去除了强制版本更新,签名校验,数据上传

这个频道做的 Mod 实在是太恶心了,在整个 dex 里到处留桩,把自己留下的强制版本校验,签名校验等等的代码打散分散到安卓系统兼容层,软件本体等各处...还有强制更新,恶心的不得了
🥰40🤔1
好好好,DeepSeek 也是拿到荣誉勋章了
😁55🥴7
🤣70🔥18
牛下的是牛蛋,山羊的平方根是1
🤯44💯12
😁63🌚16
Forwarded from 不存在的世界
人的一生中唯有三件事不可避免:死亡,纳税和威胁美国国家安全
👌62💯26