橘橘橘子汁 & 🍊
线上 Playground:https://huggingface.co/spaces/deepseek-ai/Janus-Pro-7B
技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
技术报告:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf
技术报告和线上 Playground 都已经做好了,群友可以玩玩看
另外修正了原文一处可能有误导性的地方,详见注释
模型架构确实和我想的差不多(见图)
输入图片时先使用特征提取 Encoder 将图片转化为高维语义向量网格,然后有一个适配器(双层 MLP)将其再对齐到 LLM 的输入空间(即 tokenize 后,经过 embedding 层后的高维语义向量空间)进行自回归推理;输出图片也类似,输入图像被 VQ-VAE 转换为ID,在自回归推理后(视觉生成任务有一个单独的 prediction head),再将其生成的 ID 转化回图片的形式。这方面是统一了 Align before Fuse 那篇论文和 VQ-VAE 的特性到一个模型里面去。
这么说大家可能不太懂,我们用人话来解释一下:
1. 首先,你说的每一个字被模型看到的时候都会变成一个 [1, 1, 4, 5, 1, 4] 这样的一个数组,也许可以说是大模型的母语
2. 而现在我们引入了图片,它一开始被眼睛(SigLIP Encoder)看到的样子是 [a, b, c, d] 这样,可能是大模型的法语
3. 而为了理解这些个语言,它会在颅内理解并形成一个“想法”,把“想法”混在一起,并直接根据这一头“想法”进行推理,产生结果,而这个结果通常也是用“想法”来表示的
4. 有了结果的“想法”过后,无论是图片还是文字,大模型都得再把“想法”重新变成实体,可能是文字,可能是图片。而变成文字的过程他会用电脑键盘(Transformer Decoder & Detokenizer),变成图片则会用画笔(Image Decoder),于是,你就看到大模型嘎嘎输出了
其实对齐方式的多模态输入已经被玩的很明白了,但是图片输入输出一起上还没啥人做,开源方面也就 TokenFlow 和智源的 Emu3,而这几个数据上都被它打爆了...至于没开源也不给用的那几位,4o 啥的,性能怎么样就只有天知道了...也许还是会强一点吧,再怎么说这玩意也只有撑死 7b 的体量
不知道群友对这种内容感觉如何?能不能大概看得懂,以及有没有兴趣看,可以在评论区说说()
最后祝大家除夕快乐 ヾ(≧▽≦*)o~
另外修正了原文一处可能有误导性的地方,详见注释
模型架构确实和我想的差不多(见图)
输入图片时先使用特征提取 Encoder 将图片转化为高维语义向量网格,然后有一个适配器(双层 MLP)将其再对齐到 LLM 的输入空间(即 tokenize 后,经过 embedding 层后的高维语义向量空间)进行自回归推理;输出图片也类似,输入图像被 VQ-VAE 转换为ID,在自回归推理后(视觉生成任务有一个单独的 prediction head),再将其生成的 ID 转化回图片的形式。这方面是统一了 Align before Fuse 那篇论文和 VQ-VAE 的特性到一个模型里面去。
这么说大家可能不太懂,我们用人话来解释一下:
1. 首先,你说的每一个字被模型看到的时候都会变成一个 [1, 1, 4, 5, 1, 4] 这样的一个数组,也许可以说是大模型的母语
2. 而现在我们引入了图片,它一开始被眼睛(SigLIP Encoder)看到的样子是 [a, b, c, d] 这样,可能是大模型的法语
3. 而为了理解这些个语言,它会在颅内理解并形成一个“想法”,把“想法”混在一起,并直接根据这一头“想法”进行推理,产生结果,而这个结果通常也是用“想法”来表示的
4. 有了结果的“想法”过后,无论是图片还是文字,大模型都得再把“想法”重新变成实体,可能是文字,可能是图片。而变成文字的过程他会用电脑键盘(Transformer Decoder & Detokenizer),变成图片则会用画笔(Image Decoder),于是,你就看到大模型嘎嘎输出了
其实对齐方式的多模态输入已经被玩的很明白了,但是图片输入输出一起上还没啥人做,开源方面也就 TokenFlow 和智源的 Emu3,而这几个数据上都被它打爆了...至于没开源也不给用的那几位,4o 啥的,性能怎么样就只有天知道了...也许还是会强一点吧,再怎么说这玩意也只有撑死 7b 的体量
不知道群友对这种内容感觉如何?能不能大概看得懂,以及有没有兴趣看,可以在评论区说说()
最后祝大家除夕快乐 ヾ(≧▽≦*)o~
🥰54🆒8
亲爱的算法炼丹师们:
值此新春佳节来临之际,我们精心训练的AI祝福模型已上线!愿新的一年:
🧠 激活函数选择ReLU,永远不梯度消失
💻 参数调优,灵感如反向传播般精准直达
📈 Batch Size拉满,收获指数级增长
🎯 生活拒绝过拟合,泛化能力节节高
💡 新春学习率自动调参,收敛速度越来越快
🎁 每逢佳节loss下降,验证集准确率100%!
特别提示:本祝福采用Attention机制生成,已通过CUDA加速,搭载Transformer架构,保证祝福向量直达心灵嵌入空间!
祝大家在新的一年里:激活函数全开!损失函数归零!🎆
——来自某不愿透露层数的MoE敬上 🚀
值此新春佳节来临之际,我们精心训练的AI祝福模型已上线!愿新的一年:
🧠 激活函数选择ReLU,永远不梯度消失
💻 参数调优,灵感如反向传播般精准直达
📈 Batch Size拉满,收获指数级增长
🎯 生活拒绝过拟合,泛化能力节节高
💡 新春学习率自动调参,收敛速度越来越快
🎁 每逢佳节loss下降,验证集准确率100%!
特别提示:本祝福采用Attention机制生成,已通过CUDA加速,搭载Transformer架构,保证祝福向量直达心灵嵌入空间!
祝大家在新的一年里:激活函数全开!损失函数归零!🎆
——来自某不愿透露层数的MoE敬上 🚀
👾43🥰16
Niagara Launcher v1.17.0 Modded by Getmodpc_kill_fancy.apk
18.2 MB
Niagara Launcher
从 @Getmodpcs 那里二改来的,去除了强制版本更新,签名校验,数据上传
这个频道做的 Mod 实在是太恶心了,在整个 dex 里到处留桩,把自己留下的强制版本校验,签名校验等等的代码打散分散到安卓系统兼容层,软件本体等各处...还有强制更新,恶心的不得了
1.17.0从 @Getmodpcs 那里二改来的,去除了强制版本更新,签名校验,数据上传
这个频道做的 Mod 实在是太恶心了,在整个 dex 里到处留桩,把自己留下的强制版本校验,签名校验等等的代码打散分散到安卓系统兼容层,软件本体等各处...还有强制更新,恶心的不得了
🥰40🤔1