🔥 NVIDIA выпустила Llama-3.1-Nemotron-51B
Llama-3.1-Nemotron-51B модель нового поколения, которая выводит на новый уровень соотношение точность/эффективность.
Сеть создана с использованием Neural Architecture Search (NAS) и дистилляции от Llama-3.1-70B, эта модель предлагает 2.2x ускорение инференса без значительных потерь в точности.
Подробнее:
📊 Производительность:
▫️Пропускная способность: 6472 токенов/сек, что более чем в два раза быстрее исходной Llama-3.1-70B.
▫️И главное, модель поддерживает выполнение задач на одной NVIDIA H100 GPU, что значительно снижает стоимость и упрощает инференс.
⚙️ Основные инновации:
▫️Архитектура оптимизирована с помощью NAS, что снижает нагрузку на память и вычислительные ресурсы.
▫️Плюс заюзали механизм Block-distillation, позволяющий уменьшить количество блоков без значительных потерь в точности.
📇 Blog NVIDIA
🤗 Веса
💻 Потестить бесплатно можно тут
Llama-3.1-Nemotron-51B модель нового поколения, которая выводит на новый уровень соотношение точность/эффективность.
Сеть создана с использованием Neural Architecture Search (NAS) и дистилляции от Llama-3.1-70B, эта модель предлагает 2.2x ускорение инференса без значительных потерь в точности.
Подробнее:
📊 Производительность:
▫️Пропускная способность: 6472 токенов/сек, что более чем в два раза быстрее исходной Llama-3.1-70B.
▫️И главное, модель поддерживает выполнение задач на одной NVIDIA H100 GPU, что значительно снижает стоимость и упрощает инференс.
⚙️ Основные инновации:
▫️Архитектура оптимизирована с помощью NAS, что снижает нагрузку на память и вычислительные ресурсы.
▫️Плюс заюзали механизм Block-distillation, позволяющий уменьшить количество блоков без значительных потерь в точности.
📇 Blog NVIDIA
🤗 Веса
💻 Потестить бесплатно можно тут
❤31🔥11👍1🤔1
🦙 Релиз Llama 3.2 от Meta
На этот раз нам предоставили выбор аж из четырех моделей, включая, в том числе, и достаточно легковесные и мультимодальные версии:
▫️Llama 3.2 — 1B (1.23B) Lightweight
▫️Llama 3.2 — 3B (3.21B) Lightweight
▫️Llama 3.2 — 11B Multimodal
▫️Llama 3.2 — 90B Multimodal
Обзор: Llama 3.2 была предварительно обучена на 9 триллионах токенов данных из общедоступных источников.
Претрейн моделей 1B и 3B Llama 3.2 являются дистилом из Llama 3.1 8B и 70B (предиктили не следующий токен, а логиты из старших моделей)
В инстракт трейне использовали аналогичный рецепт, что и Llama 3.1:
— Supervised Fine-Tuning (SFT)
— Rejection Sampling (RS)
— Direct Preference Optimization (DPO)
Сutoff: Декабрь 2023
P.S.: Круто, что подвезли мультимодальные 11B и 90B. А среди легковесных — 3B модель вышла очень интересной, и по моему тесту она даже лучше, чем Phi-3.5-mini (3.8B), которая очень неплохо справляется в своей весовой категории.
🤗 Скачать 1B и 3B легковесные версии можно уже сейчас на HuggingFace
На этот раз нам предоставили выбор аж из четырех моделей, включая, в том числе, и достаточно легковесные и мультимодальные версии:
▫️Llama 3.2 — 1B (1.23B) Lightweight
▫️Llama 3.2 — 3B (3.21B) Lightweight
▫️Llama 3.2 — 11B Multimodal
▫️Llama 3.2 — 90B Multimodal
Обзор: Llama 3.2 была предварительно обучена на 9 триллионах токенов данных из общедоступных источников.
Претрейн моделей 1B и 3B Llama 3.2 являются дистилом из Llama 3.1 8B и 70B (предиктили не следующий токен, а логиты из старших моделей)
В инстракт трейне использовали аналогичный рецепт, что и Llama 3.1:
— Supervised Fine-Tuning (SFT)
— Rejection Sampling (RS)
— Direct Preference Optimization (DPO)
Сutoff: Декабрь 2023
P.S.: Круто, что подвезли мультимодальные 11B и 90B. А среди легковесных — 3B модель вышла очень интересной, и по моему тесту она даже лучше, чем Phi-3.5-mini (3.8B), которая очень неплохо справляется в своей весовой категории.
🤗 Скачать 1B и 3B легковесные версии можно уже сейчас на HuggingFace
👍16❤9🔥4
🎓 Хинтон и Хопфилд получили Нобелевскую премию по физике за создание искусственных нейронных сетей
Нобелевскую премию по физике 2024 года Джону Дж. Хопфилду и Джеффри Э. Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».
Нобелевскую премию по физике 2024 года Джону Дж. Хопфилду и Джеффри Э. Хинтону «за основополагающие открытия и изобретения, которые позволяют осуществлять машинное обучение с использованием искусственных нейронных сетей».
❤53🤯37🔥12👍5🥴3🍌3😁2🤩1
🎓 Уже вторая Нобелевская премия за AI — на этот раз по химии. Половина премии за предсказание структуры белков» нейросетью Alpha Fold (от DeepMind)
Нобелевскую премию по химии 2024 года: одну половину — Дэвиду Бейкеру «за вычислительный дизайн белков», а другую половину — совместно Демису Хассабису и Джону М. Джамперу «за предсказание структуры белков».
Нобелевскую премию по химии 2024 года: одну половину — Дэвиду Бейкеру «за вычислительный дизайн белков», а другую половину — совместно Демису Хассабису и Джону М. Джамперу «за предсказание структуры белков».
❤51👍10🤯3🔥2🏆1
🔥 Сегодня Mistral AI представила новые модели — Ministral 3B и Ministral 8B
Ministral 3B и Ministral 8B, разработанные для on-device вычислений. Эти модели предлагают превосходную производительность в задачах reasoning, commonsense и function-calling, поддерживая контекст до 128k токенов.
⚙️ Ministral 3B разработана для сверхэффективного использования на устройствах с ограниченными ресурсами (e.g.: смартфоны). Ministral 8B предлагает больше возможностей для сложных задач. Обе модели поддерживают до 128k контекста и используют передовые методы pruning и quantization для снижения нагрузки на железо.
Бенчмарки показывают неплохой буст в сравнение с существующими Llama 3.1 / 3.2 и Gemma 2 моделями.
🤖 Ministral 8B: ссылка на модель
Ministral 3B и Ministral 8B, разработанные для on-device вычислений. Эти модели предлагают превосходную производительность в задачах reasoning, commonsense и function-calling, поддерживая контекст до 128k токенов.
⚙️ Ministral 3B разработана для сверхэффективного использования на устройствах с ограниченными ресурсами (e.g.: смартфоны). Ministral 8B предлагает больше возможностей для сложных задач. Обе модели поддерживают до 128k контекста и используют передовые методы pruning и quantization для снижения нагрузки на железо.
Бенчмарки показывают неплохой буст в сравнение с существующими Llama 3.1 / 3.2 и Gemma 2 моделями.
🤖 Ministral 8B: ссылка на модель
👍33❤6🔥2🏆1👾1
Новая диффузионная модель от Nvidia: Sana
Основные особенности:
— DC-AE энкрдер, (если интересно вот ссылка) который понижает в 32 раза, вместо привычных 8ми для vqVAE, без сильных потерь
— Линейный DiT: по сути ViT, где фьюз происходит не через аттеншен, а через марицу рангом d << n (где, n это количество image token’ов). Подробнее про метод у Яныка на ютубе. Имхо это не аттеншн, но называйте как хотите.
— Вместо T5 взяли small LLM (decoder only), не прошло и 2 лет…
— Кастомный сэмплер: Flow-DPM-Solver
Обещают может и не лучшее качество, но супер быструю скорость и резолюшн 4096х4096 (благодаря DC-AE).
💻 Code (будет тут)
📝 paper
😈 demo на градио
p.s.: погененрил в демо, 1024х1024 работает норм, но пишет с ошибками.
Основные особенности:
— DC-AE энкрдер, (если интересно вот ссылка) который понижает в 32 раза, вместо привычных 8ми для vqVAE, без сильных потерь
— Линейный DiT: по сути ViT, где фьюз происходит не через аттеншен, а через марицу рангом d << n (где, n это количество image token’ов). Подробнее про метод у Яныка на ютубе. Имхо это не аттеншн, но называйте как хотите.
— Вместо T5 взяли small LLM (decoder only), не прошло и 2 лет…
— Кастомный сэмплер: Flow-DPM-Solver
Обещают может и не лучшее качество, но супер быструю скорость и резолюшн 4096х4096 (благодаря DC-AE).
💻 Code (будет тут)
📝 paper
😈 demo на градио
p.s.: погененрил в демо, 1024х1024 работает норм, но пишет с ошибками.
❤13👍8🔥4🤬1
Состоялся релиз Stable Diffusion 3.5 8B Large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
https://huggingface.co/stabilityai/stable-diffusion-3.5-large
❤16👍4👀3💊1
This media is not supported in your browser
VIEW IN TELEGRAM
📍 CoTracker3 — новый подход к трекингу точек
Модель команды Meta AI и Visual Geometry Group из Оксфорда обучали на реальных видео без аннотаций, используя псевдоразметку.
Особенности CoTracker3:
— Обучение на реальных видео в semi-supervised-режиме.
— Упрощённая архитектура требует 1000 раз меньший датасет без потери качества.
— Поддержка трекинга через окклюзии с другими объектами.
Результаты:
Модель значительно превосходит предыдущие трекеры (например, BootsTAPIR и LocoTrack) в задачах с обширной окклюзией и более стабильна. CoTracker3 демонстрирует высокую точность на стандартных бенчмарках. Из ограничений выделю трудности с трекингом на поверхностях без характерных особенностей, таких как небо или вода.
📄 paper
🤗 demo
💻 code
Модель команды Meta AI и Visual Geometry Group из Оксфорда обучали на реальных видео без аннотаций, используя псевдоразметку.
Особенности CoTracker3:
— Обучение на реальных видео в semi-supervised-режиме.
— Упрощённая архитектура требует 1000 раз меньший датасет без потери качества.
— Поддержка трекинга через окклюзии с другими объектами.
Результаты:
Модель значительно превосходит предыдущие трекеры (например, BootsTAPIR и LocoTrack) в задачах с обширной окклюзией и более стабильна. CoTracker3 демонстрирует высокую точность на стандартных бенчмарках. Из ограничений выделю трудности с трекингом на поверхностях без характерных особенностей, таких как небо или вода.
📄 paper
🤗 demo
💻 code
🔥20❤3👍2👏1
✨ Стрим от OpenAI, День 2
Напоминаю, что вчера открыли доступ к полноценной o1, и представили новую pro подписку. Что было:
— Файнтюн o1 модели (позволяют обучать типу рассуждений, что полезно в узкоспециализированных доменах: право, генетика, etc)
👉 https://youtu.be/fMJMhBFa_Gc
Напоминаю, что вчера открыли доступ к полноценной o1, и представили новую pro подписку. Что было:
— Файнтюн o1 модели (позволяют обучать типу рассуждений, что полезно в узкоспециализированных доменах: право, генетика, etc)
👉 https://youtu.be/fMJMhBFa_Gc
YouTube
12 Days of OpenAI: Day 2
Begins at 10am PT
Join Mark Chen, SVP of OpenAI Research, Justin Reese, Computational Researcher in Environmental Genomics and Systems Biology, Berkeley Lab, and some team members from OpenAI as they demo and discuss Reinforcement Fine-Tuning.
Join Mark Chen, SVP of OpenAI Research, Justin Reese, Computational Researcher in Environmental Genomics and Systems Biology, Berkeley Lab, and some team members from OpenAI as they demo and discuss Reinforcement Fine-Tuning.
❤11👌1
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
По Sora утекло новое видео, говорят показывают v2
* 1-минутные видео на выходе
* текст в видео
* текст+изображение в видео
* текст+видео в видео
Не долго мы жили без cam-rip в АИ видео☕️
* 1-минутные видео на выходе
* текст в видео
* текст+изображение в видео
* текст+видео в видео
Не долго мы жили без cam-rip в АИ видео
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍8❤3😱3