⚡️Вчера ByteDance выпустил новую супер модель Bagel, которая базируется да трансформере декодере и решает широкий спектр задач понимания и генерации мультимодальных данных (картинки, видео). Модель умеет как понимать разные модальности, так и генерировать их и вносить изменения (например, редактировать картинку по текстовой инструкции)
Архитектурно это MoE архитектура с двумя типами экспертов: Understanding и Generation. В опен сурс выложена 7B модель (7 млрд. активных параметров, всего их — 14 млрд.)
Модель обучена на нескольких триллионах токенов (отдельная часть исследования посвящена росту качества от увеличения числа токенов на обучении для визуальных генеративных задач), которые включают очень разнообразные задачи: от описания изображений до видеороликов, сопровождаемых траекториями движения. Также проработан механизм подробной фильтрации данных (UI removal, контроль разрешения и др.) Обучение проходит в 3 этапа: 2 фазы претрейна и 1 файнтюнинг. Что интересно, у модели прокачаны и способности к рассуждениям (thinking mode inside💪).
📍Интересная фишка — Next Group of Token Prediction подход, при котором модель учат предсказывать группу текстовых или визуальных токенов в целях повышения скорости и компрессии.
👉Статья
👉Hugging Face
P.S. Обязательно изучаем и дружим с Cursor😉
Архитектурно это MoE архитектура с двумя типами экспертов: Understanding и Generation. В опен сурс выложена 7B модель (7 млрд. активных параметров, всего их — 14 млрд.)
Модель обучена на нескольких триллионах токенов (отдельная часть исследования посвящена росту качества от увеличения числа токенов на обучении для визуальных генеративных задач), которые включают очень разнообразные задачи: от описания изображений до видеороликов, сопровождаемых траекториями движения. Также проработан механизм подробной фильтрации данных (UI removal, контроль разрешения и др.) Обучение проходит в 3 этапа: 2 фазы претрейна и 1 файнтюнинг. Что интересно, у модели прокачаны и способности к рассуждениям (thinking mode inside💪).
📍Интересная фишка — Next Group of Token Prediction подход, при котором модель учат предсказывать группу текстовых или визуальных токенов в целях повышения скорости и компрессии.
👉Статья
👉Hugging Face
P.S. Обязательно изучаем и дружим с Cursor😉
👍6🔥5❤1🏆1
Сегодня коллеги из Сбера зарелизили технологию инструктивного редактирования — Malvina⚡️
Наша лаборатория FusionBrain принимала активное участие в проекте. Мы сосредоточились на исследованиях и разработке новых архитектурных решений для базовой модели. Цель — повысить эффективность модели и улучшить качество итогового редактирования🔝
Результаты в комментариях, а подробнее читайте тут
Наша лаборатория FusionBrain принимала активное участие в проекте. Мы сосредоточились на исследованиях и разработке новых архитектурных решений для базовой модели. Цель — повысить эффективность модели и улучшить качество итогового редактирования
Результаты в комментариях, а подробнее читайте тут
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42❤9🏆6🤔2🙊1
Делюсь своей победой 🌟
Я стал лауреатом Премии Посла Китая. Премия учреждена РосСНИО и Посольством Китая по инициативе Чрезвычайного и Полномочного Посла КНР Чжан Ханьхуэя и ежегодно поддерживает выдающихся российских специалистов.
Вместе с остальными лауреатами я поеду в КНР посетить научно-исследовательские учреждения для обмена опытом с китайскими коллегами.
Благодарен за такую возможность, это большая честь для меня!
Я стал лауреатом Премии Посла Китая. Премия учреждена РосСНИО и Посольством Китая по инициативе Чрезвычайного и Полномочного Посла КНР Чжан Ханьхуэя и ежегодно поддерживает выдающихся российских специалистов.
Вместе с остальными лауреатами я поеду в КНР посетить научно-исследовательские учреждения для обмена опытом с китайскими коллегами.
Благодарен за такую возможность, это большая честь для меня!
Please open Telegram to view this post
VIEW IN TELEGRAM
7💯94🏆77🔥58👏21❤🔥12👍11⚡5❤3😁1
Уже привычно: крупная трансляция на @okkosport — сайт лежит намертво, а там уже 1:0. Спасибо🤝
🌚15👍9💯5🙊4
Forwarded from Уставший техдир
Первый выпуск второго сезона подкаста "Фичи Катятся"!
Дима Бугайченко — CDS B2C в Сбере. Мы познакомились в Минске, где выступали на митапе по рекомендательным системам. Мне понравился его доклад, а после, на афтерпати, несколько часов обсуждали машинное обучение и мультиагентные системы. Тогда я подумал: “Блин, я бы с ним поработал”. И вот, спустя почти два года — мы коллеги. Именно видосом с Димой я открываю второй сезон подкаста “Фичи Катятся”.
В этом видео мы обсудим:
- Как понять искусственный интеллект через призму натурального: ключевые принципы и их значение для разработчиков.
- Эволюция ИИ: от древних автоматов до генеративных моделей и трансформеров.
- Мультиагентные системы: как они работают, где применяются (логистика, умные дома, марсианские роверы) и почему 2025 год астрологи объявили годом агентов.
- Рекомендательные системы: их роль в продуктах, вызовы приватности и пузыри мнений.
- Теория игр и эмерджентность: как мультиагентные системы балансируют интересы бизнеса и пользователей.
- Будущее развитие применения ИИ: как технологии изменят бизнес, организации и нашу повседневную жизнь.
- Будущее ИИ и сильный искусственный интеллект (AGI): что ждет IT, продукты и общество, и как разработчикам к этому подготовиться.
Этот выпуск для тех, кто хочет глубже понять, как мы оказались в глобальной AI трансформации, какие изменения нас ждут в айти, бизнесе, продуктах, обществе, и как разработчикам, тимлидам и CTO использовать эти технологии для создания продуктов будущего.
https://youtu.be/QKt2BlKUwpk
ВК, Rutube, Spotify, Apple Podcasts, Яндекс.Музыка
Лайк, шер! Ты знаешь, с кем поделиться этим выпуском!
Дима Бугайченко — CDS B2C в Сбере. Мы познакомились в Минске, где выступали на митапе по рекомендательным системам. Мне понравился его доклад, а после, на афтерпати, несколько часов обсуждали машинное обучение и мультиагентные системы. Тогда я подумал: “Блин, я бы с ним поработал”. И вот, спустя почти два года — мы коллеги. Именно видосом с Димой я открываю второй сезон подкаста “Фичи Катятся”.
В этом видео мы обсудим:
- Как понять искусственный интеллект через призму натурального: ключевые принципы и их значение для разработчиков.
- Эволюция ИИ: от древних автоматов до генеративных моделей и трансформеров.
- Мультиагентные системы: как они работают, где применяются (логистика, умные дома, марсианские роверы) и почему 2025 год астрологи объявили годом агентов.
- Рекомендательные системы: их роль в продуктах, вызовы приватности и пузыри мнений.
- Теория игр и эмерджентность: как мультиагентные системы балансируют интересы бизнеса и пользователей.
- Будущее развитие применения ИИ: как технологии изменят бизнес, организации и нашу повседневную жизнь.
- Будущее ИИ и сильный искусственный интеллект (AGI): что ждет IT, продукты и общество, и как разработчикам к этому подготовиться.
Этот выпуск для тех, кто хочет глубже понять, как мы оказались в глобальной AI трансформации, какие изменения нас ждут в айти, бизнесе, продуктах, обществе, и как разработчикам, тимлидам и CTO использовать эти технологии для создания продуктов будущего.
https://youtu.be/QKt2BlKUwpk
ВК, Rutube, Spotify, Apple Podcasts, Яндекс.Музыка
Лайк, шер! Ты знаешь, с кем поделиться этим выпуском!
🔥10🦄7❤3🙊1
Forwarded from Китай.AI
🔥 Интернет-королева возвращается: 340 страниц об AI, которые взорвали Кремниевую долину
Легендарный аналитик Мэри Микер, автор культовых отчетов о трендах интернета, спустя 6 лет выпустила новый масштабный доклад — на этот раз об искусственном интеллекте. 340 страниц данных, прогнозов и провокационных выводов.
Главный вывод: ИИ-революция уже необратима, и мы находимся в точке "сингулярности".
📌 Основные тезисы:
- AI-революция необратима: В отчете 51 раз встречается слово "беспрецедентный"
- Китайские модели дешевле в 500 раз (ERNIE 4.5 Turbo vs GPT-4.5)
- Индия — неожиданный лидер по числу пользователей ChatGPT (13.5% от мирового трафика)
💸 Пузырь OpenAI?
Микер прямо называет оценку компании ($300B) "сильно завышенной":
→ Выручка OpenAI: $9.2B/год
→ Оценка/Выручка = 33x (у Perplexity — 75x!)
🔧 Технические детали
• Энергопотребление Blackwell GPU в 105 000 раз ниже аналогов 2014 года
• DeepSeek-R1 почти догнал OpenAI (93% vs 95% в MATH Level 5)
🌐 Главный тренд будущего
Следующие 1 миллиард пользователей пропустят этап приложений и сразу перейдут к AI-ассистентам через голосовые интерфейсы — особенно в регионах с низким интернет-покрытием.
🔮Вывод: "Нынешние лидеры ИИ могут повторить судьбу AltaVista. Единственное, что точно известно — мы в начале нового суперцикла технологий."
Полный отчет: BOND Capital AI Report 2025
Краткий обзор в китайской статье
#КитайскийИИ #КитайAI #ИИтренды #OpenAI #TechАналитика
Легендарный аналитик Мэри Микер, автор культовых отчетов о трендах интернета, спустя 6 лет выпустила новый масштабный доклад — на этот раз об искусственном интеллекте. 340 страниц данных, прогнозов и провокационных выводов.
Главный вывод: ИИ-революция уже необратима, и мы находимся в точке "сингулярности".
📌 Основные тезисы:
- AI-революция необратима: В отчете 51 раз встречается слово "беспрецедентный"
- Китайские модели дешевле в 500 раз (ERNIE 4.5 Turbo vs GPT-4.5)
- Индия — неожиданный лидер по числу пользователей ChatGPT (13.5% от мирового трафика)
💸 Пузырь OpenAI?
Микер прямо называет оценку компании ($300B) "сильно завышенной":
→ Выручка OpenAI: $9.2B/год
→ Оценка/Выручка = 33x (у Perplexity — 75x!)
🔧 Технические детали
• Стоимость инференса упала на 99.7% за 2 года • Энергопотребление Blackwell GPU в 105 000 раз ниже аналогов 2014 года
• DeepSeek-R1 почти догнал OpenAI (93% vs 95% в MATH Level 5)
🌐 Главный тренд будущего
Следующие 1 миллиард пользователей пропустят этап приложений и сразу перейдут к AI-ассистентам через голосовые интерфейсы — особенно в регионах с низким интернет-покрытием.
🔮Вывод: "Нынешние лидеры ИИ могут повторить судьбу AltaVista. Единственное, что точно известно — мы в начале нового суперцикла технологий."
Полный отчет: BOND Capital AI Report 2025
Краткий обзор в китайской статье
#КитайскийИИ #КитайAI #ИИтренды #OpenAI #TechАналитика
⚡18🔥14❤🔥7❤4👍4🤓1
Forwarded from Vikhr models
Нашу статью приняли на Slavic Natural Language Processing Workshop на А* конференции ACL!
Скоро выложим на архив.
Скоро выложим на архив.
🔥34🏆10👍4❤2🙏2
Встретился на днях с руководителем направления отдела исследований и разработки в области искусственного интеллекта ПИК, Артуром Ишмаевым.
Мы обсудили возможные форматы сотрудничества и инициативы с использованием технологий генеративного проектирования, обменялись мыслями и практическим опытом!
✔️ Буду рассказывать вам о совместных проектах!
Мы обсудили возможные форматы сотрудничества и инициативы с использованием технологий генеративного проектирования, обменялись мыслями и практическим опытом!
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍31🔥6⚡2❤1
⚡️⚡️⚡️На прошлой неделе мы в AIRI зарелизили очень крутую работу в рамках трека «Генеративное проектирование» — cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
Архитектура представляет собой мультимодальную LLM, которая на вход может принимать облака точек, изображения и текст, а на выходе генерировать код операций, восстанавливающих некоторый CAD объект (например, какую-то инженерную деталь). То есть мы одновременно решаем задачу понимания сложных модальностей и задачу синтеза последовательности операций, необходимых для её восстановления по фото и облаку точек.
В дополнение добавили несколько вариантов онлайн RL (DPO и Dr. CPPO), что позволило значительно улучшить метрики и выбить SoTA на самых известных бенчмарках по восстановлению CAD моделей: DeepCAD, Fusion360 и CC3D💪
📍Статья — https://arxiv.org/abs/2505.22914
📍GitHub
📍Hugging Face
📍На Papers With Code уверенная SoTA на DeepCAD бенчмарке
Буду очень рад обратной связи и предложениям по развитию, тестированию и будущему внедрению!
P.S. На прошедшем 30 мая DataFest’е в Сбере я рассказал подробно про наши исследования в области генеративного проектирования и кратко о модели, что вызвало большой интерес у представителей промышленности. Поэтому если вы ещё не слышали про cadrille, то обязательно расскажите своему другу - инженеру, ему особенно понравится😉
@complete_ai
Архитектура представляет собой мультимодальную LLM, которая на вход может принимать облака точек, изображения и текст, а на выходе генерировать код операций, восстанавливающих некоторый CAD объект (например, какую-то инженерную деталь). То есть мы одновременно решаем задачу понимания сложных модальностей и задачу синтеза последовательности операций, необходимых для её восстановления по фото и облаку точек.
В дополнение добавили несколько вариантов онлайн RL (DPO и Dr. CPPO), что позволило значительно улучшить метрики и выбить SoTA на самых известных бенчмарках по восстановлению CAD моделей: DeepCAD, Fusion360 и CC3D💪
📍Статья — https://arxiv.org/abs/2505.22914
📍GitHub
📍Hugging Face
📍На Papers With Code уверенная SoTA на DeepCAD бенчмарке
Буду очень рад обратной связи и предложениям по развитию, тестированию и будущему внедрению!
P.S. На прошедшем 30 мая DataFest’е в Сбере я рассказал подробно про наши исследования в области генеративного проектирования и кратко о модели, что вызвало большой интерес у представителей промышленности. Поэтому если вы ещё не слышали про cadrille, то обязательно расскажите своему другу - инженеру, ему особенно понравится😉
@complete_ai
4🔥54👍8🏆7❤5🤓1👀1
⚡️⚡️⚡️Вчера выложили нашу новую работу Confidence Is All You Need о способности языковых моделей выполнять роль функции наград (применяются в обучении с подкреплением — DeepSeek R1 яркий тому пример) для самостоятельного улучшения качества генерации текста на основе внутренней уверенности в своих ответах. Другими словами, языковая модель сама оценивает лучшие свои ответы, и эта оценка используется для её улучшения/дообучения. Мы назвали этот процесс Reinforcement Learning via Self-Confidence.
Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.
В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.
Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇
https://huggingface.co/papers/2506.06395
Такой подход позволяет избавиться от разработки отдельных функций наград, специальной разметки данных для обучения и дополнительных preference моделей.
В качестве базы для исследований взяли две модели Qwen2.5-Math: 1.5B и 7B, которые уже (как следует из названия) дообучались для решения математических задач. В итоге мы получили существенное улучшение на ряде математических бенчмарков за счёт такой простой процедуры: от +0.8% до +26.8%.
Поддержите апвоутами в голосовании за лучшую статью дня👇👇👇
https://huggingface.co/papers/2506.06395
3🔥50❤10👍3🆒2
Делюсь забавным сервисом. Вам показывают фото и карту: надо угадать примерный год, когда оно было сделано, а также ткнуть на глобусе место фотографии
Довольно залипательная вещь👇
https://timeguessr.com/
Довольно залипательная вещь👇
https://timeguessr.com/
3💯14🔥11