Выступал сегодня на фесте «Формула будущего» в Иннополисе. Разгоняли со студентами тему карьеры в науке: с чего начать, как выглядит карьерный трек, как построена работа у меня в лабе в AIRI, какие направления занимают пальму «популярности» сейчас в исследованиях, а также о симбиозе науки и бизнеса в современных реалиях.
Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪
Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉
UPD: презентация доклада в комментариях 👇
Интересный опыт для меня — отличается от привычных tech talk выступлений на конференциях. Тем не менее получилось довольно интересно, искали ответы на непростые вопросы (и это не про цену контрактов) — тимлид экспертизой оказалось тоже приятно делиться💪
Встретились и пообщались на фесте с Егором Бугаенко (автор канала @yegor256news) и Валей Малых (автор канала @valuableai) — они тоже выступали с докладами, обсудил с ними карьерные пути студентов в исследованиях и разработке, кадровый голод в некоторых направлениях и ещё много всего. Кажется, вопросов хватит не на один подкаст😉
UPD: презентация доклада в комментариях 👇
2❤18🔥14⚡6❤🔥3👍2
⚡️Reducio! Microsoft в соавторстве с Гарри Поттером на днях выпустил статью про свой новый image-conditioned VAE для видео
За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)
Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.
Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!
По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥
Статья
Код
Веса
За счёт кодирования латентов движения удалось побить по сжатию обычный 2D VAE в 64 раза без потери качества (TxHxW: 1x8x8 -> 4x32x32)
Основной блок энкодера - это пространственно-временной 3D-VAE. Ключевая идея Reducio в том, что кадр из середины кодируемой видео последовательности (T/2, где T - длина видео) используется на этапе декодера при пирамидальной развёртке видеолатента через слой cross-attention. Проще говоря, средний кадр «помогает» восстановлению видео из сжатого пространства признаков (content image prior).
Кстати, похожий эффект с дополнительным image prior помог нам выбить лучшее качество при разработке Kandinsky 2.1.
Скорость работы Reducio очень высокая в разрешении 1024x1024 — 16 кадров генерируются 15.5 секунд на A100. При этом на обучение генеративной модели DiT по заявлениям потрачено всего 3.2k A100 часов!
По качеству даже побили свеженький Cosmos-VAE от Nvidia недельной давности🔥
Статья
Код
Веса
2🔥13⚡10❤5👍2
⚡️Вот и релиз новой языковой модели OLMo2 от Allen Institute подоспел
Просто взгляните на метрики💪
https://allenai.org/blog/olmo2
@complete_ai
Просто взгляните на метрики💪
https://allenai.org/blog/olmo2
@complete_ai
1🔥15👍4🏆3🤝2
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет «сегодня» — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
Т - триллион😊
Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) — Olympus.
Пишут, что там якобы 2T параметров (кстати, размер они анонсировали больше года назад, а как будет «сегодня» — узнаем)! Как когда-то WuDao 2.0 был лидером гонки параметров (говорили про 1.75Т)
👀17🙊5🔥3👍2
Complete AI
⚡️Похоже на следующей неделе нас ждёт анонс новой модели от бигтех компании🧐 Amazon готовится показать на следующей неделе на ежегодной конференции свою мультимодальную LLM с упором на понимание видео (например, найти нужный момент на видео по описанию) —…
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon?
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova:
📍Micro — маленькая языковая модель, быстрая и дешевая (контекст 128к токенов)
📍Lite, Pro — мультимодальные модели для понимания текста, изображений и видео (контекст 300к токенов)
📍Premier — мультимодальная модель с упором на способность к рассуждениям (только анонс, релиз в 2025 году)
📍Canvas — SoTA модель генерации изображений по тексту
📍Reel — SoTA модель генерации видео по тексту и стартовому кадру
В новости добавили примеров работы моделей ( даже есть сгенерированное видео рекламы пасты ). Деталей в целом пока немного, но я обязательно расскажу как только они появятся.
Доступ к моделям можно получить через фреймворк Amazon Bedrock, который посредством API является единой точкой входа в большой список существующих больших моделей (не только от Amazon).
⚡️Также анонсировали выпуск в середине 2025 года мультимодальной модели формата «any-to-any», которая сможет как понимать текст, картинки, аудио и видео, так и генерировать эти типы данных. Неужели 2025й будет новым витком популярности end-to-end декодеров?🤔
🔥По ссылке ещё больше сгенерированных с помощью Reel видео
UPD: сравнение с другими моделями в комментариях👇
@complete_ai
👍13🔥3❤2
Forwarded from Институт AIRI
Исследователи из лаборатории «Сильный ИИ в медицине» и лаборатории FusionBrain AIRI вошли в топ-5 соревнования MIDRC XAI Challenge 🔥
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
📎 Подробнее об участии в конкурсе команда рассказала в свежей статье на нашем Хабре.
Этот конкурс был направлен на решение одной из ключевых задач в области анализа медицинских изображений: создание интерпретируемых и надежных моделей искусственного интеллекта. Задачей участников была разработка и обучение модели классификации фронтальных рентгенограмм грудной клетки на наличие затемнений в лёгких, связанных с любым типом пневмонии.
По итогам команда представила 3 варианта решения задачи и вышла в топ-5 лучших наряду с учёными из Университета Джона Хопкинса, Университета Берна, команды Женского госпиталя в Бирмингеме, а также исследователями из Стенфорда и Университета Тюбингена.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥5👍2
Complete AI
Помните, на прошлой неделе я говорил об анонсе новой модели от Amazon? Релиз состоялся вчера в рамках конференции Amazon re Invent, где показали аж целое семейство фундаментальных моделей Nova: 📍Micro — маленькая языковая модель, быстрая и дешевая (контекст…
the_amazon_nova_family_of_models_technical_report_and_model_card.pdf
20.2 MB
☝️Метрики и детали в большом техническом отчете
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
В части картинок и видео список моделей в сравнении не очень большой (если для картинок ещё показали автоматические метрики TIFA и ImageReward, то для видео только HumanEval с Gen 3 Alpha и Luma 1.6)
Хочешь быть SoTA — начни с выбора удобной метрики😅
👍5🔥3😁3❤1
Уже завтра состоится финальная ИИшница этого года, где исследователи расскажут про свои статьи на NeurIPS 2024 🍳
На онлайн-митапе будут два моих сотрудника:
⚫️ Инженер-исследователь Robotics Антон Антонов с RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation — методом интерактивной сегментации для реалистичной оценки скорости и робастности аннотирования. Метод основан на оригинальной модели кликабельности, которая генерирует реалистичные клики аннотаторов. Исследование показало, что не существует одновременно оптимального метода с точки зрения скорости и робастности разметки.
⚫️ Младший научный сотрудник Controllable Generative AI Максим Николаев с HairFastGAN: Realistic and Robust Hair Transfer with a Fast Encoder-Based Approach — методе для редактирования причёсок на фотографиях. Метод основан на использовании пространства StyleGAN и набора предобученных энкодеров, что обеспечивает высокую скорость работы. HairFastGAN превосходит аналоги как по качеству переноса причёсок, так и по скорости исполнения, включая самые сложные случаи.
Подробнее об ИИшнице➡️ тут.
На онлайн-митапе будут два моих сотрудника:
Подробнее об ИИшнице
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤🔥6❤5
Forwarded from Ivan Oseledets’ Channel
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня закончили трехдневную научную отчетную сессию AIRI, на которой исследователи, от младших научных сотрудников до директоров лабораторий, поделились итогами работы за этот год и планами на следующий. За 3 дня мы прослушали 45 докладов и обсудили 159 постеров.
Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
Всем участникам — большое спасибо за интересные выступления, активные обсуждения и вовлеченность! Вместе мы делаем науку сильнее.
103❤🔥35🔥7🏆4👍3👏2
Благодарю всех подписчиков за доверие🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡41😎8❤7👏6🏆2
This media is not supported in your browser
VIEW IN TELEGRAM
Что же объединяет представителей команд?
❤🔥12⚡6🙏4😁3😱2❤1🙊1
Complete AI
Новый подарочек от Open AI в 21.00 тут👇 https://www.youtube.com/watch?v=2jKVx2vyZOY @complete_ai
Новый релиз модели синтеза и обработки видео — Sora🎥
👍16😱3
🏆В рамках AIJ в этом году моя команда готовила задачу Emotional FusionBrain — участники должны были разработать мультимодальную модель для понимания эмоций, подведения и социального взаимодействия людей на видео.
Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇
https://habr.com/ru/companies/airi/articles/864422/
Не буду тратить тут буквы на рассказ — приглашаю сразу почитать подробности про сореву, победителей и некоторые инсайты их решений на Хабре👇
https://habr.com/ru/companies/airi/articles/864422/
Хабр
Задача Emotional FusionBrain 4.0: итоги и победители
Всем привет! На связи снова лаборатория FusionBrain! В сентябре мы анонсировали задачу Emotional FusionBrain 4.0, которая стала частью соревнования AI Journey Contest. Участникам предстояло...
3🔥25👍8🏆3
Forwarded from Технологии | Нейросети | NanoBanana
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥13🔥3👍2❤1
🔥Представляю вашему вниманию 3 работы лаборатории FusionBrain, представляемые сейчас на конференции NeurIPS 2024 (одна из самых престижных международных конференций по ИИ) в Канаде.
Всего команды института AIRI представляют рекордные 17 работ на конференции💪
👉На N+1 можно почитать подробнее про другие работы
Всего команды института AIRI представляют рекордные 17 работ на конференции💪
👉На N+1 можно почитать подробнее про другие работы
3🔥24👍10🏆6