Complete AI – Telegram
Complete AI
7.45K subscribers
482 photos
33 videos
10 files
263 links
Меня зовут Андрей Кузнецов

Директор лаборатории FusionBrain в AIRI, один из фаундеров моделей Kandinsky, к.т.н., 15+ лет опыта в Computer Vision, выступаю с лекциями и пишу о событиях в AI и ML

Tg: @kuznetsoff87
Linkedin: https://tinyurl.com/y96nmmdd
Download Telegram
Завтра на конференции AI in 2023 в Иннополисе проведу экспертную дискуссию про генеративный искусственный интеллект: поговорим о подходах и прикладных применениях в различных отраслях.

Начнётся дискуссия в 10.00.

Прямая трансляция

#флэшбэк
Забавно, что до текущего момента я в Казани был всего 2 раза: в студенчестве ездил на Cirque du Soleil, и на конференцию ММРО в 2013. А в Иннополисе ни разу так и не удавалось побывать😶
🔥33👍6
Life style
💯66👍14🔥7❤‍🔥4
Forwarded from RnD CV Team (Alexander Kapitanov)
Пятничное!✌️

🔥Подборка 10 интересных и бесплатных обучающих материалов по компьютерному зрению!🔥

👁 Computer Vision: Algorithms and Applicationsбиблия обработки сигналов и компьютерного зрения от Richard Szeliski. Книга распространяется бесплатно!

👁 Digital image processing by Rafael C. Gonzalez — еще одна интересная книга по обработке изображений и классике.

👁 The Ancient Secrets of Computer Vision — курс от Joseph Redmon преимущественно по классическому зрению, в конце затрагивает нейронные сети. А еще у него забавное резюме.

👁 First Principles of Computer Vision — обучающий курс лекций от Shree Nayar. От классических алгоритмов компьютерного зрения и обработки изображний до глубокого обучения!

👁 CS231n: Deep Learning for Computer Vision — настоявшаяся классика, курс по глубокому обучению и компьютерному зрению. На youtube есть выпуски разных лет.

👁 Компьютерное зрение — отличный курс по классическому компьютерному зрению на youtube от Антона Конушина. Есть разные версии курса, даже от 2011 и 2015 года!

👁 OpenCV Tutorials — неплохие обучающие материалы на официальном сайте OpenCV. Также у них есть платные курсы.

👁 Курс от Deep Learning School — большая подборка лекций и семинаров от классического ML до глубокого обучения и компьютерного зрения от ребят из физтеха.

👁 Курсы лекций (часть 1, часть 2) на youtube от Алексея Артамонова. На канале Computer Science Center есть также другие обучающие материалы!

👁 Курсы лекций по глубокому обучению и компьютерному зрению от Евгения Разинкова на youtube.

#edu
❤‍🔥19🔥6👍4🏆2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
Москва, с днём города!🎉

@complete_ai
🔥63👎7👏5💯3❤‍🔥1👍1
Одним из интересных мероприятий на прошлой неделе было выступление на семинаре сообщества AGI Russia, где я рассказывал про исследования команды в области мультмодальных моделей и способности таких архитектур понимать различные типы данных: аудио, изображения, последовательности событий. На этапе дискуссии были интересные нестандартные вопросы, за что спасибо слушателям. Должно быть особенно полезно тем, кто интересуется направлением фундаментальных моделей и AGI.

🎬YouTube

@complete_ai
❤‍🔥15🔥6👎3💯21
Пишем сейчас с ребятами статью на ICLR, времени как всегда мало, прогноз жизненного цикла сабмишена примерно так выглядит)
🔥30❤‍🔥6💯3
🏆Сегодня мы официально запускаем новый AIJ Contest, в котором заявлено 5 крутых задач с общим призовым фондом 11+ млн рублей!!!

1) Strong Intelligence — создать мультимодальную модель, которая обыгрывает знатоков интеллектуальных викторин и показывает суперуровень эрудиции

2) Unique RecSys — обучить ИИ-алгоритм подбирать наиболее релевантный контент

3) Personal AI — создать человекоцентричного ИИ-помощника

4) Equal AI — сделать сервисы доступными каждому — обучить модель распознавать русский жестовый язык по видео

5) Rescue AI — разработать новый способ расшифровки генома

Обо всех задачах подробно можно прочитать здесь

Первая же задача Strong Intelligence (самая сложная и на повестке современных мультимодальных исследований) разрабатывалась нашей командой AIRI + Sber AI — очень хочется получить много интересных крутых решений. Готов отвечать на вопросы, если будут возникать!

Скоро откроем гитхаб с baseline решением, и в ближайшее время проведём вебинар, где расскажем подробно про задачи и ответим на возникающие вопросы, а пока желаю всем продуктивного погружения в контекст задач🦾

Update: GitHub

Следите за информацией)
🔥38🎉8🏆6👍3
❤️ Приглашаю на научный семинар AIRI на следующей неделе

🔵Дата и время: 4 октября в 16:55

🔵Тема: «Одна LLM хорошо, а N лучше? Мультиагентный подход - путь к AGI»

🔵Докладчик: Андрей Кузнецов, AIRI, Сбер

🔵Оппонент: Валентин Малых, MTS AI

🔵Подробное описание семинара скоро появится по ссылке

Пригласить внешних слушателей и посмотреть записи прошлых семинаров можно на YouTube-канале AIRI.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥13🎉3
⚡️Горжусь командой и поздравляю всех соавторов!

Нашу статью про модель Kandinsky приняли на одну из топовых конференций - EMNLP 2023 (A*) в Demo трек. В этом году она проходит с 6 по 10 декабря в Сингапуре.

Чуть позже, как отправим финальную версию, я выложу её в канале - удалось много интересных экспериментов провести с архитектурой: ablation study с prior блоком, human evaluation, сравнение в единой конфигурации существующие open source модели и т.д.

ℹ️Для подписчиков, которые по каким-то причинам не публикуются или просто не знакомы, рейтинг конференции является показателем её крутости (A* = exceptional, flagship). На такие конференции, как правило, более строгий отбор, доля принятых статей не очень большая, и, как следствие, учёные стараются отправлять туда свои самые значимые достижения в исследованиях.
🔥116👍18🎉12❤‍🔥4🏆3
🏅А кто сегодня молодец и взял Trending paper на Hugging Face, обогнав Google DeepMind и Carnegie Mellon?

Правильный ответ: статья про нашу модель Kandinsky, которую мы выложили на arxiv.

А среди отметивших статью Julien Chaumond (CTO Hugging Face) и Patrick von Platten (Team lead Diffusers)! Со вторым мы активно сотрудничаем по внедрению модели в их самый крупный фреймворк генеративных моделей diffusers (18.2k на GitHub).

Ссылка на hf

P.S. Trending paper — лучшая статья дня в одном из крупнейших мировых комьюнити исследователей и ML разработок Hugging Face.

@complete_ai
🔥139👍23🎉13💯4🏆4👎3
Научили Kandinsky 2.2 "понимать" время

Мы сегодня расширяем способности Kandinsky 2.2 и добавляем новую возможность создавать видеоролики по текстовому описанию в режиме анимации. По одному текстовому описанию генерируется 4-секундное видео, эффект анимации можно выбрать из предложенного списка: от смещений в разные стороны до сложных пролётов над сценой - всего таких режимов 16 штук.

Видео генерируются с частотой 24 кадра в секунду и разрешением 640×640 пикселей. Ожидание генерации от запуска до результат составит около 1.5 минут.

Так как новый режим ресурсозатратный, мы решили пока дать доступ самым активным пользователям Kandinsky 2.2, которые получат приглашение в ближайшее время. Ну а к концу года обязательно раскатаем для всех).

Мы также добавили интересный режим, который для себя назвали "Режиссёр". Смысл в том, что пользователь может ввести 1-3 текстовых описаний, затем выбрать для каждого свою механику анимации, а после этого модель создаст «мини-фильм».

Те пользователи, которые хотят попробовать новые возможности модели сейчас, могут оставить заявку на получение доступа в Telegram-боте.

Ну и мы следуем традиции - код выложен в open source, на Хабре больше деталей и генераций.

Добро пожаловать из мира статики в мир динамики💪
Очень жду ваш фидбэк — это для нас крайне важно!

📌Полезные ссылки:
Сайт проекта
GitHub
Telegram-бот
Хабр

UPD:
Добавили галерею на rudalle.ru
Добавил ссылку на Хабр

@complete_ai
🔥50👍13❤‍🔥7👏4🎉3🏆3👎1
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai
🔥19👍6💯4
🎂
Please open Telegram to view this post
VIEW IN TELEGRAM
💯42👎94🏆4
Вчера выступал на российско-китайской Открытой конференции NAUKA 0+ МГУ в г. Шеньчжень, Китай с пленарным докладом о мультимодальных архитектурах и исследованиях, которыми мы активно занимается в рамках научной группы FusionBrain.

Это мой первый опыт рабочей поездки в Азию и вот, чем хочется поделиться с вами:
1) китайцы очень по-хорошему любопытный и заинтересованный народ, жадный до новых идей и знаний, стараются донести мысль как угодно, даже с помощью электронного переводчика и жестов
2) г. Шеньчжень всего 40 лет, но выглядит он очень большим и активно застраиваются огромные многоэтажные кварталы
3) вокруг очень чисто, огромное количество парков, тёплом море, низкие цены на многие товары
4) по части блюд визуально невозможно определить, что там может быть в составе🤔
5) конференция проходит в МГУ-ППИ в Шеньчжене, который является мини-копией Московского (вики)
6) Курорты на Южно-Китайском море (Dameisha Resort!!!) - отличная альтернатива Таиланду🏖️
7) К сожалению нет возможности попасть в Гонконг по однократной академической китайской визе. После пересечения границы - обратной дороги не будет:(
8) Наличие знания английского языка никак здесь вам не поможет, так же как и наличие любой валюты кроме юаней и карт UnionPay (карту сделал в РФ в одном из банков). Идеально иметь WeChat или Alipay, но туда не так просто попасть
9) Большинство автомобилей - электромобили, поэтому порой идя по оживленной улице ты преимущественно можешь слышать сигналы клаксона, речь людей и все остальные звуки, кроме двигателей🚎
10) В номерах очень любят делать стеклянные прозрачные перегородки между комнатой и ванной🛀

На следующей неделе буду в Гуанчжоу пару дней - посмотрим, чем меня удивит Китай там🇨🇳
🔥89👍32💯3👎2👏2