Machine Learning Research – Telegram
Machine Learning Research
955 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
На kaggle есть курс по Computer Vision. Так вот теперь у него появился практический гайд
https://www.kaggle.com/code/ivanlydkin/computer-vision-course-practical-guide
2
Forwarded from Salute AI (Alexander Gavrilov)
Делимся уникальным курсом от команды SmartSpeech

Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.

Курс охватывает широкий спектр тем:
▪️Детекция ключевых слов.
▪️Распознавание речи.
▪️Диаризация и верификация спикера.
▪️Синтез речи и многое другое.

🌐 GitHub репозиторий с открытыми материалами курса, включая записи лекций, слайды и домашние задания. Пригодится всем, кто стремится к глубокому пониманию речевых технологий и их применению в реальных проектах.

💡
Ждём вас на встрече с авторами курса и другими экспертами SberDevices на митапе
«Салют, GigaChat!»
о речевых технологиях и больших языковых моделях:
4 декабря
, Москва (офлайн + онлайн). Ваши коллеги и друзья также приветствуются!

Регистрация на митап
обязательна


Подписывайтесь 👉 Salute AI

#SmartSpeech #митап_Салют_GigaChat #митап
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Kantor.AI (Victor Kantor)
CoolGraph от Big Data МТС

Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.

Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть: графовые. Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.

Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.

Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.

Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
1👍1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm

Сайт работает лучше с компьютера
3
Forwarded from DL in NLP (Vlad Lialin)
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx

Apple внезапно выкатила свой opensource DL-фреймворк: MLX

MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции mlx.simplify как бы намекает, но в документации ни слова.

Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки

И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.

Установка: pip install mlx
Пример тренировки трансформера: тык
Документация: тык
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша, cmd/ctrl+shift+R )
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Весьма актуальную штуку выложили на huggingface, особенно учитывая выход mixtral
https://huggingface.co/blog/moe