Machine Learning Research – Telegram
Machine Learning Research
955 subscribers
61 photos
7 videos
2 files
1.05K links
Download Telegram
#книга
Simon J.D. Prince "Understanding Deep Learning"
Незаслуженно малоизвестная книга. Но это самое лучшее, что в последние годы писалось по глубокому обучению. Материал очень современный (GPT3, диффузионные модели, графовые сети есть). Повествование с основ и до этических проблем, очень широкий охват. Текст и рисунки авторские. Достаточно подробная библиография. Ну разве что примеров кода нет (книга теоретическая). Настоятельно рекомендую!
https://udlbook.github.io/udlbook/
👍6
Forwarded from 🏆 Data Feeling | AI (Aleron Milenkin)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Библиотека RAPIDS от NVIDIA cделает Pandas в 150 раз быстрее без изменений кода.

Нужно прописать только это:
%load_ext cudf.pandas
import pandas as pd


🤖 Их библиотека RAPIDS cuDF сама определяет, доступна GPU или CPU, и ускоряет обработку.

💪 Колаб чтоб попробовать:
🥳 Репозиторий либы:

@datafeeling
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
Forwarded from Generative Ai
X-LLM. Новая библиотека для обучения LLM в экосистеме Huggingface.

Она поддерживает все современные методы (QLoRA, Flash Attention 2, Gradient checkpointing, GPTQ квантизацию, W&B, обучение на нескольких GPU с помощью DeepSpeed, даже каждый чекпоинт сохраняет сразу в Huggingface Hub). Подходит как для быстрого прототипирования, так и для production-ready решений.

Репозиторий, внутри много примеров: https://github.com/BobaZooba/xllm

Colab с обучением 7B модели: ссылка

Open source модель: https://huggingface.co/BobaZooba/Shurale7B-v1

Интерактивная текстовая игра (с моделью выше) с динамическими персонажами и историями: @TaleQuestBot (да, бот в телеграм)
🔥5
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔥EMU VIDEO:
Factorizing Text-to-Video Generation by Explicit Image Conditioning


Сегодня сразу два больших релиза от моих коллег из Meta GenAI! Один из них — опубликовали модель EMU-Video.

Новая модель строится на базе Text-2-image модели Emu, и теперь может генерить 4-секундные видео 512x512 в 16 fps.

Архитектура, грубо:
мы берем pre-trained 2.7B Emu для генерации text-2-image, замораживаем Unet и добавляем в него дополнительные аттеншен слои, которые работают вдоль врменной оси. И тренируем только доп слои, на генерацию видео по тексту.

На вход даём либо картинку + текст, либо только текст (в этом случае картинку генерим с помощью Emu). На выходе — 65 фрейма 512x512.

Если погрузиться в детали, то сначала генерится 16 фреймов, а затем ещё одна модель с такой же архитектурой интерполирует видео до 65 фреймов.

Это теперь SOTA в text-2-video:
✔️ Emu-Video vs Gen-2: победа Emu-Video в 78.5% случаев
✔️Emu-Video vs Pika - победа в 98.5% случаев по оценке кожаных разметчиков.

Сайт проекта
Демо-результаты

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
На kaggle есть курс по Computer Vision. Так вот теперь у него появился практический гайд
https://www.kaggle.com/code/ivanlydkin/computer-vision-course-practical-guide
2
Forwarded from Salute AI (Alexander Gavrilov)
Делимся уникальным курсом от команды SmartSpeech

Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.

Курс охватывает широкий спектр тем:
▪️Детекция ключевых слов.
▪️Распознавание речи.
▪️Диаризация и верификация спикера.
▪️Синтез речи и многое другое.

🌐 GitHub репозиторий с открытыми материалами курса, включая записи лекций, слайды и домашние задания. Пригодится всем, кто стремится к глубокому пониманию речевых технологий и их применению в реальных проектах.

💡
Ждём вас на встрече с авторами курса и другими экспертами SberDevices на митапе
«Салют, GigaChat!»
о речевых технологиях и больших языковых моделях:
4 декабря
, Москва (офлайн + онлайн). Ваши коллеги и друзья также приветствуются!

Регистрация на митап
обязательна


Подписывайтесь 👉 Salute AI

#SmartSpeech #митап_Салют_GigaChat #митап
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Kantor.AI (Victor Kantor)
CoolGraph от Big Data МТС

Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.

Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть: графовые. Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.

Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.

Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.

Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
1👍1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm

Сайт работает лучше с компьютера
3