Forwarded from Kantor.AI (Victor Kantor)
CoolGraph от Big Data МТС
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:графовые . Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
GitHub
GitHub - MobileTeleSystems/CoolGraph: Make GNN easy to start with
Make GNN easy to start with. Contribute to MobileTeleSystems/CoolGraph development by creating an account on GitHub.
✍1👍1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
❤3
Forwarded from DL in NLP (Vlad Lialin)
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
Пример тренировки трансформера: тык
Документация: тык
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
mlx.simplify как бы намекает, но в документации ни слова.Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
pip install mlxПример тренировки трансформера: тык
Документация: тык
Forwarded from gonzo-обзоры ML статей
Gemini announced!
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Google DeepMind
Gemini 3
Gemini 3 is our most intelligent model yet. With state-of-the-art reasoning to help you learn, build, and plan anything.
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял, вот ссылка для Google Chrome.
2️⃣ нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Bard has been updated in English with Gemini Pro.Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
cmd/ctrl+shift+R )Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Весьма актуальную штуку выложили на huggingface, особенно учитывая выход mixtral
https://huggingface.co/blog/moe
https://huggingface.co/blog/moe
huggingface.co
Mixture of Experts Explained
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
https://habr.com/ru/companies/sberdevices/articles/780334/
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
👍3
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Новые открытые LLM #ml_news
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
HF | релиз
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
> Describe unexisted Martian language like in Wikipedia article
> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.
1. Language family: ...
HF | релиз
👍2
Forwarded from что-то на DL-ском
Apple выложили код к обучению их трансформера с измененной параметризацией весов для достижения стабильной энтропии на каждом слое внимания.
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
🤓 Статья (аларм, много формул)
😆 Дискорд, через который генерила картинку
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
GPT-like модель «впервые сделала научное открытие»: что, как и куда дальше?
https://habr.com/ru/companies/ods/articles/781138/
https://habr.com/ru/companies/ods/articles/781138/
Хабр
GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?
14-го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении...
👍2
Forwarded from epsilon correct
This media is not supported in your browser
VIEW IN TELEGRAM
Выпустили первую стабильную версию Tensorflow-GNN 1.0! 🎅
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно🇷🇺 , приятно.
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.😛
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Принес вам 13 книг по Machine Learning для прочтения в 2024 году
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
💻 Более практические
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
🎉 Генеративный AI
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁1
Forwarded from Точка машинного зрения
Выложили в общий доступ 21 лекцию и семинар с Летней школы машинного обучения Сколтеха SMILES-2023.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
❤5
Forwarded from Pavel Zloi
Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизацями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).
Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.
PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.
Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.
PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.
huggingface.co
evilfreelancer/PavelGPT-7B-128K-v0.1-GGUF · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍4
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
dynamic-epoch-4bb on Notion
100 questions about NLP | Notion
Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.
👍8🔥2😁1
Forwarded from Data Science News (Andrey)
А у нас тут на русском языке есть доклады по машинному обучению прямо на границе текущего развития науки. Названия к видео говорящие, ориентироваться просто. Могу со своей стороны выделить несколько выступлений со школы 2023 года:
Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.
Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.
Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.
Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!
Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.
Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.
Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.
Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!
❤1