Forwarded from Dealer.AI
Взять LLM за RAGa в 60 минут
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
DeepLearning.AI - Learning Platform
Building and Evaluating Advanced RAG
Learn advanced RAG retrieval methods like sentence-window and auto-merging that outperform baselines, and evaluate and iterate on your pipeline's performance.
Forwarded from Salute AI (Alexander Gavrilov)
Делимся уникальным курсом от команды SmartSpeech
Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.
Курс охватывает широкий спектр тем:
▪️ Детекция ключевых слов.
▪️ Распознавание речи.
▪️ Диаризация и верификация спикера.
▪️ Синтез речи и многое другое.
🌐 GitHub репозиторий с открытыми материалами курса, включая записи лекций, слайды и домашние задания. Пригодится всем, кто стремится к глубокому пониманию речевых технологий и их применению в реальных проектах.
Подписывайтесь 👉 Salute AI
#SmartSpeech #митап_Салют_GigaChat #митап
Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.
Курс охватывает широкий спектр тем:
💡
Ждём вас на встрече с авторами курса и другими экспертами SberDevices на митапе
«Салют, GigaChat!»
о речевых технологиях и больших языковых моделях:
4 декабря
, Москва (офлайн + онлайн). Ваши коллеги и друзья также приветствуются!
✅
Регистрация на митап
обязательна
Подписывайтесь 👉 Salute AI
#SmartSpeech #митап_Салют_GigaChat #митап
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Kantor.AI (Victor Kantor)
CoolGraph от Big Data МТС
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:графовые . Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
GitHub
GitHub - MobileTeleSystems/CoolGraph: Make GNN easy to start with
Make GNN easy to start with. Contribute to MobileTeleSystems/CoolGraph development by creating an account on GitHub.
✍1👍1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
❤3
Forwarded from DL in NLP (Vlad Lialin)
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
Пример тренировки трансформера: тык
Документация: тык
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
mlx.simplify как бы намекает, но в документации ни слова.Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
pip install mlxПример тренировки трансформера: тык
Документация: тык
Forwarded from gonzo-обзоры ML статей
Gemini announced!
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Google DeepMind
Gemini 3
Gemini 3 is our most intelligent model yet. With state-of-the-art reasoning to help you learn, build, and plan anything.
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял, вот ссылка для Google Chrome.
2️⃣ нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Bard has been updated in English with Gemini Pro.Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
cmd/ctrl+shift+R )Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Весьма актуальную штуку выложили на huggingface, особенно учитывая выход mixtral
https://huggingface.co/blog/moe
https://huggingface.co/blog/moe
huggingface.co
Mixture of Experts Explained
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
https://habr.com/ru/companies/sberdevices/articles/780334/
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
👍3
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Новые открытые LLM #ml_news
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
HF | релиз
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
> Describe unexisted Martian language like in Wikipedia article
> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.
1. Language family: ...
HF | релиз
👍2
Forwarded from что-то на DL-ском
Apple выложили код к обучению их трансформера с измененной параметризацией весов для достижения стабильной энтропии на каждом слое внимания.
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
🤓 Статья (аларм, много формул)
😆 Дискорд, через который генерила картинку
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
GPT-like модель «впервые сделала научное открытие»: что, как и куда дальше?
https://habr.com/ru/companies/ods/articles/781138/
https://habr.com/ru/companies/ods/articles/781138/
Хабр
GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?
14-го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении...
👍2
Forwarded from epsilon correct
This media is not supported in your browser
VIEW IN TELEGRAM
Выпустили первую стабильную версию Tensorflow-GNN 1.0! 🎅
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно🇷🇺 , приятно.
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.😛
TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно
Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
Принес вам 13 книг по Machine Learning для прочтения в 2024 году
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
🧠 Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
💻 Более практические
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
🎉 Генеративный AI
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)
🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)
Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.
Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9😁1
Forwarded from Точка машинного зрения
Выложили в общий доступ 21 лекцию и семинар с Летней школы машинного обучения Сколтеха SMILES-2023.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.
✅ Методы оптимизации для машинного обучения. Александр Гасников.
✅ Геометрические методы машинного обучения. Александр Бернштейн.
✅ Топологический анализ данных. Сергей Баранников.
✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.
✅ Устойчивое развитие и ESG-риски. Ирина Гайда.
✅ Топологический анализ данных. Илья Трофимов.
✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2
✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.
✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.
✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар
✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.
✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.
✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.
✅ Введение в диффузионные модели. Денис Ракитин.
✅ Диффузионные модели в задачах text-to-image. Никита Морозов.
✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.
❤5