NEW BOT Телеграм, страница

👍1

543 viewsНиколай, 07:57

This media is not supported in your browser

Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm

Сайт работает лучше с компьютера

❤3

504 viewsНиколай, 13:28

Machine Learning Research

Кто такие LLM-агенты и что они умеют?

https://habr.com/ru/companies/ods/articles/776478/

Хабр

Кто такие LLM-агенты и что они умеют?

В последнее время большие языковые модели (Large Language Models, LLM) стали невероятно популярными — кажется, их обсуждают везде, от школьных коридоров до Сената США. Сфера LLM растёт бурными...

549 viewsНиколай, 08:10

Machine Learning Research

Forwarded from DL in NLP (Vlad Lialin)

MLX: An array framework for Apple silicon
github.com/ml-explore/mlx

Apple внезапно выкатила свой opensource DL-фреймворк: MLX

MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции mlx.simplify как бы намекает, но в документации ни слова.

Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки

И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.

Установка: pip install mlx
Пример тренировки трансформера: тык
Документация: тык

505 viewsНиколай, 16:23

Machine Learning Research

Forwarded from gonzo-обзоры ML статей

Gemini announced!

Looks like the most capable GPT competitor with better multimodal capabilities.

Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

Google DeepMind

Gemini 3

Our most intelligent AI model that brings any idea to life

572 viewsНиколай, 16:29

Machine Learning Research

Forwarded from Сиолошная

UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat

НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял, вот ссылка для Google Chrome.

2️⃣нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language

Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху: Bard has been updated in English with Gemini Pro.

Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша, cmd/ctrl+shift+R )

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

801 viewsНиколай, 16:40

Machine Learning Research

Весьма актуальную штуку выложили на huggingface, особенно учитывая выход mixtral
https://huggingface.co/blog/moe

huggingface.co

Mixture of Experts Explained

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

777 viewsНиколай, 15:38

Machine Learning Research

О методах позиционного кодирования в Transformer

https://habr.com/ru/articles/780116/

Хабр

О методах позиционного кодирования в Transformer

Традиционный дисклеймер Статья посвящёна проблеме выбора метода позиционного кодирования в нейросетевых моделях на основе архитектуры Transformer. От читателя требуется понимание общих принципов...

650 viewsНиколай, 16:14

Machine Learning Research

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

https://habr.com/ru/companies/sberdevices/articles/780334/

Хабр

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....

👍3

588 viewsНиколай, 17:45

Machine Learning Research

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Новые открытые LLM #ml_news

Пришло время обозреть открытые языковые модели, вышедшие за последнее время.

➕ Mixtral-8x7B

Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.

Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).

Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.

HF | GitHub

➕ Phi-2

Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.

На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.

HF | релиз

➕ Zephyr 3B

И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.

Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.

> Describe unexisted Martian language like in Wikipedia article

> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.

1. Language family: ...

HF | релиз

👍2

583 viewsНиколай, 15:54

Machine Learning Research

Forwarded from что-то на DL-ском

Apple выложили код к обучению их трансформера с измененной параметризацией весов для достижения стабильной энтропии на каждом слое внимания.

Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))

🤓

Статья (аларм, много формул)

😆

Дискорд, через который генерила картинку

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1

629 viewsНиколай, 12:39

Machine Learning Research

https://teletype.in/@alexwortega/BmwV-nq0DdO

Teletype

я начинаю хайповать по МоЕ и вам тоже стоит, и ВОТ ПОЧЕМУ

те кто давно на меня подписаны знают что я довольно скептически отношусь к СВЕРХ массивным моделям - да круто, мы обязательно туда...

730 viewsНиколай, 16:54

Machine Learning Research

GPT-like модель «впервые сделала научное открытие»: что, как и куда дальше?

https://habr.com/ru/companies/ods/articles/781138/

Хабр

GPT-like модель «впервые сделала научное открытие»: что, как, и куда дальше?

14-го декабря в одном из самых авторитетных общенаучных журналов Nature была опубликована статья с, кажется, сенсационным заголовком: «ИИ-модели Google DeepMind превосходят математиков в решении...

👍2

790 viewsНиколай, 15:29

Machine Learning Research

Forwarded from epsilon correct

This media is not supported in your browser

VIEW IN TELEGRAM

Выпустили первую стабильную версию Tensorflow-GNN 1.0! 🎅

TF-GNN – библиотека для графовых нейросеток, которая ориентирована на гетерогенные графы и суровый продакшн. Для этого релиза я работал над алгоритмами обучением без учителя и метриками из нашей статьи. Так, чтоб в проде было хорошо, стабильно 🇷🇺, приятно.

Из забавного – прямо перед выпуском нам сильно вставил палки в колёса керас своей версией 3.0, которая резко оборвала обратную совместимость, а заодно и поддержку нашей библиотеки, забив на релизный цикл TensorFlow и правила релизов в гугле. Я бы за такое давал по жопе, но кто ж меня спрашивает. 😛

Please open Telegram to view this post

VIEW IN TELEGRAM

837 viewsНиколай, 11:36

Machine Learning Research

Forwarded from Курсы Data Science

https://github.com/mlcoursemm/ml2023autumn/tree/main

GitHub

GitHub - mlcoursemm/ml2023autumn: Machine Learning course for MSU

Machine Learning course for MSU. Contribute to mlcoursemm/ml2023autumn development by creating an account on GitHub.

725 viewsНиколай, 08:47

Machine Learning Research

Forwarded from эйай ньюз

Принес вам 13 книг по Machine Learning для прочтения в 2024 году

Вкатывающимся в ML вархиважно иметь структурированную информацию для обучения. Чтобы избежать головокружения от длины списка, советую для начала выбрать по одной книге из каждой секции и вперёд штудировать!

🧠

Фундамент
1. Deep Learning: Foundations and Concepts (Bishop & Bishop, 2023)
2. Deep Learning (Goodfellow, Bengio, Courville, 2016)
3. Mathematics for Machine Learning (Deisenroth, Faisal, Ong, 2020)
4. Probabilistic Machine Learning (Murphy, 2012-2023)
5. Linear Algebra and Learning from Data (Stang, 2019)

💻

Более практические
6. Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd Edition (Géron, 2022)
7. Dive into Deep Learning (Zhang et al., 2023)
8. Designing Machine Learning Systems (Huyen, 2022)
9. Fundamentals of Data Engineering (Reis & Housley, 2022)

🤗 LLM-ки
10. Natural Language Processing with Transformers, Revised Edition (Tunstall, von Werra, Wolf, 2023)
11. Hands-On Large Language Models (Alammar and Grootendorst, 2024 - WIP)

🎉

Генеративный AI
12. Generative Deep Learning, 2nd Edition (Foster, 2023)
13. Hands-On Generative AI with Transformers and Diffusion Models (Cuenca et al., 2024 - WIP)

Многие из книг можно найти в интернете бесплатно. Список, конечно, не исчерпывающий, но довольно вместительный.

Список подготовил мой знакомый из Hugging Face, Omar Sanseviero, а я его дополнил.

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9😁1

735 viewsНиколай, 15:36

Machine Learning Research

Forwarded from Точка машинного зрения

Выложили в общий доступ 21 лекцию и семинар с Летней школы машинного обучения Сколтеха SMILES-2023.

✅ Обзор методов машинного обучения с учетом физико-математических моделей процессов. Евгений Бурнаев.

✅ Методы оптимизации для машинного обучения. Александр Гасников.

✅ Геометрические методы машинного обучения. Александр Бернштейн.

✅ Топологический анализ данных. Сергей Баранников.

✅ Введение в машинное обучение с учетом физико-математических моделей. Владимир Вановский.

✅ Устойчивое развитие и ESG-риски. Ирина Гайда.

✅ Топологический анализ данных. Илья Трофимов.

✅ Нейросетевые методы вычислительного оптимального транспорта. Александр Коротин. Часть 1 Часть 2

✅ Коммуникации в распределенной и федеративной оптимизации. Александр Безносиков.

✅ Краткое введение в квантовую химию и молекулярную симуляцию. Роман Щуцкий.

✅ Машинное обучение в квантовых системах. Штефан Сандуляну. Лекция Семинар

✅ Вычислительно эффективный оптимальный транспорт. Дарина Двинских.

✅ Генерация с использованием диффузионных моделей. Диффузионные модели в задачах text-to-3d. Кирилл Струминский.

✅ Методы оптимизации потоковой задачи на сетях. Александр Рогозин.

✅ Введение в диффузионные модели. Денис Ракитин.

✅ Диффузионные модели в задачах text-to-image. Никита Морозов.

✅ Семинары: Алгоритм нейронного оптимального транспорта для случая слабых костов. Нейронный оптимальный транспорт. Петр Мокров.

❤5

681 viewsНиколай, 13:26

Machine Learning Research

Forwarded from Pavel Zloi

Всем привет! Под занавес года по просьбам трудящихся подготовил ещё и GGUF версию модели PavelGPT. Имеются варианты с квантизацями q2, q3, q4 и q8, по идее такой набор должен покрыть все возможные варианты (включая даже слабенькие железки).

Помимо этого обновил скрипт тренировки модели, добавил в него секции конвертации в GGUF и операции по квантизации.

PS. Сори, что пропал на неделю, причиной тому стал банальный грипп, который свалил меня аж на целую неделю, но со вчерашнего дня я уже более-менее вернулся в норму.

huggingface.co

evilfreelancer/PavelGPT-7B-128K-v0.1-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍4

680 viewsНиколай, 05:52

Machine Learning Research

Forwarded from grokaem себя (Milana)

#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.

dynamic-epoch-4bb on Notion

100 questions about NLP | Notion

Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.

👍8🔥2😁1

751 viewsНиколай, 11:15

Machine Learning Research

Forwarded from Data Science News (Andrey)

А у нас тут на русском языке есть доклады по машинному обучению прямо на границе текущего развития науки. Названия к видео говорящие, ориентироваться просто. Могу со своей стороны выделить несколько выступлений со школы 2023 года:

Доклад про комбинацию ML и физических методов с примерами из реальных земных задач. Хороший обзорный рассказ и для общего развития полезно.

Если вы хотите знать почему в adam или adagrad так как есть, откуда это всё эти оптимизации взялись, можно ли сделать лучше, и как теоретически связан batch size и learning rate то вам сюда обязательно. Размяться перед просмотром лекции можно на этом.

Доклад про теорию диффузионных моделей. Смотрится относительно легко. Если вы думали что теория вероятности в ML вам не нужна, то самое время убедится в обратном.

Длина видео по 1,5 часа, однако, есть чем занять себя на скучных праздниках!

❤1

1.02K viewsНиколай, 12:46

Machine Learning Research

Forwarded from gonzo-обзоры ML статей

[Singapore] TinyLlama: An Open-Source Small Language Model
Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
Статья:https://arxiv.org/abs/2401.02385
Код: https://github.com/jzhang38/TinyLlama

В полку SLM (Small Language Models) прибыло! TinyLlama — это моделька размера 1.1B, обученная на 3T токенов! Для сравнения намного большую 70B Шиншиллу (https://news.1rj.ru/str/gonzo_ML/1216) обучали на меньшем датасете в 1.4T токенов. По рецептам Шиншиллы оптимальное обучение для 1B модели было бы на 20B токенов (https://news.1rj.ru/str/gonzo_ML/1223), а тут 3T, почувствуйте разницу! Кажется, это в первый раз для настолько малой модели.

Из других SLM за последнее время были, например, Phi 1 и 1.5 с 1.3B (https://news.1rj.ru/str/gonzo_ML/1871), Phi 2 c 2.7B (https://news.1rj.ru/str/gonzo_ML/2173) или Gemini Nano с 1.8B и 3.2B (https://news.1rj.ru/str/gonzo_ML/2117).

Это интересное направление, потому что в целом все бегут за большими размерами, и ниша малых моделей недоисследована, а с учётом важности инференса они не менее важны. При этом давно уже есть наблюдения, что можно пообучать модель сильно за пределами compute optimal рецептов Шиншиллы, то это продолжает приносить плоды.

Архитектура классическая, декодер трансформера по рецепту Llama 2 с её же токенизатором. Данные собрали из SlimPajama (почищенный вариант RedPajama) и Starcoderdata, суммарно 950B токенов, так что обучали примерно 3 эпохи. Сэмплили датасеты в пропорции 7:3.

При этом задействовали разные продвинутые штуки и взяли RoPE энкодинги, RMSNorm pre-norm, SwiGLU, grouped-query attention.

Для скейлинга и ускорения задействовали Fully Sharded Data Parallel (FSDP) из Пайторча, свежий Flash Attention 2, заменили fused SwiGLU из xFormers на оригинальный и сэкономили памяти (это, кстати, для меня удивительно, мои первые ожидания, что fused реализация должна быть лучше) -- это позволило уместить модель в 40Gb памяти.

В итоге на A100-40G получили training throughput в 24,000 токенов в секунду. Для обучения на 300B токенов TinyLlama-1.1B требуется 3,456 A100 GPU-часов, в то время как у Pythia эта цифра равна 4,830 и у MPT’s вообще 7,920 часов.

Использовали для обучения Lit-GPT (https://github.com/Lightning-AI/lit-gpt, базируется на nanoGPT). AdamW, cosine learning rate, warmup, gradient clipping.

Обучалось 90 дней на 16 A100-40G GPU. По ценам AWS на p4d (https://aws.amazon.com/ec2/instance-types/p4/) это было бы примерно $140k между прочим.

Результат хорошо бьёт бейзлайны в лице OPT-1.3B, Pythia-1.0B и Pythia-1.4B. На MMLU правда хуже. С увеличением вычислительного бюджета перформанс продолжает расти, не понял только почему он более шумным становится.

Кажется, работа -- верх открытости. Весь код обучения, промежуточные чекпойнты, все детали обучения доступны.

Респект!

arXiv.org

TinyLlama: An Open-Source Small Language Model

We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages...

1.09K viewsНиколай, 06:16

About

Blog

Apps

Platform