Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
https://habr.com/ru/articles/774844/
https://habr.com/ru/articles/774844/
Хабр
Вкатываемся в Machine Learning с нуля за ноль рублей: что, где, в какой последовательности изучить
Всем доброго времени суток. Я давно обещала выложить сюда подробный гайд на тему того, как можно изучать Machine Learning самостоятельно, не тратя деньги на платные курсы , и, наконец, выполняю свое...
👍1
На kaggle есть курс по Computer Vision. Так вот теперь у него появился практический гайд
https://www.kaggle.com/code/ivanlydkin/computer-vision-course-practical-guide
https://www.kaggle.com/code/ivanlydkin/computer-vision-course-practical-guide
Kaggle
🤖 Computer Vision course: Practical Guide
Explore and run machine learning code with Kaggle Notebooks | Using data from multiple data sources
❤2
ChatGPT плохо отвечает на «простые вопросы». Как это починить?
https://habr.com/ru/companies/airi/articles/774934/
https://habr.com/ru/companies/airi/articles/774934/
Хабр
ChatGPT плохо отвечает на «простые вопросы». Как это починить?
Привет, Хабр! Меня зовут Антон Разжигаев, я аспирант в Сколтехе и участник научной группы Fusion Brain (AIRI). В этой статье я расскажу о нашей последней работе — Multilingual Triple Match — системе...
Kandinsky 3.0 — новая модель генерации изображений по тексту
https://habr.com/ru/companies/sberbank/articles/775590/
https://habr.com/ru/companies/sberbank/articles/775590/
Хабр
Kandinsky 3.0 — новая модель генерации изображений по тексту
«Без чувства современности художник останется непризнанным» , Михаил Пришвин, русский и советский писатель, прозаик и публицист В прошлом году на АI Journey мы представили модель Kandinsky 2.0 —...
🔥3
Новая лекция от Карпатого
https://youtu.be/zjkBMFhNj_g?si=gLNkXpNdTcs85Zzw
https://youtu.be/zjkBMFhNj_g?si=gLNkXpNdTcs85Zzw
YouTube
[1hr Talk] Intro to Large Language Models
This is a 1 hour general-audience introduction to Large Language Models: the core technical component behind systems like ChatGPT, Claude, and Bard. What they are, where they are headed, comparisons and analogies to present-day operating systems, and some…
🔥4
Forwarded from Dealer.AI
Взять LLM за RAGa в 60 минут
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
DeepLearning.AI - Learning Platform
Building and Evaluating Advanced RAG
Learn advanced RAG retrieval methods like sentence-window and auto-merging that outperform baselines, and evaluate and iterate on your pipeline's performance.
Forwarded from Salute AI (Alexander Gavrilov)
Делимся уникальным курсом от команды SmartSpeech
Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.
Курс охватывает широкий спектр тем:
▪️ Детекция ключевых слов.
▪️ Распознавание речи.
▪️ Диаризация и верификация спикера.
▪️ Синтез речи и многое другое.
🌐 GitHub репозиторий с открытыми материалами курса, включая записи лекций, слайды и домашние задания. Пригодится всем, кто стремится к глубокому пониманию речевых технологий и их применению в реальных проектах.
Подписывайтесь 👉 Salute AI
#SmartSpeech #митап_Салют_GigaChat #митап
Георгий Господинов, Александр Максименко, Павел Богомолов, Гриша Стерлинг — специалисты SberDevices, которые также примут участие в нашем митапе «Салют, GigaChat!», запустили третью итерацию своего знаменитого курса по голосовым технологиям для магистров МФТИ.
Курс охватывает широкий спектр тем:
💡
Ждём вас на встрече с авторами курса и другими экспертами SberDevices на митапе
«Салют, GigaChat!»
о речевых технологиях и больших языковых моделях:
4 декабря
, Москва (офлайн + онлайн). Ваши коллеги и друзья также приветствуются!
✅
Регистрация на митап
обязательна
Подписывайтесь 👉 Salute AI
#SmartSpeech #митап_Салют_GigaChat #митап
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Kantor.AI (Victor Kantor)
CoolGraph от Big Data МТС
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:графовые . Если вы можете по своим данным построить граф, отражающий взаимосвязь их отдельных частей (в компьютерном зрении пиксель связан с соседними пикселями, в тексте слово связано с другими словами), то дальше встаёт вопрос построения нейросети на основе этого графа.
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
Если вы немного в теме нейросетей, то знаете, что к данным с разной структурой применяются изначально разные архитектуры. В компьютерном зрении — на базе свёрток, в работе с текстами — вдохновлённые рекуррентными сетями и, конечно, трансформеры.
Резонный вопрос: а какие сети могли бы обобщить работу с произвольной структурой в данных? Ответ есть:
Кроме того, бывают и совсем очевидные ситуации, когда граф возникает сам собой. Например, социальный граф — граф социальных взаимодействий между пользователями, или двудольный граф пользователи-товары в e-commerce и пользователи-фильмы в стриминговых сервисах.
Более того, часто компании, имеющие данные в виде графа, выжимают не всю пользу из этих данных. Просто потому, что придумывать табличные фичи по графу — это тоже отдельная объёмная работа. И здесь тоже помогают графовые нейросети: с ними можно построить граф-эмбеддинги, которые снимут вопрос построения hand-crafted графовых фичей. Именно с графовыми нейросетями и связана новая open source библиотека Big Data МТС.
Сегодня я представляю вам библиотеку CoolGraph, с помощью которой вы сможете построить первые графовые нейросети буквально в несколько строк кода. Задача библиотеки — популяризовать GNN и радикально снизить порог входа в них. Надеюсь, так же, как RecTools и Ambrosia, CoolGraph скоро прорастёт в код других компаний, начнёт попадать в описание стека в вакансиях и, вообще, всячески станет популярной и востребованной в DS-сообществе :)
GitHub
GitHub - MobileTeleSystems/CoolGraph: Make GNN easy to start with
Make GNN easy to start with. Contribute to MobileTeleSystems/CoolGraph development by creating an account on GitHub.
✍1👍1
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Довольно техническая, но наглядная визуализация того как работают
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
языковые модели внутри – от ввода до вывода текста, с пояснениями и формулами:
https://bbycroft.net/llm
Сайт работает лучше с компьютера
❤3
Forwarded from DL in NLP (Vlad Lialin)
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
Пример тренировки трансформера: тык
Документация: тык
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
mlx.simplify как бы намекает, но в документации ни слова.Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
pip install mlxПример тренировки трансформера: тык
Документация: тык
Forwarded from gonzo-обзоры ML статей
Gemini announced!
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Looks like the most capable GPT competitor with better multimodal capabilities.
Site: https://deepmind.google/technologies/gemini/#introduction
Blog: https://blog.google/technology/ai/google-gemini-ai/
Technical report: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
Google DeepMind
Gemini 3
Gemini 3 is our most intelligent model yet. With state-of-the-art reasoning to help you learn, build, and plan anything.
Forwarded from Сиолошная
UPD: чтобы попробовать Gemini, действительно нужно перейти по ссылке https://bard.google.com/chat
НО! Есть два предварительных шага:
1️⃣ вы должны быть в правильной стране. EU и UK на данный момент не получили обновление — у меня получилось с USA. Обычный VPN подходит, у меня стоял, вот ссылка для Google Chrome.
2️⃣ нужно сменить язык Google-аккаунта на английский (для верности выбрать американский). Сделать можно вот по этой ссылке: https://myaccount.google.com/language
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
НО! Есть два предварительных шага:
Если сделали всё правильно, то увидите при заходе светло-голубую плашку сверху:
Bard has been updated in English with Gemini Pro.Если не сработало, попробуйте сменить сервер VPN ещё раз, а также перезагрузить страницу со сбросом кэша,
cmd/ctrl+shift+R )Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Весьма актуальную штуку выложили на huggingface, особенно учитывая выход mixtral
https://huggingface.co/blog/moe
https://huggingface.co/blog/moe
huggingface.co
Mixture of Experts Explained
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
https://habr.com/ru/companies/sberdevices/articles/780334/
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
👍3
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 Новые открытые LLM #ml_news
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
HF | релиз
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
> Describe unexisted Martian language like in Wikipedia article
> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.
1. Language family: ...
HF | релиз
👍2
Forwarded from что-то на DL-ском
Apple выложили код к обучению их трансформера с измененной параметризацией весов для достижения стабильной энтропии на каждом слое внимания.
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
🤓 Статья (аларм, много формул)
😆 Дискорд, через который генерила картинку
Я уж очень люблю внутренние способы стабилизации показателей во время обучения или инференса. Примечательно для меня и то, что затрагивается несколько модальностей в их работе (не одновременно). Минус для меня, что нет весов (по крайней мере я не нашла), да и то, что написано на jax, но для кого-то это может оказаться плюсом))
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1