Machinelearning – Telegram
383K subscribers
4.44K photos
855 videos
17 files
4.88K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
👩‍⚕️ Большой Медицинский дайджест самых интересных проектов 1.09-07.09

🟩 CancerLLM: LLM для онкологии.

CancerLLM - это языковая модель с 7 млрд. параметров для задач, связанных с онкологическими заболеваниями. Она была обучена на 2,67 млн. клинических записей и 515,5 тыс. отчетах о патологиях по 17 типам рака. Согласно проведенным тестам в процессе исследования, CancerLLM превосходит существующие модели на 7,61 % по показателю F1 (точность классификации).

🔸Arxiv

🟩 MedUnA: метод создания VLM для обработки медицинских снимков.

Medical Unsupervised Adaptation (MedUnA) состоит из двух этапов.

На первом этапе описания, сгенерированные LLM, соответствующие меткам классов, передаются через текстовый энкодер BioBERT. Результирующие текстовые эмбеддинги выравниваются по меткам классов с помощью упрощенного адаптера.

На втором этапе обученный адаптер интегрируется с визуальным энкодером MedCLIP, используя entropy-based loss и prompt tuning для эффективного выравнивания визуальных эмбеддингов.

🔸Arxiv


🟩 DARES: Базовая модель для роботизированной эндоскопической хирургии.

Метод, код и базовая модель для для выполнения самоконтролируемой монокулярной оценки глубины в задачах эндоскопической роботизированной хирургии.

🔸Arxiv🔸Github 🔸Model


🟩 Med-MoE: Mixture-of-Experts для медицинских VLM.

Med-MoE (Mixture-of-Experts) - легкий фреймворк для решения дискриминативных и генеративных мультимодальных медицинских задач.

Med-MoE работает в три этапа: cогласование медицинских изображений с лексемами LLMs, выбор экспертов для настройки инструкций с помощью обучаемого маршрутизатора и настройка выбранных экспертов в требуемой области.

🔸Arxiv 🔸Github


🟩 CanvOI: Визуальная модель для онкологии.

CanvOI - VL модель для цифровой патологии, основанная на ViT-g/10, оптимизированная для онкологических гистопатологических изображений. Благодаря использованию плиток размера 380 x 380 пикселей и патчей размера 10², CanvOI эффективна в задачах обучения по нескольким экземплярам (Multiple Instance Learning).

🔸Arxiv


🟩 UniUSNet: прогнозирование заболеваний на основе УЗИ.

UniUSNet - метод, код и претрейн-модель для задач классификации и сегментации ультразвуковых изображений, способный работать с различными типами УЗИ, анатомическими позициями и форматами входных данных. Обучена на более чем 9,7 тыс. аннотаций по 7 анатомическим позициям.

🔸Arxiv 🔸Github 🔸Model

Бенчмарки и наборы данных для оценки


🟥 TrialBench: Датасет клинических испытаний.

23 набора мультимодальных данных, предварительно структурированных для использования в задачах файнтюна моделей, оценки и прогнозирования ключевых результатов по показателям: продолжительность испытаний, отсев пациентов, уровень смертности и одобрение испытаний.

🔸Arxiv 🔸Github 🔸Dataset


🟥 LLM для бенчмарка по MedQA.

Исследование использования LLM для автоматизации оценки медицинских систем вопросов и ответов, традиционно требующих ручной оценки экспертов. Траектория изысканий сосредоточена на том, могут ли LLM имитировать человеческую оценку, анализируя ответы на вопросы, полученные из данных о пациентах.

Спойлер — могут, с абсолютной погрешностью 0,62 по шкале от 0 до 3.

🔸Arxiv


🟥 MedFuzz: Исследование надежности медицинских LLM.

MedFuzz от Microsoft Research - это состязательный метод проверки устойчивости LLM в эталонных тестах MedQA путем модификации вопросов таким образом, чтобы использовать нереалистичные предположения.

MedFuzz показывает, как LLM могут ошибаться таким образом, чтобы не обмануть медицинских экспертов, выявляя пробелы в их обобщении для реальных клинических условий.

🔸Arxiv


🟥MedS-Bench + Medicines: Оценка работы LLM в клинических задачах и датасет для обучения.

MedS-Bench - бенчмарк и датасет для оценки эффективности моделей в решении 11 клинических задач из 3 областей: обобщение отчетов, диагностика и рекомендации по лечению.

MedS-Ins - набор данных для настройки инструкций с 5 миллионами экземпляров для 122 задач.

🔸Arxiv 🔸Leaderboard 🔸Github

🔥Полный дайджест

@ai_machinelearning_big_data

#news #ai #ml #medtech
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥31👍179
🌟 OLMoE: Открытые языковые модели на основе Mixture-of-Experts.

OLMoE (Open Mixture-of-Experts Language Models) - это метод создания языковых моделей, использующий разреженно активированные смеси экспертов (Mixture-of-Experts, MoE). Следуя этому методу была создана и опубликована базовая модель и 2 ее вариации:

🟢OLMoE-1B-7B;

🟠OLMoE-1B-7B-SFT - промежуточная версия базовой модели, прошедшая этап SFT-посттрейна, но без Instruct-дообучения;

🟢OLMoE-1B-7B-Instruct

Модель предварительно обучалась на 5,1 трлн. токенов с 7 млрд. общих параметров, из которых только 1,3 млрд. активируются для каждого входного токена.
Такая конфигурация дает аналогичную стоимость инференса, как при использовании моделей с 1 млрд. параметров (напр. TinyLlama 1B), но требует больше VRAM для хранения 7 млрд общих параметров.

В создании OLMoE-1B-7B была использована архитектура decoder-only трансформера, в которой feedforward network была заменена на Mixture-of-Experts модуль, состоящий из набора меньших feedforward network, собранных в массивы k-экспертов. Ими управляет маршрутизатор (его роль выполняет обученный линейный слой), определяющий, какие из k-экспертов будут активированы для каждого входящего токена. Инференсы k-экспертов умножаются на вероятности маршрутизатора и потом суммируются, образуя общий инференс MoE-модуля.

Претрейн модели выполнялся на очищенных от дубликатов датасетах DCLM и Dolma 1.7 (Github, Wikipedia, наборы научных статей). На следующем этапе инструктивного дообучения были добавлены данные по программированию и математике, чтобы сбалансировать эти области знаний для повышения точности MoE.

Проведенные после обучения эксперименты показывают, что OLMoE-модели обучаются примерно в 2 раза быстрее, чем обычные LLM с эквивалентными активными параметрами.

▶️Пример инференса базовой модели на Transformers:

# NOTE! Install the `transformers` & `torch` libraries first
from transformers import OlmoeForCausalLM, AutoTokenizer
import torch

DEVICE = "cuda" if torch.cuda.is_available() else "cpu"

# Load different ckpts via passing e.g. `revision=step10000-tokens41B`
# also check allenai/OLMoE-1B-7B-0924-SFT & allenai/OLMoE-1B-7B-0924-Instruct
model = OlmoeForCausalLM.from_pretrained("allenai/OLMoE-1B-7B-0924").to(DEVICE)
tokenizer = AutoTokenizer.from_pretrained("allenai/OLMoE-1B-7B-0924")
inputs = tokenizer("Bitcoin is", return_tensors="pt")
inputs = {k: v.to(DEVICE) for k, v in inputs.items()}
out = model.generate(**inputs, max_length=64)
print(tokenizer.decode(out[0]))
# > # Bitcoin is a digital currency that is created and held electronically.
#No one controls it. Bitcoins aren’t printed, like dollars or euros – they’re produced by people and businesses running computers all around the world, using software that solves mathematical


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🟡Dataset
🟡Набор моделей
🖥Github

@ai_machinelearning_big_data

#AI #ML #LLM #MoE
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍165🔥41
🌟 NanoFlow: Высокопроизводительный cервисный фреймворк для LLM.

NanoFlow - это универсальный фреймворк для LLM, ориентированный на повышение пропускной способности. Он комбинирует в себе набор техник: параллелизм внутри устройства, асинхронное планирование CPU и выгрузка KV-кеша готовых запросов на SSD.

В результате NanoFlow имеет пропускную способность выше, чем другие фреймворки - vLLM, Deepspeed-FastGen и TensorRT-LLM.

Архитектура NanoFlow основана на методе, который позволяет одновременно выполнять операции вычисления, памяти и сети. Параллелизм операций возможен из-за применения логики "микропакетов" для планирования операций и выделения ресурсов.

NanoFlow использует асинхронный поток управления, который запускает следующую итерацию без ожидания окончания предыдущей, тем самым ощутимо повышается утилизация ресурсов и снижается задержка в пайплайне модели.

Для оценки производительности NanoFlow были проведены эксперименты на различных моделях LLM: Llama2-70B, Qwen2-72B, DeepSeek-67B, Mixtral-8x7B и LLaMA3-8B на узле на узле DGX 8xA100 80 ГБ.
Результаты показали, что NanoFlow демонстрирует 1,91-кратное увеличение пропускной способности по сравнению с TensorRT-LLM.

▶️Установка:

# Clone repo & crate venv
git clone https://github.com/efeslab/Nanoflow.git
cd Nanoflow
chmod +x ./installAnaconda.sh
./installAnaconda.sh

# Install dependencies
yes | ./setup.sh

# Download model
./modelDownload.sh

# Serving datasets
./serve.sh


📌Лицензирование : Apache 2.0 License.


🟡Arxiv
🖥Github [ Stars: 282 | Issues: 5 | Forks: 8]


@ai_machinelearning_big_data

#AI #Framework #MLTool #NanoFlow #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍125
📚 Бесплатная электронная книга: The Fourier Transform, 2024.

Погружение в преобразование Фурье.

Приятный стиль изложения книги и множество наглядных диаграмм.

Внутри практика в виде задач, написанных на Python и MATLAB.

Book

@ai_machinelearning_big_data
🔥327👍5🥰3🥱2👏1
Новостной дайджест

✔️ 3.7 миллиона фальшивых звезд GitHub.

Сервис Socket обнаружили 3.7 миллиона фальшивых звезд GitHub, что указывает на тенденцию роста угроз, связанных с мошенничеством, финансовыми махинациями и вредоносным ПО. Эти кампании быстро активизировались за последние шесть месяцев.

Фальшивые звезды используются для обмана пользователей, чтобы распространять вредоносное ПО и для привлечения инвестиций венчурных фондов в подставные компании с плохими показателями.

Алгоритм Socket выявил 3 746 538 подозрительных звезд за последние пять лет (с июля 2019 года по июль 2024 года) и 10 155 репозиториев, которые, по-видимому, проводили кампании по накрутке.
socket.dev

✔️ LLM не могут объяснить свои рассуждения.

В статье автор приводит интерактивную демонстрацию для проверки способности LLM распознавать и объяснять числовые последовательности, генерируемые случайными программами.
Несмотря на то, что модели в некоторых случаях определяют правильную последовательность, их объяснения бывают неверными. Этот эксперимент подтверждает существующие ограничения в рассуждающих способностях LLM, несмотря на их показатели в популярных бенчмарках.
jonathanychan.com

✔️ YouTube создает инструменты для обнаружения дипфейков лиц и голосов.

Компания представила две новые технологии: первая позволяет автоматически обнаруживать ИИ-контент, который имитирует голоса исполнителей, а вторая - обнаруживать и управлять контентом, созданным с помощью ИИ, на котором присутствуют лица людей.

Новые функции основаны на многолетнем опыте YouTube в разработке технологических подходов к решению проблем с правами в больших масштабах.

YouTube дополнительно ведет разработку новых способов предоставления авторам выбора в отношении того, как третьи стороны могут использовать их контент на платформе.
blog.youtube

✔️ Поиск нового поколения и RAG с Vertex AI.

В блоге Google Cloud опубликована статья о том, как Vertex AI можно использовать для создания поисковых приложений следующего поколения.
Статья состоит из трех частей: новые шаблоны в поиске, развитие поиска в будущем и RAG с помощью Vertex AI.
cloud.google.com

✔️ Повышение эффективности отладки C++ с помощью breakpoint expressions, генерируемых искусственным интеллектом.

В статье Devblogs Microsoft представлена новая функция в Visual Studio 2022, использующая искусственный интеллект для генерации выражений для условных точек останова и точек трассировки в коде C++. Эта функция, работающая на базе GitHub Copilot поможет разработчикам сэкономить время и силы, позволив ИИ предлагать подходящие условия или создавать собственные. В статье приводится пошаговое руководство по включению и использованию этой функции в Visual Studio 2022.
devblogs.microsoft.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍199🔥4😁1
🌟 VEnhancer: Генеративное улучшение синтезированного видео.

VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.

VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.

Несколько дней назад VEnhancer получил обновление:

🟢Поддержка длинных видео (путем разбиения видео на несколько фрагментов с перекрытиями);
🟢Быстрая выборка с 15 шагами без потери качества (путем установки --solver_mode 'fast' в команде скрипта);
🟢Использование временного VAE для уменьшения мерцания.

Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.

⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.

Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.

▶️Установка:

# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer

# Create environment
conda create -n venhancer python=3.10
conda activate venhancer

# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt


▶️Установка пакета ffmpeg:

sudo apt-get update && apt-get install ffmpeg libsm6 libxext6  -y


▶️Инференс с помощью CLI:

bash run_VEnhancer.sh


▶️Инференс с помощью GradioUI:

python gradio_app.py



🟡Страница проекта
🟡Arxiv
🟡Модель
🟡Demo Video
🖥Github [ Stars: 224 | Issues: 8 | Forks: 13]


@ai_machinelearning_big_data

#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍217🔥3
✔️ Книга+практика : Understanding Deep Learning

Книга “Understanding Deep Learning” посвящена идеям и принципам, лежащим в основе глубокого обучения. Подача материала построена таким образом, чтобы читатель мог понять материал настолько эффективно, насколько это возможно. Для читателей, желающих углубиться в изучение, в каждой главе приведены соответствующие задачи, записные книжки по Python и подробные справочные материалы.

В первой части книги представлены модели глубокого обучения и обсуждается, как их обучать, измерять их производительность и улучшать эту производительность.

В следующей части рассматриваются архитектуры, которые специализируются на изображениях, тексте и графических данных. Для свободного понимания этих двух глав требуется понимать принципы линейной алгебры, матанализа и теории вероятностей.

Последующие части книги посвящены генеративным моделям и методике обучения с подкреплением. Эти главы требуют больших знаний в области теории вероятностей и математического анализа.

В последней главе обсуждается этика искусственного интеллекта и призыв к практикующим инженерам задуматься о моральных последствиях своей работы.

Автор книги: Simon J. D. Prince - почетный профессор информатики в Университете Bath (Великобритания) , со-автор более 80 опубликованных исследований в области ML.
Научный сотрудник, специализирующийся на искусственном интеллекте и глубоком обучении, он руководил группами ресерча в Anthropics Technologies Ltd, Borealis AI и других компаниях.

Дополнительно, на отдельном сайте книги, читателям доступны:

🟢ответы на наиболее частые вопросы студентов;
🟢ipynb - ноутбуки для практических занятий по материалам книги;
🟢интерактивные иллюстрации по темам;
🟢презентации по каждой главе для преподавателей, которые захотят построить свое обучение на содержимом книги;
🟢большой список статей по 12 направлениям для продолжения обучения после прочтения книги: AI Theory, Transformers & LLMs, Unsupervised learning, Natural language processing, Computer vision и др.

▶️Дата последней актуализации книги : 28 августа 2024 года.


📌Стоимость: бесплатно


🟡Сайт книги
🖥Github


@ai_machinelearning_big_data

#AI #ML #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍195👏3
MТС Web Services (MWS) представила новое направление — ИИ-облако, которое упростит внедрение искусственного интеллекта в компании.

Используя GPU-инфраструктуру, компании смогут запускать ИИ-проекты без необходимости закупки оборудования, что сократит расходы и ускорит запуск. Среди сервисов: ML-платформа, автоматизирующая обучение моделей, и готовые решения, такие как Cotype (генерация текстов и анализ данных), Audiogram (синтез речи) и WordPulse (речевая аналитика).

MWS предоставляет персонализированные решения для бизнеса.

Audiogram - платформа синтеза и распознавания речи на основе нейронных сетей с возможностью управления интонацией, ударениями и другими параметрами и сервис речевой аналитики WordPulse. Данные сервисы позволят компаниям оперативно обрабатывать звонки и чаты с клиентами, тем самым повышая качество обслуживания и автоматизируя работу кол-центров.

@ai_machinelearning_big_data
👍154🔥4😁4
⚡️Новостной дайджест

✔️ Roblox создает инструмент для генерации 3D-миров с помощью текстовых запросов.

Roblox анонсировала инструмент на основе ИИ с открытым исходным кодом, который позволит разработчикам создавать 3D-среды и объекты, используя текстовые запросы.
Инструмент основан на фундаментальной 3D-модели Roblox и использует подход, аналогичный большим языковым моделям.

Система "токенизирует" 3D-блоки, рассматривая каждый блок как числовую единицу и предсказывает наиболее вероятный следующий структурный 3D-элемент в последовательности. В совокупности этот метод может создавать целые объекты или декорации.
arstechnica.com

✔️ Chai-1: мультимодальная модель для предсказания структур молекул.

Chai Discovery, после поддерживающей инвестиции от OpenAI, выпустила Chai-1, новую MMLM для предсказания структуры молекул. Chai-1 позволяет выполнять унифицированное предсказание структуры белков, малых молекул, ДНК, РНК, ковалентных модификаций и т.д. Модель доступна бесплатно через веб-интерфейс Chai Discovery.

Chai-1 достигает 77% в бенчмарке PoseBusters (у AlphaFold3 - 76%), а также Cα LDDT 0,849 на наборе предсказаний структуры белкового мономера CASP15 (против 0,801 у ESM3-98B).
chaidiscovery.com

✔️ Mamba + Llama: дистилляция и ускорение гибридных моделей.

Together Ai разработали метод создания гибридных LLM, сочетающих в себе преимущества архитектур Transformer и Mamba.

Суть метода заключается в дистилляции Transformer моделей в гибридные линейные RNN, объединяя лучшее из обоих миров.

Процесс дистилляции: инициализация параметров Mamba для имитации линеаризованной версии внимания Transformer --> тонкая настройка Mamba слоев с замороженными MLP слоями Transformer --> спекулятивное декодирования, которое позволяет генерировать несколько токенов за один шаг, проверяя их с помощью более точной, но более медленной модели верификатора.

Результаты впечатляют - гибридные модели-дистилляты Mamba демонстрируют производительность, сравнимую с лучшими моделями Transformer, при этом значительно превосходя их по скорости инференса.
together.ai

✔️ Microsoft достигла новой вехи в области квантовых вычислений.

Microsoft продемонстрировала логические операции с использованием самого большого количества кубитов с коррекцией ошибок.

Логические кубиты распределяют один бит квантовой информации по набору битов, что делает любую ошибку менее катастрофической. Обнаружение ошибки состоит из добавления дополнительных битов к логическому кубиту таким образом, чтобы их значение зависело от тех, которые хранят данные. Что ценно, эти вспомогательные кубиты - измеряемы, а значит есть возможность определить, возникла ли какая-либо проблема, и, возможно, получить информацию о том, как ее исправить.

В своей новой работе Microsoft использовала оборудование от Quantinuum, в котором используются кубиты на основе ионов, захваченных в электрических полях. Эти кубиты имеют одни из лучших показателей частоты ошибок, и Microsoft наглядно показала, что это позволяет обнаруживать и исправлять ошибки в течение нескольких раундов коррекции ошибок.
arstechnica.com

✔️ AdEMAMix: Оптимизатор с использованием двойного экспоненциального скользящего среднего для повышения эффективности градиента и повышения эффективности обучения крупномасштабных моделей.

Apple совместно с EPFL опубликовали технический отчет о новом оптимизаторе - AdEMAMix. Это расширение традиционного оптимизатора Adam за счет использования смеси двух EMA, одного быстро меняющегося и одного медленно меняющегося.

Такая механика процесса обучения позволяет оптимизатору балансировать между необходимостью реагировать на последние обновления и сохранять ценные старые градиенты, которые часто отбрасываются существующими оптимизаторами.

Техника использования двух EMA, уникальная для AdEMAMix, позволяет более эффективно обучать крупномасштабные модели, сокращая общее количество токенов, необходимых для обучения, и достигая при этом сопоставимых или лучших результатов.
fusionchat.ai

✔️ Mistral AI выложили веса новой мультимодальной pixtral-12b

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍206🔥6😁2