NEW BOT Телеграм, страница - 686210078

Machinelearning

@ai_machinelearning_big_data

329K subscribers

4.65K photos

978 videos

17 files

5.09K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

329K subscribers

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 Fish Speech V1.5: модель преобразования текста в речь и клонирования голоса.

Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").

Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.

▶️Языковая структура обучающего корпуса версии 1.5:

🟢Английский (en) >300 тыс. часов
🟢Китайский (zh) >300 тыс. часов
🟢Японский (ja) >100 тыс. часов
🟢Немецкий (de) ~20 тыс. часов
🟢Французский (fr) ~20 тыс. часов
🟢Испанский (es) ~20 тыс. часов
🟢Корейский (ko) ~20 тыс. часов
🟢Арабский (ar) ~20 тыс. часов

🟠

Русский (ru) ~20 тыс. часов
🟢Голландский (nl) <10 тыс. часов
🟢Итальянский (it) <10 тыс. часов
🟢Польский (pl) <10 тыс. часов
🟢Португальский (pt) <10 тыс. часов

Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.

Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.

⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.

📌Лицензирование: CC-BY-NC-SA-4.0 License.

🟡

🟡

🟡

Документация

🟡

Сообщество в Discord

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #TTS #FIshSpeech

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍32🔥15❤10

14.1K views12:02

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️ TRELLIS: универсальная модель для генерации 3D-контента от Microsoft.

TRELLIS - модель для создания высококачественных 3D-объектов на основе текстового промпта или изображения с помощью унифицированного представления Structured LATent (SLAT), которое декодирует данные в форматы: Radiance Fields, 3D-гауссианы и полигональные сетки.

SLAT обладает универсальностью, используя комбинацию из разреженной 3D-сетки и плотных визуальных признаков, извлеченных моделью DINOv2 из входного изображения.

TRELLIS использует модифицированные rectified flow transformers, адаптированные для работы с SLAT. Обучение набора моделей TRELLIS, размерами до 2 млрд. параметров, выполнялось на датасете из 500 тыс. разнообразных 3D-объектов.

Пока в открытый доступ опубликована только Image-to-3D версия - TRELLIS-image-large с 1.2 млрд. параметров. Остальные вариации модели для генерации 3D по тексту: TRELLIS-text-base (342М), TRELLIS-text-large (1.1В) и TRELLIS-text-xlarge (2В) и код для их трейна будут представлены позже (сроки не указаны).

⚠️ Для локального запуска TRELLIS-image-large рекомендуется NVIDIA GPU с VRAM 16GB или больше.

▶️Установка и запуск c WebUI (Gradio):

# Clone repo
git clone --recurse-submodules https://github.com/microsoft/TRELLIS.git
cd TRELLIS

# Create conda env and install dependencies
. ./setup.sh --new-env --basic  --flash-attn --diffoctreerast --spconv 
--mipgaussian --kaolin --nvdiffrast

# Install web demo via Gradio
. ./setup.sh --demo

# Run WebUI
python app.py

📌Лицензирование: MIT License.

🟡

Страница проекта

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ImageTo3D #Trellis #Microsoft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤24👍18🔥5🥰3🤩1

10K views14:15

Machinelearning

📎

ML в медицине: дайджест за 1 - 7 декабря 2024 г.

▶️

Модели, бенчмарки и датасеты

🔘

SOAR: бенчмарк для оценки LLM в задачах аннотации типов клеток.
Тест, который проверяет, насколько хорошо модели могут понимать и анализировать сложные данные о клетках.

🔘

Повышение точности диагностики рентгенограмм грудной клетки с помощью анализа направления взгляда врачей.
Система 2-х нейросетей, которая помогает диагностировать заболевания по рентгенограммам грудной клетки и предсказывает, на какие области изображения врачи обращают внимание.

🔘

EchoONE: унифицированная модель для сегментации множества плоскостей эхокардиографии.
Модель, которая помогает врачам более точно анализировать снимки сердца, сделанные с помощью ультразвука, даже если снимки сделаны под разными углами.

▶️

Фреймворки и методологии

🔘

RARE: RAG-ризонинг.
Метод для улучшения способности рассуждать и давать точные ответы, используя комбинацию генерации и поиска информации для обогащения своих знаний.

🔘

STORM: cтратегия организации модальностей для классификации редких событий.
Алгоритм, который помогает выбрать лучшие источники информации для решения сложных медицинских задач.

🔘

TransFair: прогноз прогрессирования глазных заболеваний.
Модель классификации, которая помогает сделать прогнозы о глазных заболеваниях более справедливыми и точными.

🔘

PePR: оценка эффективности моделей с учетом потребления ресурсов.
Показатель, который помогает оценить, насколько эффективно модель использует ресурсы.

🔘

Оценка качества рентгенологических заключений с помощью сопоставления клинических данных с изображением.
Метод оценки качества автоматически сгенерированных рентгенологических отчетов, который учитывает точность описания патологических изменений, их локализации и степени выраженности.

▶️

Медицинские LLM-приложения

🔘

MedChain: LLM-агент и бенчмарк для принятия клинических решений.
Набор данных и система для имитации реальной клинической практики, где каждый случай включает подробную информацию о пациенте и требует активного сбора информации и принятия решений на основе предыдущих шагов.

🔘

QG-Summ: автореферирование медицинских записей с самоконтролем, управляемое запросами.
Метод, который помогает создавать краткие и точные отчеты о состоянии пациентов в электронных медкартах, используя запросы, связанные с пациентом, для руководства процессом.

🔘

CLINICSUM: генерация медицинских заключений из диалогов врача и пациента.
Фреймворк, который может автоматически создавать медицинские заключения на основе разговоров между врачом и пациентом, используя специальную архитектуру.

▶️

Исследования и обзоры

*️⃣

Проблемы производительности LLM для здравоохранения с учетом демографической справедливости.
Исследование проблемы демографической предвзятости популярных современных LLM в различных медицинских задачах.

*️⃣

Применение эмбединг-моделей для классификации медицинских текстов.
Статья о том, как использовать эмбединги для классификации медицинских текстов без необходимости обучения на медицинских данных.

*️⃣

BlockMedCare: блокчейн, ИИ и IoT для здравоохранения будущего.
Концепция системы для безопасного и эффективного управления электронными медицинскими картами, позволяя пациентам, врачам и администраторам взаимодействовать с системой на различных устройствах.

🔜

Читать полный дайджест

🔜

Telegraph

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28❤11🔥7

11.4K viewsedited 07:10

Machinelearning

🌟 ShowUI-2B: VLM для взаимодействия с графическими интерфейсами.

ShowUI-2B - VLM на базе Qwen2-VL-2B, которая оптимизирована для взаимодействия с GUI. Она обладает глубоким пониманием пользовательских интерфейсов и навигации по ним на веб- и мобильных платформах.

Модель обрабатывает комбинацию визуальных и текстовых данных для создания соответствующих действий GUI. Она интерпретирует скриншоты и текстовые инструкции для определения точек и последовательности взаимодействия.

В качестве входных данных ShowUI-2B может принимать: скриншоты интерфейсов,
текстовые инструкции (или запросы), системные промпты, определяющие области действия и
последовательности действий.

Результат инференса модели: координаты расположения элементов пользовательского интерфейса [x,y], действия (щелчок, ввод, выбор и т.д.), значения для ввода текста и
целевые позиции для взаимодействия.

Для мобильных интерфейсов ShowUI-2B обрабатывает касания, свайпы и ввод текста.

Прикладные сферы применения :

🟢Автоматизированное тестирование интерфейса;
🟢Агенты автоматизации задач;
🟢Интерактивные учебные пособия и системы рекомендаций;
🟢UX\UI-задачи приложений и веб-сайтов.

ShowUI-2B продемонстрировала высокую эффективность в задачах zero-shot grounding (75.1% точности) и навигации по GUI на различных платформах (Web, Mobile, Online).

⚠️ Модель поддерживает интеграцию с Computer Use OOTB, проектом Desktop GUI Agent, который позволяет управлять действиями на PC с помощью LLM, запущенной локально или через API.

▶️Установка и запуск с GradioUI:

# Clone the Repository
git clone https://github.com/showlab/ShowUI.git
cd ShowUI

# Install Dependencies
pip install -r requirements.txt

# Start the GradioUI
python app.py

# Go to local URL:  http://127.0.0.1:7860

📌Лицензирование: MIT License.

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #ShowUI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥11❤4

12K views11:01

Machinelearning

🌟

AQLM․rs: сокращаем расходы на нейросети

Исследователь Яндекса разработал сервис для запуска языковых моделей с 8 млрд параметров на пользовательских девайсах.

Автор написал инференс модели Llama 3.1 8B, работающий в браузере на WebAssembly без использования GPU. Для этого он применил технологию сжатия нейросетей AQLM, которую разработала команда Yandex Research вместе с университетами ISTA и KAUST.

Для примера, скорость ответов нейросети на MacBook Pro M1 составила 1,5 токена в секунду или 3–4 символа.

🟡

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥10❤5🥱1

7.45K views13:01

Machinelearning

🌟 EuroLLM: многоязычные модели европейских языков.

EuroLLM - проект, финансируемый ЕС, цель которого создание набора LLM, способных понимать и генерировать текст на всех языках Европейского Союза, а также на некоторых других распространенных не-ЕС языках:

Болгарский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, немецкий, греческий, венгерский, ирландский, итальянский, латышский, литовский, мальтийский, польский, португальский, румынский, словацкий, словенский, испанский, шведский, арабский, каталанский, китайский, галисийский, хинди, японский, корейский, норвежский, русский, турецкий и украинский.

▶️В коллекции представлены модели:

🟢

EuroLLM-9B - модель с 9 млрд. параметров, контекстом 4096, обученная на 4 трлн. токенов;

🟢

EuroLLM-9B-Instruct - инструктивная версия на основе EuroBlocks, набора данных для настройки инструкций, ориентированного на общее следование инструкциям и машинный перевод;

🟠

EuroLLM-1.7B - модель с 1,7 млрд. параметров, контекст - 4096;

🟠

EuroLLM-1.7B-Instruct - инструктивная версия на датасете EuroBlocks. Демо

⚠️ Ко всем моделям неофициально выпущены квантованные версии в GGUF-формате, ссылки доступны в карточке модели на HF.

▶️Пример кода инференса EuroLLM-9B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "utter-project/EuroLLM-9B"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

text = "English: My name is EuroLLM. Portuguese:"

inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📌Лицензирование: Apache License 2.0

🟡

Набор моделей

🟡

🟡

Demo EuroLLM-1.7B-Instruct

@ai_machinelearning_big_data

#AI #ML #LLM #EuroLLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21👍13❤6🗿2

13.5K views14:30

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 EXAONE 3.5: Набор инструктивных моделей от LG AI.

LG AI Research опубликовала 3 новые инструктивные двуязычные (английский и корейский) модели EXAONE 3.5 с контекстным окном в 32 тыс. токенов:

🟠

2.4B – компактная модель для использования на устройствах;,

🟠

7.8B – универсальная модель;

🟢

32B – высокопроизводительная модель для задач, требующих максимальной эффективности.

Разработчики EXAONE 3.5 улучшили эффективность обучения моделей. На этапе предварительного обучения из наборов данных удалялись дубликаты и личная информация, что позволило повысить качество ответов моделей и оптимизировать использование ресурсов. На этапе постобработки применялись методы SFT и DPO, чтобы улучшить способность моделей понимать инструкции и предпочтения пользователей.

Для повышения надежности оценки производительности EXAONE 3.5 был проведен тщательный процесс деконтаминации. Метод деконтаминации был взят из глобальной модели, а его эффективность оценивалась путем многократного сравнения обучающих данных с тестовыми наборами данных.

К каждой модели, LG AI выпустил квантованные версии в форматах AWQ и GGUF.

⚠️ EXAONE 3.5 - инструктивные модели, поэтому рекомендуется использовать системные промпты, представленные в примере кода инференса.

▶️Пример инференса EXAONE-3.5-7.8B-Instruct на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "%Prompt%" 

messages = [
    {"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
    {"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_tensors="pt"
)

output = model.generate(
    input_ids.to("cuda"),
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=128,
    do_sample=False,
)
print(tokenizer.decode(output[0]))

📌Лицензирование: EXAONE AI Model License.

🟡

🟡

Набор моделей

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤8👍5

11.3K views15:59