Машинное обучение RU – Telegram
Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
🖥 Генераторы данных с открытым исходным кодом!

🟡Mimesis - надежный генератор данных для Python, который может создавать широкий спектр поддельных данных на различных языках.

🟡Spawner - инструмент для создания данных для разнообразных баз данных и искусственного интеллекта. Содержит широкий набор полей, включая возможность пользовательской настройки вручную.

🟡Text or Images, Input or Output - крутейший LLM генератор.

🟡Benerator - генератор текстовых данных для оценки, тестирования и обучения ИИ-моделей.

🟡DataFactory - удобный способ создавать разнообразные наборы тестовых данных для наполнения баз данных и проверки ИИ-моделей.

🟡MockNeat - простой интерфейс для программной генерации данных в форматах json, xml, csv и sql.

🟡Faker - с помощью этого инструмента можно быстро создать фейковые данные для тестов.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2👎1
💫 В рейтинге ИИ-разработок от AlPort появились две генеративные нейросети Яндекса.

Текстовая YandexGPT и мультимодальная YandexART оказалась среди самых заметных и перспективных разработок в сфере генеративного искусственного интеллекта по ключевым категориям.

Также Яндекс стал одной из 11 компаний со всего мира, разрабатывающих более одного типа GenAI-моделей наряду с Stability AI, Open AI, Google, Microsoft, Meta , Tencent и Baidu.

🔗 https://habr.com/ru/news/800245/

@machinelearning_ru
👍92👎1🔥1
🔥 Крутейшая подборка для Дата Саентиста. Лучшие бесплатные курсы, книга, разбор вопросов с собеседований, roadmap, полезные материалы по Python, Go, Linux и многое другое.

100 вопросов для подготовки к собесу Data Science
Видео

100 вопросов для подготовки к собесу Python
Вопросы Middle
Видео

Вливаемся в Data Science: подробный roadmap что и где изучать

Machine Learning инженер: что/где/как изучать, чтобы въехать

Моя большая практическая шпаргалка SQL (SQLite) с готовыми запросами

Шпаргалка для алгособеса — алгоритмическая сложность, структуры данных, методы сортировки и Дейкстра

Шпаргалка для алгособеса 2 — графовые и строковые алгоритмы

40 Полезных инструментов Дата Саентиста

Go — 100 вопросов/заданий с собеседований
Видео

Где изучать Linux в 2024. Бесплатные курсы, книги и ресурсы
Видео

Бесплатные курсы для изучения искусственного интеллекта в 2024 году

NumPy: оттачивайте навыки Data Science на практике
Numpy полный бесплатный курс

Где изучать Python в 2024. Бесплатные курсы, книги и ресурсы
Видео

Где искать работу Дата Саентисту в 2024 году

Ресурсы для поиска работы Python разработчикам

Бесплатные курсы по большим языковым моделям для дата-сайентистов

@machinelearning_ru
👍96🔥6
⚡️AutoPrompt — полезный фреймворк для оптимизации ваших промтов

Инструмент генерирует и дополняет промт основываясь на запросе юзера. Также фреймворк легко интегрируется с популярными опен-сорс инструментам такими как LangChain, Wandb и Argilla. 

https://github.com/Eladlev/AutoPrompt?tab=readme-ov-file
👍8🔥3👎21
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 StreamMultiDiffusion: Real-Time Interactive Generation with Region-Based Semantic Control

Потоковая мультидиффузия - новый метод ускорения, позволяющий в режиме реального времени преобразовывать текст в изображения с любой контрольной точки #SD.

📃 👉 https://huggingface.co/papers/2403.09055

@machinelearning_ru
👍72🔥2
Forwarded from Нейроканал
Если вы новичок, но уже обладаете базовыми знаниями, это идеальное время, чтобы начать пилить пет проекты. Но если вдруг своей идеи у вас нет, то не отчаивайтесь. Держите крутую подборку таких идей, с примерами реализации:
 
1. Прогнозирование успеваемости студентов.
2. Суммаризация текста.
3. Проекты по CV на любой вкус.
4. Классификация болезней куриц.
5. Проекты классификации аудио (,, , ).
6. Проект по обработке и анализу данных.
7. Прогнозирование цен на жилье.
8. Приложение с использованием Langchain и Open AI.
9. Классификация заболеваний почек.
10. LLM для ответов на вопросы по PDF.

@neuro_channel #петпроекты
👍72🔥2
💡 StreamingLLM представляет собой новый метод повышения эффективности чат-ботов в продолжительных диалогах.

Многие языковые модели используют key-value кэш в качестве диалоговой памяти. Однако, когда этот кэш переполняется, начальные фрагменты информации (токены) исчезают, что приводит к ухудшению производительности.

Исследователи предложили решение данной проблемы, заключающееся в сохранении хотя бы первого токена в кэше, чтобы минимизировать потери в производительности модели.

Авторы статьи обнаружили интересное явление: большое количество оценок внимания направлено на начальные токены независимо от их релевантности для задачи. Эти токены были названы "приёмниками внимания". Это связано с операцией Softmax, которая требует, чтобы сумма оценок внимания для всех контекстуальных токенов составляла единицу. Даже если текущий запрос слабо соответствует предыдущим токенам, модели все равно нужно распределить значения внимания.

Исследователи отметили, что наличие четырех токенов-приёмников внимания в начале кэша обеспечивает оптимальную производительность. Они также выяснили, что позиционное кодирование каждого токена должно оставаться неизменным даже при добавлении новых токенов и удалении старых. Это сочетание идей позволило StreamingLLM поддерживать непрерывный диалог с пользователем.

Кроме того, Gradio Notebook представляет собой кастомный компонент Gradio, который упрощает демонстрацию моделей машинного обучения для различных задач в Hugging Face Spaces. Gradio Notebook легко использовать: у него есть отдельные ячейки, настраиваемые под конкретную задачу и промпт, и вы можете выбрать любую модель на Hugging Face или загрузить свою.

Gradio Notebook
Документация

@machinelearning_ru
👍5🔥31
🤖 ИИ только что лишил меня работы... Я ненавижу тебя Devin

▪️Видео

@machinelearning_ru
👎7👍4🔥21
🔥 Илон Маск выложил в открытый доступ Grok: 314B параметров. 8 экспертов

https://github.com/xai-org/grok

@machinelearning_ru
🔥9👍53
📊 Facets

Проект Facets предоставляет инструменты визуализации для понимания и анализа наборов данных машинного обучения: Facets Overview и Facets Dive.

Визуализации реализованы в виде веб-компонентов Polymer и могут быть легко встроены в блокноты Jupyter или веб-страницы.

Прмеры визуализаций можно найти на странице описания проекта Facets: pair-code.github.io/facets/

Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥1
💡 ML-разработчик Яндекса рассказал о квантизации нейросетевых моделей

Квантизация — это процесс преобразования значений из представления с большим объёмом информации в более компактное представление. Она позволяет экономить вычислительные ресурсы на устройствах, а значит экономить деньги и в целом улучшать пользовательский опыт. Автор подробно разобрал, зачем нужна квантизация и в какой момент лучше всего квантизовать модель, а также рассмотрел разные типы данных и современные методы квантизации.

▪️ Читать статью на Хабре

@machinelearning_ru
👍93🔥2
Google выпустили пользовательский интерфейс, который поможет радиологам использовать модели #ML для скрининга рака
легких.

Система использует компьютерную томографию в качестве входных данных и выдает рейтинг подозрений на рак вместе с соответствующими интересующими областями.

Узнать больше → https://blog.research.google/2024/03/computer-aided-diagnosis-for-lung.html

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥53
🔥 DeepMind's New AI Plays No Man's Sky!

https://www.youtube.com/watch?v=5U_Q2Lmnq_c

@machinelearning_ru
👍7🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
Выпущена Distil-Whisper v3 модель для распознавания речи

> на ~50% меньше параметров и в 6 раз быстрее, чем Large-v3.
> Более точный, чем large-v3

Поддерживает 🦀 Web GPU, Whisper.cpp, Transformers, Faster-Whisper и Transformers.js!

Модель
Статья

@machinelearning_ru
👍15🔥42
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Генерация видео из картинок, в качестве промптов 🔥

* 📽️ VideoBooth 📽️ , обеспечивает прямое управление контентом.

- Проект: https://vchitect.github.io/VideoBooth-project/
- Документация: https://arxiv.org/abs/2312.00777
- Код: https://github.com/Vchitect/VideoBooth

@machinelearning_ru
👍62🔥1