Машинное обучение RU – Telegram
Машинное обучение RU
17.7K subscribers
1.58K photos
209 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
📌 Существует три основных способа обучения LLM: естественный язык, классификация предложений и классификация лексем.

👉 Приведенная картинка дает представление о каждом из них!

#llms #largelanguagemodel #generativeai

@machinelearning_ru
👍51🔥1
🔥 ИИ-агент, использующий GPT-4V(ision), способный использовать, cv, мышь/клавиатуру для взаимодействия с веб-интерфейсом.

GPT-4V-ACT:
https://github.com/ddupont808/GPT-4V-Act
GPT-V-on-Web: https://github.com/Jiayi-Pan/GPT-V-on-Web
vimGPT: https://github.com/ishan0102/vimGPT

@machinelearning_ru
👍91🔥1
Глубокое погружение в режим Copy-on-Write в pandas. Часть 2

Мы используем технику, применяемую внутренними средствами pandas, чтобы избежать копирования всего DataFrame, когда в этом нет необходимости, и тем самым повысить производительность.

Удаление защитных копий
Начнем с наиболее значимого улучшения. Многие методы pandas выполняли защитное копирование, чтобы избежать побочных эффектов и защититься от последующих модификаций в памяти.

df = pd.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]})
df2 = df.reset_index()
df2.iloc[0, 0] = 100


В reset_index нет необходимости копировать данные, но возврат представления привел бы к побочным эффектам при модификации результата (к примеру, также обновился бы df). Поэтому в reset_index выполняется защитное копирование.

При включении Copy-on-Write всех этих защитных копий уже нет. Такое действие затрагивает многие методы (с полным списком можно ознакомиться здесь).

Кроме того, при выборе столбцового подмножества DataFrame теперь всегда будет возвращаться представление, а не копия, как раньше.

Посмотрим, как все это выглядит с точки зрения производительности, когда мы комбинируем некоторые из этих методов:

import pandas as pd
import numpy as np

N = 2_000_000
int_df = pd.DataFrame(
np.random.randint(1, 100, (N, 10)),
columns=[f"col_{i}" for i in range(10)],
)
float_df = pd.DataFrame(
np.random.random((N, 10)),
columns=[f"col_{i}" for i in range(10, 20)],
)
str_df = pd.DataFrame(
"a",
index=range(N),
columns=[f"col_{i}" for i in range(20, 30)],
)

df = pd.concat([int_df, float_df, str_df], axis=1)

Создается DataFrame с 30 столбцами, 3 разными типами данных и 2 миллионами строк. Выполним следующую цепочку методов для этого DataFrame:

Смотреть
Часть 1.

@machinelearning_ru
👍41🔥1
👉 Awesome TensorFlow

Список awesome учебников по TensorFlow, моделей/проектов, библиотек, инструментов/утилит, видео, докладов, статей, сообществ, книг и многого другого.

🔗 https://github.com/jtoy/awesome-tensorflow

@machinelearning_ru
8👍3🔥2😁1
🔊 Transforming the future of music creation

Deepmind объявили о создании самой совершенной модели генерации музыки и двух новых экспериментах с искусственным интеллектом, призванных открыть новую площадку для творчества

https://deepmind.google/discover/blog/transforming-the-future-of-music-creation/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Конвертируем скриншот в HTML

Интересный проект, в котором скриншот с сайта конвертируется в HTML и CSS код , используя модель зрения OpenAI

https://github.com/abi/screenshot-to-code

@machinelearning_ru
👍54🔥2
2023 год оказался прорывным для искусственного интеллекта: многие компании вступили в гонку нейросетей, чтобы разработать лучшие генеративные и языковые модели. Вчера Яндекс выпустил YaC 2023 — мини-сериал о технологиях и команде компании, — где рассказал, как разрабатывал универсальную языковую модель Yandex GPT и генеративную нейросеть Yandex ART, которую можно попробовать в приложении “Шедеврум”. 

Ставка делалась на претейн-модель и русскоязычную аудиторию. В результате нейросети изучили триллионы текстов и изображений из Интернета и теперь могут ответить практически на любой вопрос. Они также внедряются в продукты: Yandex GPT дает краткое описание видеороликов в тезисах в Яндекс Браузере, пересказывает статьи из Интернета, а в Маркете и Поиске обобщает информацию из отзывов, суммируя основные плюсы и минусы.

Посмотреть, как выросла Алиса за год и создавалась Yandex GPT, можно на YouTube или Кинопоиске.
👍32
Глубокое погружение в режим Copy-on-Write в pandas. Часть 3

В настоящее время включенный по умолчанию режим CoW планируется внедрить в релиз pandas 3.0, запланированный на апрель 2024 года. В первой части данной серии мы рассказывали о поведении Copy-on-Write, а во второй — об оптимизациях производительности, связанных с Copy-on-Write.

Мы планируем добавить режим предупреждения, оповещающий обо всех операциях, изменяющих поведение при работе CoW. Предупреждение будет довольно шумным для пользователей, поэтому к нему следует относиться с некоторой осторожностью. В этой статье речь пойдет о типичных случаях и о том, как можно адаптировать код, чтобы избежать изменений в поведении.

Цепочечное присваивание
Цепочечное присваивание — это техника, при которой один объект обновляется посредством двух последовательных операций.

📌 Далее
📌 Часть 2.
📌 Часть 1.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥21
🖥 По умолчанию Pandas использует для числовых столбцов значения float64 и int64, что не всегда экономит память.

Если вам известен диапазон данных, то для оптимизации использования памяти при загрузке данных лучше использовать аргумент dtype.

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍112🔥2
🚀 Generate parameter Library

Эта библиотека генерирует код на C++/Python из YAML для параметров ROS 2, обеспечивает удобство работы с кодом и его проверку, а также автоматическое создание документации.

🐱 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
💥Bedrock в LangSmith Playground💥

Поддержка Bedrock в LangSmith Playground

Использование различных моделей
- часть экспериментов, проводимых при разработке LLM-приложений с контекстно-зависимыми рассуждениями. С помощью LangSmith возможно делать смену модели максимально просто!

Теперь вы можете запускать новейшие модели от Anthropic, AI21 Labs, Cohere, Meta и Amazon Titan, предоставляемые AWS Bedrock, прямо из LangSmith Playground.

Документацию LangSmith можно найти здесь:

🆕LangSmith🆕

@machinelearning_ru
👍5🔥21
👉 Машинное обучение на языке Ruby

Список библиотек, источников данных, учебников и презентаций по машинному обучению с использованием языка программирования Ruby.

🔗 https://github.com/arbox/machine-learning-with-ruby

@machinelearning_ru
👍5🔥3🤔31
В интернете вирусится продажа протеза с 6 пальцем, с камер наблюдения выглядят так, будто они получены методом стабильной диффузии 😅.

Человечество быстро приспосабливается к причудам искусственного интеллекта.

@machinelearning_ru
👍8😁82🔥2
🦾 Краткое руководство по настройке llama.cpp на инстансах AWS

Например, вы можете использовать один из самых дешевых инстансов с 16 ГБ VRAM (NVIDIA T4) для параллельного обслуживания квантовой модели Mistral 7B нескольким клиентам с полным контекстом.

github.com/ggerganov/llama.cpp/discussions/4225

@machinelearning_ru
👍7🔥32👎1
🦜🧱Построение LLM-приложения для работы с документами Q&A с помощью Chainlit, Qdrant и Zephyr

Это руководство не только очень подробное, но и:

💬 Использует локальную модель (Zephyr) и локальное векторное хранилище (Qdrant)
🧮 Использует продвинутые техники RAG (реранжирование)

Blog: https://nayakpplaban.medium.com/building-an-llm-application-for-document-q-a-using-chainlit-qdrant-and-zephyr-7efca1965baa

@machinelearning_ru
👍4🔥3
Увеличьте производительность XGBoost и других моделей до 70 %: Подход, ориентированный на данные! 🚀

Что, если я скажу вам, что вы можете значительно улучшить производительность вашей модели - не за счет изменения гиперпараметров, а за счет совершенствования данных⁉️.

В подходе, ориентированном на данные, особое внимание уделяется улучшению качества набора данных, а не изменению архитектуры модели или гиперпараметров.

Результат? Более точная и надежная модель, применимая для решения различных аналитических задач, с улучшением производительности до 70% 🔥.

🤖 Почему это важно:

1️⃣ Модель: улучшения применимы к различным моделям, а не только к XGBoost.

2️⃣ Ориентированность на данные: Фокусируется на качестве данных - фундаментальном аспекте эффективности ИИ.

3️⃣ Практичность и масштабируемость: Вам даже не придется менять существующий код/программу модели.

Готовы улучшить свою модель⁉️

В следующем твите я поделился ссылкой на видео на YouTube и Colab Notebook, чтобы попробовать это самостоятельно!

Видео на YouTube: http://youtube.com/watch?v=4iGylgAngdg

Данные, описание и код, который вы можете запустить в Colab: http://cleanlab.ai/blog/label-errors-tabular-datasets/

@machinelearning_ru
👍81🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Новый ИИ "текст-видео" .

Установка LaVie в 1 клик, модель ИИ "текст-видео".

Если Stable Video (текущая версия) генерирует видео из изображения, то LaVie генерирует видео из текста.

Вы можете запустить ее на своем ноутбуке, причем легко и очень быстро!

demo: https://huggingface.co/spaces/Vchitect/LaVie

run with docker: https://huggingface.co/spaces/Vchitect/LaVie?docker=true

duplicate space with private gpu: https://huggingface.co/spaces/Vchitect/LaVie?duplicate=true


@machinelearning_ru
👍81🔥1