NEW BOT Телеграм, страница

Вчера участвовал в конференции AI in Production от MLOps Community. Она бесплатная и проходит 2 дня: 15 февраля и 22 февраля. На неё по-прежнему можно зарегистрироваться по ссылке.

Мои впечатления:
✅ Отличное разнообразие и очень хороший уровень докладов для бесплатной конференции с тремя стримами: инженерным, продуктовым и воркшопами;
✅ Много докладов по релевантным мне темам (RAG, LLM evaluation, fine-tuning);
✅ Крутое коммьюнити и много интересных спикеров и участников;
✅Возможность посмотреть запись докладов с прошлых эвентов в записи;
❌ Не очень удобная таймзона;
❌ Нет пометки сложности выступления — для опытных инженеров и продукт-менеджеров не всегда интересно слушать доклады для новичков.

Мне понравилось!
#conference

MLOps Community

The MLOps Community is where machine learning practitioners come together to define and implement MLOps.
Our global community is the default hub for MLOps practitioners to meet other MLOps industry professionals, share their real-world experience and challenges…

❤1

505 viewsedited 21:15

Max: AI, Engineering and Startups

Channel photo updated

21:22

Max: AI, Engineering and Startups

Как запускать LLM локально

Три наиболее популярных способа запускать LLM локально:

- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие

Требования к железу: минимум 16 Gb RAM и наличие GPU.

Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.

Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.

LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.

Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm

🔥2

613 viewsedited 19:23

Max: AI, Engineering and Startups

Протестировал mindy.com, недавно поднявший seed раунд на $6M. Сервис позволяет общаться с AI ассистентом через почту.

Асинхронный формат общения должен позволять качественнее проанализировать запрос пользователя прогнав его через CoT, multi-agent reasoning и другие время затратные подходы.

На моих запросах качество результатов оказалось на уровне perplexity.ai или чуть хуже. Из приятных плюшек, можно настроить аналог Google Alerts с суммаризацией по теме запроса. А также напоминания. Вероятно, сервис продолжит активно развиваться и вскоре у него появятся новые интересные фичи.
#startup #productivity

557 viewsedited 20:29

Max: AI, Engineering and Startups

Статья The Era of 1-bit LLMs:
All Large Language Models are in 1.58 Bits (link) имеет все шансы стать такой же революционной как Attention is all you need. Авторы придумали как реализовать алгоритм 1.5-битной {-1, 0, 1} квантизации без потерии качества (одинаковая перплексия). Это позволяет сократить память для запуска 70B модели (LLAMA-2) в 7 раз при снижении потребления энергии в 41 раз. Статья закладывает фундамент для разработки нового специализированного желаза для тренировки и запуска LLM.

544 views22:16

Max: AI, Engineering and Startups

xAI (компания Маска) опубликовал модель Grok на Github под Apache2.0 license:
https://github.com/xai-org/grok

505 viewsedited 20:21

About

Blog

Apps

Platform