Max: AI, Engineering and Startups – Telegram
Max: AI, Engineering and Startups
5.01K subscribers
10 photos
2 videos
1 file
45 links
Авторский канал про ИИ, разработку и стартапы от Head of AI & Product Engineering.
Стараюсь писать полезно и кратко. Делюсь возможностями, лайфхаками, личным опытом, ресёрчем и рефлексией.
Фидбек, советы, предложения: MaxAboutAI@gmail.com
Download Telegram
Channel name was changed to «Max about AI»
Новый релиз от OpenAI, на этот раз video-to-text model:
https://openai.com/sora
Вчера участвовал в конференции AI in Production от MLOps Community. Она бесплатная и проходит 2 дня: 15 февраля и 22 февраля. На неё по-прежнему можно зарегистрироваться по ссылке.

Мои впечатления:

Отличное разнообразие и очень хороший уровень докладов для бесплатной конференции с тремя стримами: инженерным, продуктовым и воркшопами;
Много докладов по релевантным мне темам (RAG, LLM evaluation, fine-tuning);
Крутое коммьюнити и много интересных спикеров и участников;
Возможность посмотреть запись докладов с прошлых эвентов в записи;
Не очень удобная таймзона;
Нет пометки сложности выступления — для опытных инженеров и продукт-менеджеров не всегда интересно слушать доклады для новичков.

Мне понравилось!
#conference
1
Как запускать LLM локально

Три наиболее популярных способа запускать LLM локально:

- из Python с помощью библиотеки transformers от Hugging Face (отличный туториал)
- запустив самостоятельно модели при помощи llama.cpp
- используя уже готовые приложения: GPT4All, LM Studio, Ollama и другие

Требования к железу: минимум 16 Gb RAM и наличие GPU.

Из готовых приложений мне больше всего понравились Ollama и LM Studio. Помимо работы в режиме чата, они запускаются в режиме сервера с удобным API.

Ollama запускается из консоли. Набор команд очень простой и чем-то напоминает git. С её помощи мне удалось запустить более тяжеловесные модельки (70B) с 4-битной квантизацией, но на MacBook Ollama не задействовала GPU. Ollama распространяется с открытым исходным кодом (repo) и MIT License пригодной для коммерческого использования.

LM Studio позволяет настраивать запуск LLM более тонко, но при этом при попытке запустить 72B Qwen с 4 битной квантизацией, 32Гб MacBook намертво завис и пришлось его выключать чтобы он ожил. Еще у LM Studio есть довольно удобный интерфейс для чата с запущенной LLM, так что для бытовых целей возможно она немного удобнее. LM Studio имеет не прозрачную лицензию, которая не позволяет использовать LM Studio в коммерческих целях без одобрения авторов.

Чтобы выбрать наиболее подходящий вариант есть смысл попробовать оба тула и посмотреть как они будут работать на вашем железе и что больше подходит для конкретно ваших целей.
#llm
🔥2
Протестировал mindy.com, недавно поднявший seed раунд на $6M. Сервис позволяет общаться с AI ассистентом через почту.

Асинхронный формат общения должен позволять качественнее проанализировать запрос пользователя прогнав его через CoT, multi-agent reasoning и другие время затратные подходы.

На моих запросах качество результатов оказалось на уровне perplexity.ai или чуть хуже. Из приятных плюшек, можно настроить аналог Google Alerts с суммаризацией по теме запроса. А также напоминания. Вероятно, сервис продолжит активно развиваться и вскоре у него появятся новые интересные фичи.
#startup #productivity
Статья The Era of 1-bit LLMs:
All Large Language Models are in 1.58 Bits
(link) имеет все шансы стать такой же революционной как Attention is all you need. Авторы придумали как реализовать алгоритм 1.5-битной {-1, 0, 1} квантизации без потерии качества (одинаковая перплексия). Это позволяет сократить память для запуска 70B модели (LLAMA-2) в 7 раз при снижении потребления энергии в 41 раз. Статья закладывает фундамент для разработки нового специализированного желаза для тренировки и запуска LLM.
xAI (компания Маска) опубликовал модель Grok на Github под Apache2.0 license:
https://github.com/xai-org/grok