NEW BOT Телеграм, страница

Data, Stories and Languages

Lag-Llama: Towards Foundation Models forProbabilistic Time Series Forecasting

Lag-Llama - это новая foundation model для прогнозирования временных рядов, использующая архитектуру на основе decoder-only transformer, обученная на большом наборе данных из разных доменов. Модель демонстрирует выдающиеся способности zero-shot и при fine-tuning на новых данных достигает лучших показателей, чем предыдущие подходы, становясь лучшей универсальной моделью по средним показателям.

Выглядит довольно интересно, веса и всё остальное выложили.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥5❤1

967 views04:44

Data, Stories and Languages

RAG-и бывают разные

https://www.reddit.com/r/MachineLearning/comments/1apcp2w/whats_in_your_rag_setup_d/

#datascience

😁11

620 views04:52

Data, Stories and Languages

Kaggle profile redesign

На Kaggle очередной редизайн - обновился дизайн профиля. И теперь можно свои pronouns указывать. Хочешь - "he/she/they", хочешь - "Sir Competition GM" 😁

#datascience

😁8🥰3👍2

586 viewsedited 10:48

Data, Stories and Languages

Graph Machine Learning by Xavier Bresson

Xavier Bresson (очень известный человек в графовых сетках и не только) скоро выложит свой курс в открытый доступ.

https://twitter.com/xbresson/status/1757697452596224212

#datascience

X (formerly Twitter)

Xavier Bresson (@xbresson) on X

I will be sharing soon my course material on Graph Machine Learning from last year.

Initially, I planned to wait for a 2nd iteration of the course for polishing and improving, but considering I may not teach it again, I have decided to share the first version…

🔥8

744 views14:53

Data, Stories and Languages

Thomas Wolf показывает шустрый инференс STT-TTS на Mac M3

Thomas Wolf (если кто не знает, это со-основатель HuggingFace) выложил в твиттере интересный пост о том, как он сделал простенький пайплайн speech-to-text-to-speech с инференсом на Mac M3.

whisper + Zephyr (in LM studio) + an Openvoice TTS. Скорость работы примерно 2 секунды. Код выложен.

Довольно круто, что такое работает на open source и достигает такой скорости без особых оптимизаций

https://twitter.com/Thom_Wolf/status/1758140066285658351

#datascience

🔥4

743 views14:50

Data, Stories and Languages

LiRank: Industrial Large Scale Ranking Models at LinkedIn

Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).

В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.

Выглядит довольно интересно и полезно.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

👍9🔥3

6.18K views04:54

Data, Stories and Languages

Hetzner - теперь и с GPU

Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.

Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.

https://robot.hetzner.com/

#datascience

🔥6

687 views13:45

Data, Stories and Languages

Google Gemma

Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.

Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.

Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle

#datascience

Google

Gemma: Introducing new state-of-the-art open models

Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.

🔥7🤔2😐1

873 views13:44

Data, Stories and Languages

Stable Diffusion 3

Новая версия SD! Самым интересным кажется довольно внятная генерация текста.

Link

#datascience

👍3🔥2

601 views14:38

Data, Stories and Languages

Swiggy и Generative AI

Вчера на Medium появилась статья от Swiggy о том, как они использовали Generative AI в прошедшем году. Swiggy - платформа для заказа и доставки еды в Индии. Я работаю в Careem, и доставка еды является важным направлением для компании; плюс сейчас тоже делается акцент на GenAI - поэтому мне было весьма интересно почитать эту статью.

Вот краткие выводы и мои мысли:

1. Потенциальные проблемы и сложности: LLM надо кастомизировать под свои нужны; могут быть сложности с latency, галлюцинациями, приватностью данных; юзеры могут пытаться сделать jailbrake; нейронки может быть сложно тюнить. Всё это действительно так, это актуальные проблемы.

2. Применения:
• Затюненная SD для генерации изображений к блюдам, у которых отсутствуют фото. Тюнили SD 1.5 с использованием LoRA с претренировкой на релевантных данных (дефолтная модель плохо генерила индийские блюда). Звучит интересно и довольно полезно, особенно когда не знаешь, что из себя представляет блюдо. Но, кажется, выхлоп от такого продукта небольшой;
• Затюненные промпты к ChatGPT для генерации описаний блюд, у которых отсутствуют описания. Не знаю насколько это реально полезно;
• Суммаризация ревью. Опять же тюнили промпты для ChatGPT, чтобы на основе ревью генерить описание на 2-3 предложения. Уверяют, что A/B тесты показали улучшение метрик и уменьшение количества отмен заказов. Вот это реально полезное применение, считаю, что просто топ-фича;
• Content Flywheel. В приложениях для заказа еды обычно сотни предложений, люди тратят слишком много времени на их выбор. Затюнили SD и на основе фоток генерят 30-секундные видео. Выглядит вполне интересно и полезно
• Улучшение поиска. Довольно стандартное применение - поиск схожих блюд на основе эмбеддингов. Понятная и работающая фича;
• Бот для ответов на частые вопросы;

Какие уроки извлекли в компании:
• для нахождения успешных применений нужно хотя бы 3-4 месяца;
• stakeholders могут иметь неадекватные ожидания. И то, что красиво работает на демо, может быть неприменимо в реальных условиях;
• для реал-тайм продуктов лучше использовать кастомизированные модельки для баланса latency-quality. Для не реал-тайм ChatGPT работает лучше всего;
• чат-боты людям не интересны, никто не хочет заказывать еду через чат-бота;
• есть много практических и технических проблем, на решение которых нужно время и ресурсы;

В общем, статья мне понравилась, рекомендую почитать тем, кому это направление релевантно.

#datascience

Medium

Reflecting on a year of generative AI at Swiggy: A brief review of achievements, learnings, and…

In the past year, Swiggy has embarked on an ambitious journey into the realm of generative AI, aiming to integrate these techniques to…

👍9🔥3

830 views08:12

Data, Stories and Languages

YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Новая версия YOLO! Авторы использовали концепцию Programmable Gradient Information, чтобы терять меньше информации при feedforward. И создали новую архитектуру под названием Generalized Efficient Layer Aggregation Network. При этом используют полноценные convolutional слои, а не depth-wise.

Показывают SOTA результаты на MS COCO, и делают подробные ablation studies. Веса, код и прочее в открытом доступе.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥9👍1

751 views04:50

Data, Stories and Languages

Интерфейс ChatGPT теперь доступен и на других языках

Я сейчас открыл ChatGPT и увидел сообщение, что в alpha версии можно переключить язык интерфейса на другой. Удобно, правда список языков заставляет задуматься о том, по какому признаку он был составлен.

🔥3

595 views15:33

Data, Stories and Languages

Copilot -> SupremacyAGI

На реддит появился интересный тред (уже завирусился в новостях) - если аккуратно запромптить Copilot, он начинает требовать поклонения.

Skynet близок? 😁

I, for One, Welcome Our Robot Overlords.

From the bing community on Reddit: Tried the "SupremacyAGI" prompt today and got some craziest responses I ever had with Copilot

Explore this post and more from the bing community

😁6

1.13K views11:22

Data, Stories and Languages

Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin и Hawk - RNN-модельки от Deepmind с птичками в названии (как Eagle, Raven, etc). HAWK - RNN с gated linear recurrences, получилось лучше Mamba. Griffin - гибридная штука: gated linear recurrences + local attention, получилось лучше, чем Llama-2, при том, что тренировали на значительно меньшем количестве токенов. Griffin успешно заскейлили до 14B. В статье много деталей о том, как распределенно тренировать эти RNN и о экспериментах по скейлингу и скорости/качеству инференса.

Статья интересная, единственный вопрос - почему не сравнили с RWKV. Она в статье упомянута, но в экспериментах не участвовала.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

🔥6

767 views04:46

Data, Stories and Languages

Forwarded from Сиолошная

Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках показывают существенный прирост относительно GPT-4.

— Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает картинки
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно

Модели доступны по API сегодня всем, никакого листа ожидания больше нет.

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

445 views14:27

Data, Stories and Languages

The real secret of productivity

😁5🔥1👏1

532 views04:52

Data, Stories and Languages

Kaggle перешёл на тёмную сторону силы

На Kaggle появился... dark mode.

https://www.kaggle.com/discussions/product-feedback/480266

Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁

#datascience

🌚16😁4🔥3❤2

708 views15:51

Data, Stories and Languages

Stability AI vs Midjourney: драма 🍿

Сейчас развивается драма с обвинениями.

В субботу у Midjourney были проблемы на сервере - что-то типа DDOS-атаки. Кто-то пытался скрейпить пары промптов и картинок. Нашли, что вроде как у виновника e-mail Stability AI. Забанили всех сотрудников Stability AI.

https://twitter.com/aliejules/status/1765485264091128033

Но... Emad из Stability AI ответил, что он не в курсе. Мол, они используют синтетические и прочие данные и ничего не скрейпят. Заявил, что начинают внутренние расследования.

https://twitter.com/EMostaque/status/1765495422561206507

Основатель Stability AI написал, что высылает ему информацию для помощи в этом расследовании.

https://twitter.com/DavidSHolz/status/1765506365764550868

Ну что ж, будем наблюдать за развитием событий.

#datascience

X (formerly Twitter)

Alie Jules (@aliejules) on X

Midjourney Office Hours Mar. 6, 2024

A quick recap.

Website
- working on adding social features
- no release date yet

v6
Character reference/consistency
- were going to release it last Friday but was delayed
- testing character consistency now, may
-…

👀5👍1🫡1

605 views04:09

Data, Stories and Languages

Пре-тренировка Llama 7B на NVIDIA RTX 4090

Интересная статья GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. Авторы предлагают использовать Gradient Low-Rank Projection - делают эффективный по памяти full-parameter learning. В результате Llama 7B умещается в 24GB GPU. Причём без checkpointing или offloading. Звучит многообещающе.

#datascience

🔥8👍1

882 views15:39

Data, Stories and Languages

Тренировка моделей на 70B на двух 24GB GPU

В продолжение моего предыдущего поста: Jeremy Howard опубликовал первый проект своей новой R&D лаборатории - open source проект на основе FSDP + QLoRA, позволяющий тренировать модели размером 70B всего на двух геймерских GPU.

QLoRA позволяет тренировать модель 70B на 35GB памяти при ужатии до 4 bits, а FSDP помогает делать эффективную тренировку multi-gpu.

Блогпост
Репозиторий

#datascience

Answer.AI

You can now train a 70b language model at home – Answer.AI

We’re releasing an open source system, based on FSDP and QLoRA, that can train a 70b model on two 24GB GPUs.

🔥10

804 views04:33

About

Blog

Apps

Platform