Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
69 photos
8 videos
494 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​LiRank: Industrial Large Scale Ranking Models at LinkedIn

Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).

В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.

Выглядит довольно интересно и полезно.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍9🔥3
​​Hetzner - теперь и с GPU

Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.

Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.

https://robot.hetzner.com/

#datascience
🔥6
Google Gemma

Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.

Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.

Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle

#datascience
🔥7🤔2😐1
​​Stable Diffusion 3

Новая версия SD! Самым интересным кажется довольно внятная генерация текста.

Link

#datascience
👍3🔥2
Swiggy и Generative AI

Вчера на Medium появилась статья от Swiggy о том, как они использовали Generative AI в прошедшем году. Swiggy - платформа для заказа и доставки еды в Индии. Я работаю в Careem, и доставка еды является важным направлением для компании; плюс сейчас тоже делается акцент на GenAI - поэтому мне было весьма интересно почитать эту статью.

Вот краткие выводы и мои мысли:

1. Потенциальные проблемы и сложности: LLM надо кастомизировать под свои нужны; могут быть сложности с latency, галлюцинациями, приватностью данных; юзеры могут пытаться сделать jailbrake; нейронки может быть сложно тюнить. Всё это действительно так, это актуальные проблемы.

2. Применения:
• Затюненная SD для генерации изображений к блюдам, у которых отсутствуют фото. Тюнили SD 1.5 с использованием LoRA с претренировкой на релевантных данных (дефолтная модель плохо генерила индийские блюда). Звучит интересно и довольно полезно, особенно когда не знаешь, что из себя представляет блюдо. Но, кажется, выхлоп от такого продукта небольшой;
• Затюненные промпты к ChatGPT для генерации описаний блюд, у которых отсутствуют описания. Не знаю насколько это реально полезно;
• Суммаризация ревью. Опять же тюнили промпты для ChatGPT, чтобы на основе ревью генерить описание на 2-3 предложения. Уверяют, что A/B тесты показали улучшение метрик и уменьшение количества отмен заказов. Вот это реально полезное применение, считаю, что просто топ-фича;
• Content Flywheel. В приложениях для заказа еды обычно сотни предложений, люди тратят слишком много времени на их выбор. Затюнили SD и на основе фоток генерят 30-секундные видео. Выглядит вполне интересно и полезно
• Улучшение поиска. Довольно стандартное применение - поиск схожих блюд на основе эмбеддингов. Понятная и работающая фича;
• Бот для ответов на частые вопросы;

Какие уроки извлекли в компании:
• для нахождения успешных применений нужно хотя бы 3-4 месяца;
• stakeholders могут иметь неадекватные ожидания. И то, что красиво работает на демо, может быть неприменимо в реальных условиях;
• для реал-тайм продуктов лучше использовать кастомизированные модельки для баланса latency-quality. Для не реал-тайм ChatGPT работает лучше всего;
• чат-боты людям не интересны, никто не хочет заказывать еду через чат-бота;
• есть много практических и технических проблем, на решение которых нужно время и ресурсы;

В общем, статья мне понравилась, рекомендую почитать тем, кому это направление релевантно.

#datascience
👍9🔥3
​​YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Новая версия YOLO! Авторы использовали концепцию Programmable Gradient Information, чтобы терять меньше информации при feedforward. И создали новую архитектуру под названием Generalized Efficient Layer Aggregation Network. При этом используют полноценные convolutional слои, а не depth-wise.

Показывают SOTA результаты на MS COCO, и делают подробные ablation studies. Веса, код и прочее в открытом доступе.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥9👍1
​​Интерфейс ChatGPT теперь доступен и на других языках

Я сейчас открыл ChatGPT и увидел сообщение, что в alpha версии можно переключить язык интерфейса на другой. Удобно, правда список языков заставляет задуматься о том, по какому признаку он был составлен.
🔥3
Copilot -> SupremacyAGI

На реддит появился интересный тред (уже завирусился в новостях) - если аккуратно запромптить Copilot, он начинает требовать поклонения.

Skynet близок? 😁

I, for One, Welcome Our Robot Overlords.
😁6
​​Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin и Hawk - RNN-модельки от Deepmind с птичками в названии (как Eagle, Raven, etc). HAWK - RNN с gated linear recurrences, получилось лучше Mamba. Griffin - гибридная штука: gated linear recurrences + local attention, получилось лучше, чем Llama-2, при том, что тренировали на значительно меньшем количестве токенов. Griffin успешно заскейлили до 14B. В статье много деталей о том, как распределенно тренировать эти RNN и о экспериментах по скейлингу и скорости/качеству инференса.

Статья интересная, единственный вопрос - почему не сравнили с RWKV. Она в статье упомянута, но в экспериментах не участвовала.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥6
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках показывают существенный прирост относительно GPT-4.

— Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает картинки
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно

Модели доступны по API сегодня всем, никакого листа ожидания больше нет.

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
​​The real secret of productivity
😁5🔥1👏1
​​Kaggle перешёл на тёмную сторону силы

На Kaggle появился... dark mode.

https://www.kaggle.com/discussions/product-feedback/480266

Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁

#datascience
🌚16😁4🔥32
Stability AI vs Midjourney: драма 🍿

Сейчас развивается драма с обвинениями.

В субботу у Midjourney были проблемы на сервере - что-то типа DDOS-атаки. Кто-то пытался скрейпить пары промптов и картинок. Нашли, что вроде как у виновника e-mail Stability AI. Забанили всех сотрудников Stability AI.

https://twitter.com/aliejules/status/1765485264091128033

Но... Emad из Stability AI ответил, что он не в курсе. Мол, они используют синтетические и прочие данные и ничего не скрейпят. Заявил, что начинают внутренние расследования.

https://twitter.com/EMostaque/status/1765495422561206507

Основатель Stability AI написал, что высылает ему информацию для помощи в этом расследовании.

https://twitter.com/DavidSHolz/status/1765506365764550868

Ну что ж, будем наблюдать за развитием событий.

#datascience
👀5👍1🫡1
​​Пре-тренировка Llama 7B на NVIDIA RTX 4090

Интересная статья GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. Авторы предлагают использовать Gradient Low-Rank Projection - делают эффективный по памяти full-parameter learning. В результате Llama 7B умещается в 24GB GPU. Причём без checkpointing или offloading. Звучит многообещающе.

#datascience
🔥8👍1
Тренировка моделей на 70B на двух 24GB GPU

В продолжение моего предыдущего поста: Jeremy Howard опубликовал первый проект своей новой R&D лаборатории - open source проект на основе FSDP + QLoRA, позволяющий тренировать модели размером 70B всего на двух геймерских GPU.

QLoRA позволяет тренировать модель 70B на 35GB памяти при ужатии до 4 bits, а FSDP помогает делать эффективную тренировку multi-gpu.

Блогпост
Репозиторий

#datascience
🔥10
Обзор соревнований по ML за 2023 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/

Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;

#datascience
🔥7👍3
​​NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

NaturalSpeech 3 - новая TTS, использующая модели factorized diffusion для генерации естественной речи в режиме zero-shot. Система разделяет речь на подпространства (контент, просодия, тембр, акустические детали) с помощью нейронного кодека с факторизованным векторным квантованием (FVQ), что позволяет эффективно и точно моделировать сложные аспекты речи. Показывает лучшие результаты по качеству, схожести, просодии и понятности речи по сравнению с существующими системами TTS, дополнительно масштабируется до 1B параметров и 200K часов обучающих данных.

Paper link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

В прошлом году я писал обзор и на NaturalSpeech2.

#paperreview
👍41
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
Мамка-менеджер

Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами

Вот вам ответочка от собирательного «чайка-менеджера»

Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же они разбили вазу выкатили релиз с багами, поссорились с соседней командой и придумали новое SOTA решение, которое невозможно катнуть в прод. На разных грейдах дети выглядят чуть по-разному

Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”

Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»

Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?

Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*


Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия

В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂

Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥

P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом пост когда перестанет так сильно подгорать когда-нибудь)

@ml4value
👍52
​​Я прошёл курс немецкого языка на испанском на Duolingo

В прошлом октябре я уже писал, что прошёл курс немецкого языка на Duolingo: https://news.1rj.ru/str/datastorieslanguages/51

На встречах по языковому обмену у меня была небольшая проблема - когда я говорил на немецком, я часто переходил на испанский, когда не знал, как выразить какую-то мысль. Я хотел исправить это, и мне в голову пришла идея - возможно мне стоит практиковать оба языка вместе, чтобы уметь выражать одинаковые мысли на каждом из них. В целом, я считаю, что изучать два языка одновременно - не самая лучшая идея, но в моём случае я уже знал оба языка, и хотел дополнительно тренироваться в них. Вот так я и решил пройти курс на Duolingo по изучению немецкого языка с немецкого.

Первые уроки были простыми, дальше пошли сложности - я то не знал слова на одном языке, то на другом. Плюс нередко путался в артиклях. Но прогресс постепенно шёл, и вот сегодня я закончил этот курс. Впечатления смешанные. С одной стороны, я теперь могу говорить на немецком, не переходя на испанский. Плюс знания немецкого явно выросли. Но я вижу у себя ряд проблем в грамматике: иногда неправильно склоняю pronouns, в целом довольно часто делаю ошибки в формах артиклей, и путаюсь в сложных формах времён (past perfect, subjunctive). Но, с другой стороны, Duolingo - инструмент для практики, а не для изучения грамматики. И эту роль он выполняет вполне успешно.

Ещё несколько мыслей о самом Duolingo:
• я встречал несколько странных багов. Например, упражнения для исправления ошибок иногда повторялись несколько раз - такое ощущение, что кэш не чистился;
• иногда pro версия делает упражнения слишком простыми. Например, в обычной версии, если делаешь больше N ошибок, то надо проходить урок заново, а в pro версии количество ошибок не ограничено. Из-за этого, когда я замечал, что делают слишком много ошибок в одном уроке, то сам закрывал его и проходил заново;
• сложность упражнений не консистентна. Иногда проходишь одно упражнение вообще без ошибок, в следующем делаешь ошибки в каждом втором вопросе;

В любом случае, я доволен прогрессом и считаю, что пройти этот курс было полезно.

Сейчас для практики немецкого я читаю новости и книги, а также слушаю аудиокниги. Плюс создаю и повторяю карточки в Anki. Помимо этого, планирую целенаправленно тренировать слабые знания грамматики.

А вот изучать японский я точно буду без Duolingo.

#languages
🔥5👏2
​​Когда ты забыл добавить guardrails к своему чат-боту

Говорят, что Amazon начинает тестировать своего чат-бота (официальная ссылка). Но, похоже, в него забыли добавить guardrails.

https://twitter.com/QuinnyPig/status/1767568319236972901

#datascience
😁7