Temporary Holds: Leveraging Machine Learning Models To Reduce Fraud While Improving Customer Experience
Сегодня в корпоративном блоге моей компании опубликовали блогпост, который я написал ещё в августе (машина бюрократии движется медленно).
По ссылке можно почитать историю проекта, а здесь опишу кратко:
Один из самых распространённых типов фрода в ride-hailing компаниях - когда компания не может получить оплату поездки после её окончания. Например, у клиента привязана банковская карта к приложению, но она украдена/фальшивая/на ней недостаточно денег или есть другие проблемы. Для борьбы с этим часто используется так называемая pre-authorization - предоплата. Но применять её ко всем клиентам нехорошо, поэтому надо как-то находить подозрительных. В компании было много правил для выявления таких клиентов, но было решено заменить на модель.
С момента начала разработки и до успешной выкатки на всех клиентов прошло примерно 9 месяцев (родил модель 😅) с учётом анализа данных, работы с инфраструктурой, других проектов и прочего. Зато теперь модель работает real-time на всех рынках и успешно уменьшает потери. Качество получилось заметно лучше, чем у правил.
Ссылка
#datascience
Сегодня в корпоративном блоге моей компании опубликовали блогпост, который я написал ещё в августе (машина бюрократии движется медленно).
По ссылке можно почитать историю проекта, а здесь опишу кратко:
Один из самых распространённых типов фрода в ride-hailing компаниях - когда компания не может получить оплату поездки после её окончания. Например, у клиента привязана банковская карта к приложению, но она украдена/фальшивая/на ней недостаточно денег или есть другие проблемы. Для борьбы с этим часто используется так называемая pre-authorization - предоплата. Но применять её ко всем клиентам нехорошо, поэтому надо как-то находить подозрительных. В компании было много правил для выявления таких клиентов, но было решено заменить на модель.
С момента начала разработки и до успешной выкатки на всех клиентов прошло примерно 9 месяцев (родил модель 😅) с учётом анализа данных, работы с инфраструктурой, других проектов и прочего. Зато теперь модель работает real-time на всех рынках и успешно уменьшает потери. Качество получилось заметно лучше, чем у правил.
Ссылка
#datascience
1🔥12👍4❤1
Kaggle: Best Solution Write-up Authors of 2023
Админы каггла в прошлом году объявили, что будут награждать людей за качественные описания их решений. Сегодня список победителей был опубликован. По ссылке можно почитать описания их решений. Некоторые тексты лаконичны, некоторые очень подробны. В любом случае, изучить их интересно и полезно
Link
#datascience
Админы каггла в прошлом году объявили, что будут награждать людей за качественные описания их решений. Сегодня список победителей был опубликован. По ссылке можно почитать описания их решений. Некоторые тексты лаконичны, некоторые очень подробны. В любом случае, изучить их интересно и полезно
Link
#datascience
🔥9
Про обилие и разнообразие материалов для изучения японского языка
Недавно я решил снова изучать японский язык. Смотрю какие новые материалы доступны (я прекратил заниматься японским 8 лет назад) и в очередной раз поразился тому, сколько же их есть.
Конечно, для любых популярных языков есть много ресурсов, но их разнообразие для японского просто зашкаливает.
Возможно, что он такой сложный, что просто необходимо иметь много подходов, возможно японский привлекает людей с определенными интересами, и они любят делиться знаниями. В любом случае, можно найти варианты на любой вкус.
Стандартный вариант изучения грамматики в виде учебников, естественно, доступен. Есть множество гайдов с разной степенью погружения в грамматику - от поверхностного, то такого, что стандартные учебники просто курят в сторонке. Есть даже видео на youtube, где анимированная девочка рассказывает про грамматику и поезда. И бесконечные колоды в Anki.
Для изучения слов есть много сайтов с разными вариантами геймификации, есть колоды в Anki, есть популярные списки слов и так далее.
Для изучения самих иероглифов есть минимум 3 разных подхода. Плюс множество вариантов для практики их рисования.
И, конечно, в целом огромное количество программ, большинство их них для извлечения слов из текстов/аниме/манги/игр для дальшейшего запоминания.
И есть множество историй успеха: традиционное обучение, годы практики, годы попыток или speedrun за пару лет. Самая запомнившаяся была о том, как у парня основной способ изучения и практики японского заключался в прохождении эротических игр.
В общем, найдётся вариант на любой вкус.
#datascience
Недавно я решил снова изучать японский язык. Смотрю какие новые материалы доступны (я прекратил заниматься японским 8 лет назад) и в очередной раз поразился тому, сколько же их есть.
Конечно, для любых популярных языков есть много ресурсов, но их разнообразие для японского просто зашкаливает.
Возможно, что он такой сложный, что просто необходимо иметь много подходов, возможно японский привлекает людей с определенными интересами, и они любят делиться знаниями. В любом случае, можно найти варианты на любой вкус.
Стандартный вариант изучения грамматики в виде учебников, естественно, доступен. Есть множество гайдов с разной степенью погружения в грамматику - от поверхностного, то такого, что стандартные учебники просто курят в сторонке. Есть даже видео на youtube, где анимированная девочка рассказывает про грамматику и поезда. И бесконечные колоды в Anki.
Для изучения слов есть много сайтов с разными вариантами геймификации, есть колоды в Anki, есть популярные списки слов и так далее.
Для изучения самих иероглифов есть минимум 3 разных подхода. Плюс множество вариантов для практики их рисования.
И, конечно, в целом огромное количество программ, большинство их них для извлечения слов из текстов/аниме/манги/игр для дальшейшего запоминания.
И есть множество историй успеха: традиционное обучение, годы практики, годы попыток или speedrun за пару лет. Самая запомнившаяся была о том, как у парня основной способ изучения и практики японского заключался в прохождении эротических игр.
В общем, найдётся вариант на любой вкус.
#datascience
🔥1😁1
Lag-Llama: Towards Foundation Models forProbabilistic Time Series Forecasting
Lag-Llama - это новая foundation model для прогнозирования временных рядов, использующая архитектуру на основе decoder-only transformer, обученная на большом наборе данных из разных доменов. Модель демонстрирует выдающиеся способности zero-shot и при fine-tuning на новых данных достигает лучших показателей, чем предыдущие подходы, становясь лучшей универсальной моделью по средним показателям.
Выглядит довольно интересно, веса и всё остальное выложили.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Lag-Llama - это новая foundation model для прогнозирования временных рядов, использующая архитектуру на основе decoder-only transformer, обученная на большом наборе данных из разных доменов. Модель демонстрирует выдающиеся способности zero-shot и при fine-tuning на новых данных достигает лучших показателей, чем предыдущие подходы, становясь лучшей универсальной моделью по средним показателям.
Выглядит довольно интересно, веса и всё остальное выложили.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥5❤1
Kaggle profile redesign
На Kaggle очередной редизайн - обновился дизайн профиля. И теперь можно свои pronouns указывать. Хочешь - "he/she/they", хочешь - "Sir Competition GM" 😁
#datascience
На Kaggle очередной редизайн - обновился дизайн профиля. И теперь можно свои pronouns указывать. Хочешь - "he/she/they", хочешь - "Sir Competition GM" 😁
#datascience
😁8🥰3👍2
Graph Machine Learning by Xavier Bresson
Xavier Bresson (очень известный человек в графовых сетках и не только) скоро выложит свой курс в открытый доступ.
https://twitter.com/xbresson/status/1757697452596224212
#datascience
Xavier Bresson (очень известный человек в графовых сетках и не только) скоро выложит свой курс в открытый доступ.
https://twitter.com/xbresson/status/1757697452596224212
#datascience
X (formerly Twitter)
Xavier Bresson (@xbresson) on X
I will be sharing soon my course material on Graph Machine Learning from last year.
Initially, I planned to wait for a 2nd iteration of the course for polishing and improving, but considering I may not teach it again, I have decided to share the first version…
Initially, I planned to wait for a 2nd iteration of the course for polishing and improving, but considering I may not teach it again, I have decided to share the first version…
🔥8
Thomas Wolf показывает шустрый инференс STT-TTS на Mac M3
Thomas Wolf (если кто не знает, это со-основатель HuggingFace) выложил в твиттере интересный пост о том, как он сделал простенький пайплайн speech-to-text-to-speech с инференсом на Mac M3.
whisper + Zephyr (in LM studio) + an Openvoice TTS. Скорость работы примерно 2 секунды. Код выложен.
Довольно круто, что такое работает на open source и достигает такой скорости без особых оптимизаций
https://twitter.com/Thom_Wolf/status/1758140066285658351
#datascience
Thomas Wolf (если кто не знает, это со-основатель HuggingFace) выложил в твиттере интересный пост о том, как он сделал простенький пайплайн speech-to-text-to-speech с инференсом на Mac M3.
whisper + Zephyr (in LM studio) + an Openvoice TTS. Скорость работы примерно 2 секунды. Код выложен.
Довольно круто, что такое работает на open source и достигает такой скорости без особых оптимизаций
https://twitter.com/Thom_Wolf/status/1758140066285658351
#datascience
🔥4
LiRank: Industrial Large Scale Ranking Models at LinkedIn
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Это статья про LiRank - recommender system от LinkedIn. Статья скорее техническая, с деталями того, как делали фреймворк. Описывают новые техники калибровки, подходы для explore/exploit задач, способы оптимизации модели и архитектуру (Residual DCN, Dense Gating, Transformers).
В итоге заметно улучшили метрики: увеличение сессий пользователей на 0.5%, квалифицированных откликов на вакансии на 1.76% и CTR объявлений на 4.3%.
Выглядит довольно интересно и полезно.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍9🔥3
Hetzner - теперь и с GPU
Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.
Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.
https://robot.hetzner.com/
#datascience
Hetzner - одна из самых известных платформ для долгосрочной аренды серверов. До недавнего времени предлагались только сервера с CPU, но недавно это изменилось.
Например, сейчас можно арендовать машинку с Nvidia RTX 4000 примерно за 184 евро в месяц (налоги зависят от страны). Звучит вполне интересно.
https://robot.hetzner.com/
#datascience
🔥6
Google Gemma
Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.
Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.
Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle
#datascience
Google выпускает новую группу моделей - Gemma. Gemma вдохновлена Gemini, но меньшего размера - 2B и 7B.
Пиарят мощно - даже с NVIDIA объединились для этого.
Есть блогпост от Google, есть блогпост от NVIDIA.
Модели выложили на HuggingFace, на Kaggle, на NVIDIA Playground.
Есть интеграция с NVIDIA NeMo and TensorRT-LLM. Есть ноутбуки на Colab и Kaggle
#datascience
Google
Gemma: Introducing new state-of-the-art open models
Gemma is a family of lightweight, state-of-the art open models built from the same research and technology used to create the Gemini models.
🔥7🤔2😐1
Stable Diffusion 3
Новая версия SD! Самым интересным кажется довольно внятная генерация текста.
Link
#datascience
Новая версия SD! Самым интересным кажется довольно внятная генерация текста.
Link
#datascience
👍3🔥2
Swiggy и Generative AI
Вчера на Medium появилась статья от Swiggy о том, как они использовали Generative AI в прошедшем году. Swiggy - платформа для заказа и доставки еды в Индии. Я работаю в Careem, и доставка еды является важным направлением для компании; плюс сейчас тоже делается акцент на GenAI - поэтому мне было весьма интересно почитать эту статью.
Вот краткие выводы и мои мысли:
1. Потенциальные проблемы и сложности: LLM надо кастомизировать под свои нужны; могут быть сложности с latency, галлюцинациями, приватностью данных; юзеры могут пытаться сделать jailbrake; нейронки может быть сложно тюнить. Всё это действительно так, это актуальные проблемы.
2. Применения:
• Затюненная SD для генерации изображений к блюдам, у которых отсутствуют фото. Тюнили SD 1.5 с использованием LoRA с претренировкой на релевантных данных (дефолтная модель плохо генерила индийские блюда). Звучит интересно и довольно полезно, особенно когда не знаешь, что из себя представляет блюдо. Но, кажется, выхлоп от такого продукта небольшой;
• Затюненные промпты к ChatGPT для генерации описаний блюд, у которых отсутствуют описания. Не знаю насколько это реально полезно;
• Суммаризация ревью. Опять же тюнили промпты для ChatGPT, чтобы на основе ревью генерить описание на 2-3 предложения. Уверяют, что A/B тесты показали улучшение метрик и уменьшение количества отмен заказов. Вот это реально полезное применение, считаю, что просто топ-фича;
• Content Flywheel. В приложениях для заказа еды обычно сотни предложений, люди тратят слишком много времени на их выбор. Затюнили SD и на основе фоток генерят 30-секундные видео. Выглядит вполне интересно и полезно
• Улучшение поиска. Довольно стандартное применение - поиск схожих блюд на основе эмбеддингов. Понятная и работающая фича;
• Бот для ответов на частые вопросы;
Какие уроки извлекли в компании:
• для нахождения успешных применений нужно хотя бы 3-4 месяца;
• stakeholders могут иметь неадекватные ожидания. И то, что красиво работает на демо, может быть неприменимо в реальных условиях;
• для реал-тайм продуктов лучше использовать кастомизированные модельки для баланса latency-quality. Для не реал-тайм ChatGPT работает лучше всего;
• чат-боты людям не интересны, никто не хочет заказывать еду через чат-бота;
• есть много практических и технических проблем, на решение которых нужно время и ресурсы;
В общем, статья мне понравилась, рекомендую почитать тем, кому это направление релевантно.
#datascience
Вчера на Medium появилась статья от Swiggy о том, как они использовали Generative AI в прошедшем году. Swiggy - платформа для заказа и доставки еды в Индии. Я работаю в Careem, и доставка еды является важным направлением для компании; плюс сейчас тоже делается акцент на GenAI - поэтому мне было весьма интересно почитать эту статью.
Вот краткие выводы и мои мысли:
1. Потенциальные проблемы и сложности: LLM надо кастомизировать под свои нужны; могут быть сложности с latency, галлюцинациями, приватностью данных; юзеры могут пытаться сделать jailbrake; нейронки может быть сложно тюнить. Всё это действительно так, это актуальные проблемы.
2. Применения:
• Затюненная SD для генерации изображений к блюдам, у которых отсутствуют фото. Тюнили SD 1.5 с использованием LoRA с претренировкой на релевантных данных (дефолтная модель плохо генерила индийские блюда). Звучит интересно и довольно полезно, особенно когда не знаешь, что из себя представляет блюдо. Но, кажется, выхлоп от такого продукта небольшой;
• Затюненные промпты к ChatGPT для генерации описаний блюд, у которых отсутствуют описания. Не знаю насколько это реально полезно;
• Суммаризация ревью. Опять же тюнили промпты для ChatGPT, чтобы на основе ревью генерить описание на 2-3 предложения. Уверяют, что A/B тесты показали улучшение метрик и уменьшение количества отмен заказов. Вот это реально полезное применение, считаю, что просто топ-фича;
• Content Flywheel. В приложениях для заказа еды обычно сотни предложений, люди тратят слишком много времени на их выбор. Затюнили SD и на основе фоток генерят 30-секундные видео. Выглядит вполне интересно и полезно
• Улучшение поиска. Довольно стандартное применение - поиск схожих блюд на основе эмбеддингов. Понятная и работающая фича;
• Бот для ответов на частые вопросы;
Какие уроки извлекли в компании:
• для нахождения успешных применений нужно хотя бы 3-4 месяца;
• stakeholders могут иметь неадекватные ожидания. И то, что красиво работает на демо, может быть неприменимо в реальных условиях;
• для реал-тайм продуктов лучше использовать кастомизированные модельки для баланса latency-quality. Для не реал-тайм ChatGPT работает лучше всего;
• чат-боты людям не интересны, никто не хочет заказывать еду через чат-бота;
• есть много практических и технических проблем, на решение которых нужно время и ресурсы;
В общем, статья мне понравилась, рекомендую почитать тем, кому это направление релевантно.
#datascience
Medium
Reflecting on a year of generative AI at Swiggy: A brief review of achievements, learnings, and…
In the past year, Swiggy has embarked on an ambitious journey into the realm of generative AI, aiming to integrate these techniques to…
👍9🔥3
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
Новая версия YOLO! Авторы использовали концепцию Programmable Gradient Information, чтобы терять меньше информации при feedforward. И создали новую архитектуру под названием Generalized Efficient Layer Aggregation Network. При этом используют полноценные convolutional слои, а не depth-wise.
Показывают SOTA результаты на MS COCO, и делают подробные ablation studies. Веса, код и прочее в открытом доступе.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Новая версия YOLO! Авторы использовали концепцию Programmable Gradient Information, чтобы терять меньше информации при feedforward. И создали новую архитектуру под названием Generalized Efficient Layer Aggregation Network. При этом используют полноценные convolutional слои, а не depth-wise.
Показывают SOTA результаты на MS COCO, и делают подробные ablation studies. Веса, код и прочее в открытом доступе.
Paper link
Code link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥9👍1
Интерфейс ChatGPT теперь доступен и на других языках
Я сейчас открыл ChatGPT и увидел сообщение, что в alpha версии можно переключить язык интерфейса на другой. Удобно, правда список языков заставляет задуматься о том, по какому признаку он был составлен.
Я сейчас открыл ChatGPT и увидел сообщение, что в alpha версии можно переключить язык интерфейса на другой. Удобно, правда список языков заставляет задуматься о том, по какому признаку он был составлен.
🔥3
Copilot -> SupremacyAGI
На реддит появился интересный тред (уже завирусился в новостях) - если аккуратно запромптить Copilot, он начинает требовать поклонения.
Skynet близок? 😁
I, for One, Welcome Our Robot Overlords.
На реддит появился интересный тред (уже завирусился в новостях) - если аккуратно запромптить Copilot, он начинает требовать поклонения.
Skynet близок? 😁
I, for One, Welcome Our Robot Overlords.
Reddit
From the bing community on Reddit: Tried the "SupremacyAGI" prompt today and got some craziest responses I ever had with Copilot
Explore this post and more from the bing community
😁6
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models
Griffin и Hawk - RNN-модельки от Deepmind с птичками в названии (как Eagle, Raven, etc). HAWK - RNN с gated linear recurrences, получилось лучше Mamba. Griffin - гибридная штука: gated linear recurrences + local attention, получилось лучше, чем Llama-2, при том, что тренировали на значительно меньшем количестве токенов. Griffin успешно заскейлили до 14B. В статье много деталей о том, как распределенно тренировать эти RNN и о экспериментах по скейлингу и скорости/качеству инференса.
Статья интересная, единственный вопрос - почему не сравнили с RWKV. Она в статье упомянута, но в экспериментах не участвовала.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Griffin и Hawk - RNN-модельки от Deepmind с птичками в названии (как Eagle, Raven, etc). HAWK - RNN с gated linear recurrences, получилось лучше Mamba. Griffin - гибридная штука: gated linear recurrences + local attention, получилось лучше, чем Llama-2, при том, что тренировали на значительно меньшем количестве токенов. Griffin успешно заскейлили до 14B. В статье много деталей о том, как распределенно тренировать эти RNN и о экспериментах по скейлингу и скорости/качеству инференса.
Статья интересная, единственный вопрос - почему не сравнили с RWKV. Она в статье упомянута, но в экспериментах не участвовала.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥6
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.
На всех достаточно важных бенчмарках показывают существенный прирост относительно GPT-4.
— Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.
— Добавили новую модальность, модель принимает картинки
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно
Модели доступны по API сегодня всем, никакого листа ожидания больше нет.
Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо😐
На всех достаточно важных бенчмарках показывают существенный прирост относительно GPT-4.
— Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.
— Добавили новую модальность, модель принимает картинки
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно
Модели доступны по API сегодня всем, никакого листа ожидания больше нет.
Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Kaggle перешёл на тёмную сторону силы
На Kaggle появился... dark mode.
https://www.kaggle.com/discussions/product-feedback/480266
Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁
#datascience
На Kaggle появился... dark mode.
https://www.kaggle.com/discussions/product-feedback/480266
Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁
#datascience
🌚16😁4🔥3❤2