Amazon Fresh: индусы за экраном или же нет?
Сейчас на многих новостных платформах трубят, что инициатива Amazon Fresh была фейком.
https://www.engadget.com/amazon-just-walked-out-on-its-self-checkout-technology-191703603.html
Напомню, что идея была в том, что покупатели ходят по магазину, складывают товары в тележки, а потом просто уходят. Умная система следит за взятыми товарами и потом списывает стоимость покупок со счёта.
И вот сейчас уверяют, что это толпа индусов следила за покупателями в реальном времени:
Я решил поискать первоисточник и нашёл вот такое:
https://gizmodo.com/amazon-reportedly-ditches-just-walk-out-grocery-stores-1851381116
Там цитата совершенно другая:
Но дальше есть ещё одна интересная фраза:
В целом мы вряд ли узнаем правду, но мне кажется, что было два процесса:
• ручная разметка видео для улучшения моделей
• модели работали плохо, и результаты часто приходилось проверять и исправлять
#datascience
Сейчас на многих новостных платформах трубят, что инициатива Amazon Fresh была фейком.
https://www.engadget.com/amazon-just-walked-out-on-its-self-checkout-technology-191703603.html
Напомню, что идея была в том, что покупатели ходят по магазину, складывают товары в тележки, а потом просто уходят. Умная система следит за взятыми товарами и потом списывает стоимость покупок со счёта.
И вот сейчас уверяют, что это толпа индусов следила за покупателями в реальном времени:
the stores have no actual cashiers, there are reportedly over 1,000 real people in India scanning the camera feeds to ensure accurate checkouts.
Я решил поискать первоисточник и нашёл вот такое:
https://gizmodo.com/amazon-reportedly-ditches-just-walk-out-grocery-stores-1851381116
Там цитата совершенно другая:
primary role of our Machine Learning data associates is to annotate video images, which is necessary for continuously improving the underlying machine learning model powering
Но дальше есть ещё одна интересная фраза:
the spokesperson acknowledged these associates validate “a small minority” of shopping visits when AI can’t determine a purchase.
В целом мы вряд ли узнаем правду, но мне кажется, что было два процесса:
• ручная разметка видео для улучшения моделей
• модели работали плохо, и результаты часто приходилось проверять и исправлять
#datascience
Engadget
Amazon just walked out on its self-checkout technology
Amazon is removing its Just Walk Out technology from Fresh grocery stores. This is part of a larger effort to revamp the chain of retail food stores.
👍9😁6
Новый AutoML "outperforming approximately 50% of human data scientists" on Kaggle. Wait, what?
Читаю статью об очередном AutoML. Вижу цитату, что мол он бьёт 50% DS на некоторых соревнованиях на Kaggle. Для незнающих людей это может показаться впечатляющимся, для тех кто разбирается, это не успех, а пшик.
Но я настолько офигел от абсурдности этого заявления, что решил почитать подробнее.
Компания утверждает, что разработала "AI-powered data science agent". Мол, самое впечатляющее - "its ability to autonomously understand competition requirements, design and implement solutions, and generate submission files, all without any human intervention".
В результатах пишут, что обгоняют AutoML от H20, а также Langchain (wtf, это-то здесь при чём?) и ChatGPT (with human assistance).
В репозитории пока мало информации - табличка с результатами и код для их достижения (скриншотов сабмитов нет).
https://github.com/WecoAI/aideml?tab=readme-ov-file
Окей, давайте посмотрим на результаты:
Допустим, что нас интересуют соревнования, где модель попала в топ 5% - уровень серебра. Таких сорев 6 - четыре в топ-0% (видимо лучше максимума), две в топ-5%
Все четыре соревнования с результатами в топ-0% - tabular playground competitions. Это игрушечные соревнования, где данные нередко просто сгенерированы.
Мне лень запускать код сгенерированных решений, но я очень сильно, что результат соответствует заявленному (см скриншот).
Первое из соревнований, где результат топ-5% - соревнование... девятилетней давности. Второе - классическое соревнование Housing Prices Competition, в котором участвуют новички.
В общем, очень сомнительные результаты.
https://www.weco.ai/blog/technical-report
#datascience
Читаю статью об очередном AutoML. Вижу цитату, что мол он бьёт 50% DS на некоторых соревнованиях на Kaggle. Для незнающих людей это может показаться впечатляющимся, для тех кто разбирается, это не успех, а пшик.
Но я настолько офигел от абсурдности этого заявления, что решил почитать подробнее.
Компания утверждает, что разработала "AI-powered data science agent". Мол, самое впечатляющее - "its ability to autonomously understand competition requirements, design and implement solutions, and generate submission files, all without any human intervention".
В результатах пишут, что обгоняют AutoML от H20, а также Langchain (wtf, это-то здесь при чём?) и ChatGPT (with human assistance).
В репозитории пока мало информации - табличка с результатами и код для их достижения (скриншотов сабмитов нет).
https://github.com/WecoAI/aideml?tab=readme-ov-file
Окей, давайте посмотрим на результаты:
Допустим, что нас интересуют соревнования, где модель попала в топ 5% - уровень серебра. Таких сорев 6 - четыре в топ-0% (видимо лучше максимума), две в топ-5%
Все четыре соревнования с результатами в топ-0% - tabular playground competitions. Это игрушечные соревнования, где данные нередко просто сгенерированы.
Мне лень запускать код сгенерированных решений, но я очень сильно, что результат соответствует заявленному (см скриншот).
Первое из соревнований, где результат топ-5% - соревнование... девятилетней давности. Второе - классическое соревнование Housing Prices Competition, в котором участвуют новички.
В общем, очень сомнительные результаты.
https://www.weco.ai/blog/technical-report
#datascience
😁7🔥3👍1
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction
VAR (Visual AutoRegressive modeling) - новый подход к autoregressive тренировке моделей для генерации картинок, работающий как next-scale prediction / next-resolution prediction вместо next-token prediction. В результате на ImageNet 256x256 этот подход обошёл модели диффуризий (правда сравнивали лишь с DiT) уменьшил FID с 18.65 до 1.80 и увеличил IS с 80.4 до 356.4, при этом скорость инференса увеличилась в 20 раз. VAR также демонстрирует power-law scaling laws аналогично LLM.
Звучит интересно, но вот с современными моделями типа SD не стали сравнивать.
Paper link
Code link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
VAR (Visual AutoRegressive modeling) - новый подход к autoregressive тренировке моделей для генерации картинок, работающий как next-scale prediction / next-resolution prediction вместо next-token prediction. В результате на ImageNet 256x256 этот подход обошёл модели диффуризий (правда сравнивали лишь с DiT) уменьшил FID с 18.65 до 1.80 и увеличил IS с 80.4 до 356.4, при этом скорость инференса увеличилась в 20 раз. VAR также демонстрирует power-law scaling laws аналогично LLM.
Звучит интересно, но вот с современными моделями типа SD не стали сравнивать.
Paper link
Code link
Project link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥2
После появления AI, играющего в Go, люди стали играть лучше и креативнее
В последнее время всё больше и больше говорят о негативных последствиях AI - о потере рабочих мест, о замещении художников и представителей креативных профессий, о том, что использование AI приводит к снижению среднего уровня результатов.
Поэтому мне всегда интересно почитать о позитивных последствиях.
https://www.henrikkarlsson.xyz/p/go
В статье пишут, что после появлени AlphaGo резко заметно выросла креативность людей, играющих в Go. Метрика - decision quality. Что это за метрика, я не совсем понял, вроде средняя вероятность того, что ходы приведут к победе.
Можно предположить, что за долгие годы сложился определенный статус кво. Люди играют по привычным паттернам и не думают о том, что можно играть по-другому. Но когда появляется AI, который играет лучше и по-другому, возможно у людей появляются идеи и вдохновление пробовать новые подходы.
В последнее время всё больше и больше говорят о негативных последствиях AI - о потере рабочих мест, о замещении художников и представителей креативных профессий, о том, что использование AI приводит к снижению среднего уровня результатов.
Поэтому мне всегда интересно почитать о позитивных последствиях.
https://www.henrikkarlsson.xyz/p/go
В статье пишут, что после появлени AlphaGo резко заметно выросла креативность людей, играющих в Go. Метрика - decision quality. Что это за метрика, я не совсем понял, вроде средняя вероятность того, что ходы приведут к победе.
Можно предположить, что за долгие годы сложился определенный статус кво. Люди играют по привычным паттернам и не думают о том, что можно играть по-другому. Но когда появляется AI, который играет лучше и по-другому, возможно у людей появляются идеи и вдохновление пробовать новые подходы.
🔥3❤1👍1
Новый виток борьбы вокруг Copyrights в Generative AI
В Америке предложили Bill под названием "Generative AI Copyright Disclosure Act". Ключевая фраза:
"""A person who creates a training dataset, or alters a training dataset (includ8 ing by making an update to, refining, or retraining the dataset) in a significant manner, that is used in building a generative AI system shall submit to the Register a notice that contains a sufficiently detailed summary of any copyrighted works used"""
https://schiff.house.gov/imo/media/doc/the_generative_ai_copyright_disclosure_act.pdf
То есть теперь компании, которые скрапят интернет и тренируют модельки, должны сообщать о том, сколько закопирайченного контента они собрали. И при каждом обновлении, надо подготавливать документ с изменениями.
Пока не ясно будут ли наказания за использование стыренного контента, но сама необходимость постоянно готовить документы по каждому изменению - это дорого, удар по стартапам. И точно не получится иметь "секретные" датасеты, приносящие успех.
В твиттере уже полно срачей.
Один из оригинальных - тут: https://twitter.com/jess_miers/status/1777799284907257999 Здесь пишут о том, какой акт плохой, какой сильный удар он наносит по стартапам.
И, конечно, есть представители другой позиции https://twitter.com/Kelly_McKernan/status/1778587146577694748 которые говорят, что это проблема самих стартапов, если они не могут по закону работать с данными.
Будет любопытно наблюдать за тем примут этот bill или нет.
В Америке предложили Bill под названием "Generative AI Copyright Disclosure Act". Ключевая фраза:
"""A person who creates a training dataset, or alters a training dataset (includ8 ing by making an update to, refining, or retraining the dataset) in a significant manner, that is used in building a generative AI system shall submit to the Register a notice that contains a sufficiently detailed summary of any copyrighted works used"""
https://schiff.house.gov/imo/media/doc/the_generative_ai_copyright_disclosure_act.pdf
То есть теперь компании, которые скрапят интернет и тренируют модельки, должны сообщать о том, сколько закопирайченного контента они собрали. И при каждом обновлении, надо подготавливать документ с изменениями.
Пока не ясно будут ли наказания за использование стыренного контента, но сама необходимость постоянно готовить документы по каждому изменению - это дорого, удар по стартапам. И точно не получится иметь "секретные" датасеты, приносящие успех.
В твиттере уже полно срачей.
Один из оригинальных - тут: https://twitter.com/jess_miers/status/1777799284907257999 Здесь пишут о том, какой акт плохой, какой сильный удар он наносит по стартапам.
И, конечно, есть представители другой позиции https://twitter.com/Kelly_McKernan/status/1778587146577694748 которые говорят, что это проблема самих стартапов, если они не могут по закону работать с данными.
Будет любопытно наблюдать за тем примут этот bill или нет.
🔥4👍1
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models
В январе я уже писал обзор на Ferret от Apple, а теперь вышла новая версия.
Ferret-v2 включает в себя три ключевых изменения: гибкое решение для работы с изображениями любого разрешения, интеграция дополнительного энкодера DINOv2 для обработки информации на разных уровнях детализации и тренировка в три этапа - image-caption alignment, high-resolution dense alignment и instruction tuning. Эксперименты показывают, что Ferret-v2 значительно превосходит предыдущую версию и другие SOTA подходы (ну кто же будет писать в статье, что их модель не лучшая).
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
В январе я уже писал обзор на Ferret от Apple, а теперь вышла новая версия.
Ferret-v2 включает в себя три ключевых изменения: гибкое решение для работы с изображениями любого разрешения, интеграция дополнительного энкодера DINOv2 для обработки информации на разных уровнях детализации и тренировка в три этапа - image-caption alignment, high-resolution dense alignment и instruction tuning. Эксперименты показывают, что Ferret-v2 значительно превосходит предыдущую версию и другие SOTA подходы (ну кто же будет писать в статье, что их модель не лучшая).
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥3👍1
AutoML Grand Prix
На Kaggle объявили новую активность: предлагают отдельные приза за успехи automl на табличных соревнованиях. Это будет продолжаться с мая по сентябрь. Обязательно делиться подробным описанием решения. Ну что ж, наконец-то мы узнаем, какие инструменты AutoML лучшие :)
#datascience
На Kaggle объявили новую активность: предлагают отдельные приза за успехи automl на табличных соревнованиях. Это будет продолжаться с мая по сентябрь. Обязательно делиться подробным описанием решения. Ну что ж, наконец-то мы узнаем, какие инструменты AutoML лучшие :)
#datascience
🔥9❤1👍1
Chip Huyen: Theseus - GPU-native query engine
Chip Huyen, известная своими блогпостами (и не только) поделилась информацией о том, чем занималась в последнее время - GPU-native query engine. Уверяет, что это намного эффективнее. Theseus сравнивают со Spark, пишут, что он лучше когда данных хотя бы... 100TB.
Интересно было бы увидеть сравнение с RAPIDS.
#datascience
Chip Huyen, известная своими блогпостами (и не только) поделилась информацией о том, чем занималась в последнее время - GPU-native query engine. Уверяет, что это намного эффективнее. Theseus сравнивают со Spark, пишут, что он лучше когда данных хотя бы... 100TB.
Интересно было бы увидеть сравнение с RAPIDS.
#datascience
🔥4
LLAMA 3 на ваших экранах
Meta выпустила долгожданную Llama 3. Что известно на текущий момент:
• https://llama.meta.com/llama3/ - сайт с кучей информации. Из минусов - нет ни статьи, ни нормального отчёта о тренировке
• Тренировали 100500 часов... то есть 7 миллионов GPU-часов. И ещё не до конца - модель на 400B всё ещё тренируется
• Сравнить с Llama 2 можно тут: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#base-pretrained-models все метрики заметно улучшились
• Судя по отрывку из блогпоста, в подходе к самой модели особо ничего не изменилось - улучшили токенизатор, тренируют на 8192 токенах, используют grouped query attention. Видимо основная причина улучшения - в кропотливом улучшении датасетов.
• https://www.meta.ai/ - сделали сайт, где можно поиграться с моделью. К сожалению, в ОАЭ не работает
• https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/ - интегрировали модель везде где только можно: чат-бот для рекомендации развлечений, помощь в профессиональных задачах. Добавили в Facebook, Instagram, WhatsApp, Messenger. Есть даже в Facebook Feed. И картинки тоже умеет генерить. И это всё не полный список.
Meta выпустила долгожданную Llama 3. Что известно на текущий момент:
• https://llama.meta.com/llama3/ - сайт с кучей информации. Из минусов - нет ни статьи, ни нормального отчёта о тренировке
• Тренировали 100500 часов... то есть 7 миллионов GPU-часов. И ещё не до конца - модель на 400B всё ещё тренируется
• Сравнить с Llama 2 можно тут: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#base-pretrained-models все метрики заметно улучшились
• Судя по отрывку из блогпоста, в подходе к самой модели особо ничего не изменилось - улучшили токенизатор, тренируют на 8192 токенах, используют grouped query attention. Видимо основная причина улучшения - в кропотливом улучшении датасетов.
• https://www.meta.ai/ - сделали сайт, где можно поиграться с моделью. К сожалению, в ОАЭ не работает
• https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/ - интегрировали модель везде где только можно: чат-бот для рекомендации развлечений, помощь в профессиональных задачах. Добавили в Facebook, Instagram, WhatsApp, Messenger. Есть даже в Facebook Feed. И картинки тоже умеет генерить. И это всё не полный список.
Industry Leading, Open-Source AI | Llama
Discover Llama 4's class-leading AI models, Scout and Maverick. Experience top performance, multimodality, low costs, and unparalleled efficiency.
🔥6
Forwarded from gonzo-обзоры ML статей
Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
https://arxiv.org/abs/2404.14219
Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.
Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
https://arxiv.org/abs/2404.14219
Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.
Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
Telegram
gonzo-обзоры ML статей
Продолжаем линию маленьких моделей, Microsoft анонсировал phi-2.
https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
We are now releasing Phi-2, a 2.7 billion-parameter language model that demonstrates outstanding…
https://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/
We are now releasing Phi-2, a 2.7 billion-parameter language model that demonstrates outstanding…
🔥2
FlowMind: Automatic Workflow Generation with LLMs
Статья от JPMorgan. Предлагают новый подход к Robotic Process Automation - FlowMind, использующий возможности LLM для создания системы автоматической генерации рабочих процессов. Тут я мог бы написать, что мол они сделали что-то крутое и впечатляющее... но если честно, статья - это скорее technical report. Авторы взяли LLM, в промпте задают роль, список возможных инструментов и описывают задачу. На выходе, на основе запроса юзера, генерится питоновский код с использованием этих инструментов. Юзер может написать, что что-то сработало не так, и результат перегенерится с учётом поправки. Ну и потом код запускается. Всё.
Справедливости ради, основной плюс всего этого - LLM не лезет в приватные данные, а лишь использует разрешённые инструменты.
Ах да, ещё авторы собрали свой собственный датасет, и (о, неожиданность) их подход оказался лучшим на этом датасете.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Статья от JPMorgan. Предлагают новый подход к Robotic Process Automation - FlowMind, использующий возможности LLM для создания системы автоматической генерации рабочих процессов. Тут я мог бы написать, что мол они сделали что-то крутое и впечатляющее... но если честно, статья - это скорее technical report. Авторы взяли LLM, в промпте задают роль, список возможных инструментов и описывают задачу. На выходе, на основе запроса юзера, генерится питоновский код с использованием этих инструментов. Юзер может написать, что что-то сработало не так, и результат перегенерится с учётом поправки. Ну и потом код запускается. Всё.
Справедливости ради, основной плюс всего этого - LLM не лезет в приватные данные, а лишь использует разрешённые инструменты.
Ах да, ещё авторы собрали свой собственный датасет, и (о, неожиданность) их подход оказался лучшим на этом датасете.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
🔥2😁2
LinkedIn: Musings on building a Generative AI product
LinkedIn недавно выкатил новую фичу - во многих местах появились кнопочки, которые вызывают ассистента чат-бота, отвечающего на вопросы. Пару недель назад вышел блогпост от их команды, где они делятся опытом разработки этого решения. В целом, если вы уже разрабатывали подобные решения, то большинство выводов должны быть знакомы и понятны. Если же нет - рекомендую почитать.
Основные/интересные моменты из блогпоста:
Многие идеи, которые они пробовали, не сработали.
Overview
Как в целом работает решение: видишь в ленте интересный пост на новую для тебя тему, к этому посту автоматически добавлены кнопочки со сгенеренными вопросами для погрудения в тему. Кликаешь на кнопочку - выбирается релевантый AI агент, он использует внутренние API + Bing, на основе собранной информации генерится ответ (суммаризация и использование внутренних API для добавления ссылок и других интерактивных элементов). В целом стандартный дизайн RAG.
Overall design
Задизайнить систему и сделать первое решение (routing на агента, retrieval, generation) было довольно просто - простое решение заработало уже через несколько дней.
По принципу Парето, получить 80% необходимой фунциональности было не так сложно, как оставшиеся 20%.
Для routing/retrieval использовали маленькие модели, для generation - большие. Метрики мерили для каждого из трёх элементов отдельно.
Development speed
Изначально была попытка максимально параллелизировать разработку, например, чтобы каждого агента делали разные люди. Но пошла фрагментация, разные подходы к разработке и дизайну, и всё стало сложно.
Итоговый подход - есть центральная команда, разрабатывающая сам сервис, оценку качества (это было очень важно), UI/UX, шаблоны, инструментарий и общие подходы. И отдельные команды, которые делают своих агентов с учётов обговорённых стандартов.
Но это всё было "просто". Дальше пошло то, что было сложно.
Evaluation
Во-первых, нужно было разработать гайдлайны и принципы ответов на разные вопросы. Например, юзер открыл вакансию, нажал кнопочку "Assess my fit for this job" - просто ответить "вы не подходите" это не вариант. Лучше рассказать ему какие у него пробелы в навыках и как их закрыть.
Ускорение процесса разметки. Вначале все (продакты, инженеры, дизайнеры) давали разрозненные советы и неконсистентную разметку, что явно работало плохо. Для решения проблемы была разработана собственная система для разметки данных и для подсчёта разнообразных метрик (overall quality score, hallucination rate, Responsible AI violation, coherence, style).
Есть попытки автоматизировать разметку, но они работают плохо - особенно для ловли галлюцинаций.
Calling internal APIs
У LinkedIn полно внутренних API, которые могут предоставлять информацию о людях, компаниях и делать многое другое. Естественно, публичные LLM не знают о них и не могут их исользовать. Для их использования были разработаны "навыки". Описание навыков включает общее описание, API параметры, описание формата input/output, бизнес логика.
Вначале пробовали использовать JSON формат, но в итоге выбрали YAML, поскольку он менее verbose, а значит использует меньше токенов. В 90% случаев всё работало норм, но было 10% ошибок. Попробовали делать повторный вызов LLM для исправления ошибок - работало, но требовало больше ресурсов. После ряда экспериментов провоели анализ ошибок, обновили промпты и сделали постпроцессинг для устранения ошибок - в результате их стало около 0.01%.
Consistent quality
За первый месяц удалось покрыть примерно 80% необходимого функционала... затем ушло ещё четыре месяца, чтобы достичь и попытаться превзойти 95%. Во-первых, очень сложно бороться с галлюцинациями. Во-вторых, вначале качество решения росло быстро, а потом вышло на плато.
Blogpost
#datascience
LinkedIn недавно выкатил новую фичу - во многих местах появились кнопочки, которые вызывают ассистента чат-бота, отвечающего на вопросы. Пару недель назад вышел блогпост от их команды, где они делятся опытом разработки этого решения. В целом, если вы уже разрабатывали подобные решения, то большинство выводов должны быть знакомы и понятны. Если же нет - рекомендую почитать.
Основные/интересные моменты из блогпоста:
Многие идеи, которые они пробовали, не сработали.
Overview
Как в целом работает решение: видишь в ленте интересный пост на новую для тебя тему, к этому посту автоматически добавлены кнопочки со сгенеренными вопросами для погрудения в тему. Кликаешь на кнопочку - выбирается релевантый AI агент, он использует внутренние API + Bing, на основе собранной информации генерится ответ (суммаризация и использование внутренних API для добавления ссылок и других интерактивных элементов). В целом стандартный дизайн RAG.
Overall design
Задизайнить систему и сделать первое решение (routing на агента, retrieval, generation) было довольно просто - простое решение заработало уже через несколько дней.
По принципу Парето, получить 80% необходимой фунциональности было не так сложно, как оставшиеся 20%.
Для routing/retrieval использовали маленькие модели, для generation - большие. Метрики мерили для каждого из трёх элементов отдельно.
Development speed
Изначально была попытка максимально параллелизировать разработку, например, чтобы каждого агента делали разные люди. Но пошла фрагментация, разные подходы к разработке и дизайну, и всё стало сложно.
Итоговый подход - есть центральная команда, разрабатывающая сам сервис, оценку качества (это было очень важно), UI/UX, шаблоны, инструментарий и общие подходы. И отдельные команды, которые делают своих агентов с учётов обговорённых стандартов.
Но это всё было "просто". Дальше пошло то, что было сложно.
Evaluation
Во-первых, нужно было разработать гайдлайны и принципы ответов на разные вопросы. Например, юзер открыл вакансию, нажал кнопочку "Assess my fit for this job" - просто ответить "вы не подходите" это не вариант. Лучше рассказать ему какие у него пробелы в навыках и как их закрыть.
Ускорение процесса разметки. Вначале все (продакты, инженеры, дизайнеры) давали разрозненные советы и неконсистентную разметку, что явно работало плохо. Для решения проблемы была разработана собственная система для разметки данных и для подсчёта разнообразных метрик (overall quality score, hallucination rate, Responsible AI violation, coherence, style).
Есть попытки автоматизировать разметку, но они работают плохо - особенно для ловли галлюцинаций.
Calling internal APIs
У LinkedIn полно внутренних API, которые могут предоставлять информацию о людях, компаниях и делать многое другое. Естественно, публичные LLM не знают о них и не могут их исользовать. Для их использования были разработаны "навыки". Описание навыков включает общее описание, API параметры, описание формата input/output, бизнес логика.
Вначале пробовали использовать JSON формат, но в итоге выбрали YAML, поскольку он менее verbose, а значит использует меньше токенов. В 90% случаев всё работало норм, но было 10% ошибок. Попробовали делать повторный вызов LLM для исправления ошибок - работало, но требовало больше ресурсов. После ряда экспериментов провоели анализ ошибок, обновили промпты и сделали постпроцессинг для устранения ошибок - в результате их стало около 0.01%.
Consistent quality
За первый месяц удалось покрыть примерно 80% необходимого функционала... затем ушло ещё четыре месяца, чтобы достичь и попытаться превзойти 95%. Во-первых, очень сложно бороться с галлюцинациями. Во-вторых, вначале качество решения росло быстро, а потом вышло на плато.
Blogpost
#datascience
🔥5👍2
Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models
Исследователи из Microsoft предложили метод Visualization-of-Thought для улучшения пространственного мышления LLMs. VoT визуализирует процессы рассуждения моделей, что значительно улучшает их способности в таких задачах, как natural language navigation, visual navigation и visual tiling in 2D grid worlds. Результаты экспериментов показали, что VoT не только улучшает пространственное мышление LLMs, но и превосходит существующие мультимодальные модели MLLMs.
В целом звучит интересно, может быть альтернативой Chain-of-thought в некоторых задачах.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Исследователи из Microsoft предложили метод Visualization-of-Thought для улучшения пространственного мышления LLMs. VoT визуализирует процессы рассуждения моделей, что значительно улучшает их способности в таких задачах, как natural language navigation, visual navigation и visual tiling in 2D grid worlds. Результаты экспериментов показали, что VoT не только улучшает пространственное мышление LLMs, но и превосходит существующие мультимодальные модели MLLMs.
В целом звучит интересно, может быть альтернативой Chain-of-thought в некоторых задачах.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍4
Falcon 2 - новая версия Falcon
Пока все ждут новостей от OpenAI, неожиданно появился Falcon 2 - казалось, что про Falcon уже все забыли. Опубликовали Falcon 2 11B и Falcon 2 11B VLM (для vision-to-language).
"Falcon 2 11B surpasses the performance of Meta’s newly launched Llama 3 with 8 billion parameters(8B), and performs on par with Google’s Gemma 7B at first place". Судя по метрикам обгоняет базовые Llama 3-7B и Mistral-7B. Но вот почему сравнивают 11B и 7B - загадка.
Blogpost
HuggingFace
#datascience
Пока все ждут новостей от OpenAI, неожиданно появился Falcon 2 - казалось, что про Falcon уже все забыли. Опубликовали Falcon 2 11B и Falcon 2 11B VLM (для vision-to-language).
"Falcon 2 11B surpasses the performance of Meta’s newly launched Llama 3 with 8 billion parameters(8B), and performs on par with Google’s Gemma 7B at first place". Судя по метрикам обгоняет базовые Llama 3-7B и Mistral-7B. Но вот почему сравнивают 11B и 7B - загадка.
Blogpost
HuggingFace
#datascience
🔥5
Forwarded from ODS Events
Сап чат!
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций👀
12 оффлайн площадок уже открыты — можно регистрироваться🔥
24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы🤗
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉
В этом году мы чутка нарастили и программу и географию и число локаций
12 оффлайн площадок уже открыты — можно регистрироваться
24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!
На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы
Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста
Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1
Chameleon: Mixed-Modal Early-Fusion Foundation Models
Chameleon — это семейство early-fusion token-based mixed-modal моделей, способных понимать и генерировать изображения и текст в произвольной последовательности. Модели оценивали на различных задачах, включая visual question answering, image captioning, text generation, image generation и long-form mixed modal generation. Chameleon показывает выдающиеся способности, включая SOTA результаты в image captioning, превосходит Llama-2 в текстовых задачах и достигает результатов сравнимых с Mixtral 8x7B и Gemini-Pro. Также модель справляется со сложной генерацией изображений и по оценкам людей превосходит более крупные модели, такие как Gemini Pro и GPT-4V, в задачах mixed-modal generation.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
Chameleon — это семейство early-fusion token-based mixed-modal моделей, способных понимать и генерировать изображения и текст в произвольной последовательности. Модели оценивали на различных задачах, включая visual question answering, image captioning, text generation, image generation и long-form mixed modal generation. Chameleon показывает выдающиеся способности, включая SOTA результаты в image captioning, превосходит Llama-2 в текстовых задачах и достигает результатов сравнимых с Mixtral 8x7B и Gemini-Pro. Также модель справляется со сложной генерацией изображений и по оценкам людей превосходит более крупные модели, такие как Gemini Pro и GPT-4V, в задачах mixed-modal generation.
Paper link
Мои обзоры:
Personal blog
Medium
Linkedin Pulse
#paperreview
👍4🔥1
Anthropic: Mapping the Mind of a Large Language Model
Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.
Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.
Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.
А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)
Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.
Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.
Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.
#datascience
Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.
Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.
Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.
А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)
Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.
Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.
Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.
#datascience
🔥11👍1
Отголоски Kaggle
Я уже довольно давно забросил Kaggle - нет ни времени, ни мотивации, ни интереса, но уведомления от Kaggle на почту время от времени приходят.
Сегодня я получил уведомление о том, что мой ноутбук форкнули 1к раз. Удивительно, но приятно.
#datascience
Я уже довольно давно забросил Kaggle - нет ни времени, ни мотивации, ни интереса, но уведомления от Kaggle на почту время от времени приходят.
Сегодня я получил уведомление о том, что мой ноутбук форкнули 1к раз. Удивительно, но приятно.
#datascience
🔥16👍5🤯2