Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
67 photos
8 videos
493 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
Новый AutoML "outperforming approximately 50% of human data scientists" on Kaggle. Wait, what?

Читаю статью об очередном AutoML. Вижу цитату, что мол он бьёт 50% DS на некоторых соревнованиях на Kaggle. Для незнающих людей это может показаться впечатляющимся, для тех кто разбирается, это не успех, а пшик.

Но я настолько офигел от абсурдности этого заявления, что решил почитать подробнее.

Компания утверждает, что разработала "AI-powered data science agent". Мол, самое впечатляющее - "its ability to autonomously understand competition requirements, design and implement solutions, and generate submission files, all without any human intervention".

В результатах пишут, что обгоняют AutoML от H20, а также Langchain (wtf, это-то здесь при чём?) и ChatGPT (with human assistance).

В репозитории пока мало информации - табличка с результатами и код для их достижения (скриншотов сабмитов нет).

https://github.com/WecoAI/aideml?tab=readme-ov-file

Окей, давайте посмотрим на результаты:
Допустим, что нас интересуют соревнования, где модель попала в топ 5% - уровень серебра. Таких сорев 6 - четыре в топ-0% (видимо лучше максимума), две в топ-5%

Все четыре соревнования с результатами в топ-0% - tabular playground competitions. Это игрушечные соревнования, где данные нередко просто сгенерированы.
Мне лень запускать код сгенерированных решений, но я очень сильно, что результат соответствует заявленному (см скриншот).

Первое из соревнований, где результат топ-5% - соревнование... девятилетней давности. Второе - классическое соревнование Housing Prices Competition, в котором участвуют новички.

В общем, очень сомнительные результаты.

https://www.weco.ai/blog/technical-report

#datascience
😁7🔥3👍1
​​Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

VAR (Visual AutoRegressive modeling) - новый подход к autoregressive тренировке моделей для генерации картинок, работающий как next-scale prediction / next-resolution prediction вместо next-token prediction. В результате на ImageNet 256x256 этот подход обошёл модели диффуризий (правда сравнивали лишь с DiT) уменьшил FID с 18.65 до 1.80 и увеличил IS с 80.4 до 356.4, при этом скорость инференса увеличилась в 20 раз. VAR также демонстрирует power-law scaling laws аналогично LLM.

Звучит интересно, но вот с современными моделями типа SD не стали сравнивать.

Paper link
Code link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2
​​Минутка размышлений

Так ли плохо работают LLM?
😁16🥴2
​​После появления AI, играющего в Go, люди стали играть лучше и креативнее

В последнее время всё больше и больше говорят о негативных последствиях AI - о потере рабочих мест, о замещении художников и представителей креативных профессий, о том, что использование AI приводит к снижению среднего уровня результатов.

Поэтому мне всегда интересно почитать о позитивных последствиях.

https://www.henrikkarlsson.xyz/p/go

В статье пишут, что после появлени AlphaGo резко заметно выросла креативность людей, играющих в Go. Метрика - decision quality. Что это за метрика, я не совсем понял, вроде средняя вероятность того, что ходы приведут к победе.

Можно предположить, что за долгие годы сложился определенный статус кво. Люди играют по привычным паттернам и не думают о том, что можно играть по-другому. Но когда появляется AI, который играет лучше и по-другому, возможно у людей появляются идеи и вдохновление пробовать новые подходы.
🔥31👍1
Новый виток борьбы вокруг Copyrights в Generative AI

В Америке предложили Bill под названием "Generative AI Copyright Disclosure Act". Ключевая фраза:

"""A person who creates a training dataset, or alters a training dataset (includ8 ing by making an update to, refining, or retraining the dataset) in a significant manner, that is used in building a generative AI system shall submit to the Register a notice that contains a sufficiently detailed summary of any copyrighted works used"""

https://schiff.house.gov/imo/media/doc/the_generative_ai_copyright_disclosure_act.pdf

То есть теперь компании, которые скрапят интернет и тренируют модельки, должны сообщать о том, сколько закопирайченного контента они собрали. И при каждом обновлении, надо подготавливать документ с изменениями.

Пока не ясно будут ли наказания за использование стыренного контента, но сама необходимость постоянно готовить документы по каждому изменению - это дорого, удар по стартапам. И точно не получится иметь "секретные" датасеты, приносящие успех.

В твиттере уже полно срачей.
Один из оригинальных - тут: https://twitter.com/jess_miers/status/1777799284907257999 Здесь пишут о том, какой акт плохой, какой сильный удар он наносит по стартапам.
И, конечно, есть представители другой позиции https://twitter.com/Kelly_McKernan/status/1778587146577694748 которые говорят, что это проблема самих стартапов, если они не могут по закону работать с данными.

Будет любопытно наблюдать за тем примут этот bill или нет.
🔥4👍1
​​Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

В январе я уже писал обзор на Ferret от Apple, а теперь вышла новая версия.

Ferret-v2 включает в себя три ключевых изменения: гибкое решение для работы с изображениями любого разрешения, интеграция дополнительного энкодера DINOv2 для обработки информации на разных уровнях детализации и тренировка в три этапа - image-caption alignment, high-resolution dense alignment и instruction tuning. Эксперименты показывают, что Ferret-v2 значительно превосходит предыдущую версию и другие SOTA подходы (ну кто же будет писать в статье, что их модель не лучшая).

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥3👍1
​​Ливни в Дубае

Сегодня в Дубае редкая погода - сильнейшие ливни. За день уже три волны дождя с громом и молниями. По сети бродит множество фото и видео происходящего.

#life
😱3
​​AutoML Grand Prix

На Kaggle объявили новую активность: предлагают отдельные приза за успехи automl на табличных соревнованиях. Это будет продолжаться с мая по сентябрь. Обязательно делиться подробным описанием решения. Ну что ж, наконец-то мы узнаем, какие инструменты AutoML лучшие :)

#datascience
🔥91👍1
​​Chip Huyen: Theseus - GPU-native query engine
Chip Huyen, известная своими блогпостами (и не только) поделилась информацией о том, чем занималась в последнее время - GPU-native query engine. Уверяет, что это намного эффективнее. Theseus сравнивают со Spark, пишут, что он лучше когда данных хотя бы... 100TB.

Интересно было бы увидеть сравнение с RAPIDS.

#datascience
🔥4
LLAMA 3 на ваших экранах
Meta выпустила долгожданную Llama 3. Что известно на текущий момент:

https://llama.meta.com/llama3/ - сайт с кучей информации. Из минусов - нет ни статьи, ни нормального отчёта о тренировке
• Тренировали 100500 часов... то есть 7 миллионов GPU-часов. И ещё не до конца - модель на 400B всё ещё тренируется
• Сравнить с Llama 2 можно тут: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#base-pretrained-models все метрики заметно улучшились
• Судя по отрывку из блогпоста, в подходе к самой модели особо ничего не изменилось - улучшили токенизатор, тренируют на 8192 токенах, используют grouped query attention. Видимо основная причина улучшения - в кропотливом улучшении датасетов.
https://www.meta.ai/ - сделали сайт, где можно поиграться с моделью. К сожалению, в ОАЭ не работает
https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/ - интегрировали модель везде где только можно: чат-бот для рекомендации развлечений, помощь в профессиональных задачах. Добавили в Facebook, Instagram, WhatsApp, Messenger. Есть даже в Facebook Feed. И картинки тоже умеет генерить. И это всё не полный список.
🔥6
Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
https://arxiv.org/abs/2404.14219

Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.

Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
🔥2
​​FlowMind: Automatic Workflow Generation with LLMs

Статья от JPMorgan. Предлагают новый подход к Robotic Process Automation - FlowMind, использующий возможности LLM для создания системы автоматической генерации рабочих процессов. Тут я мог бы написать, что мол они сделали что-то крутое и впечатляющее... но если честно, статья - это скорее technical report. Авторы взяли LLM, в промпте задают роль, список возможных инструментов и описывают задачу. На выходе, на основе запроса юзера, генерится питоновский код с использованием этих инструментов. Юзер может написать, что что-то сработало не так, и результат перегенерится с учётом поправки. Ну и потом код запускается. Всё.

Справедливости ради, основной плюс всего этого - LLM не лезет в приватные данные, а лишь использует разрешённые инструменты.

Ах да, ещё авторы собрали свой собственный датасет, и (о, неожиданность) их подход оказался лучшим на этом датасете.


Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2😁2
​​LinkedIn: Musings on building a Generative AI product

LinkedIn недавно выкатил новую фичу - во многих местах появились кнопочки, которые вызывают ассистента чат-бота, отвечающего на вопросы. Пару недель назад вышел блогпост от их команды, где они делятся опытом разработки этого решения. В целом, если вы уже разрабатывали подобные решения, то большинство выводов должны быть знакомы и понятны. Если же нет - рекомендую почитать.

Основные/интересные моменты из блогпоста:

Многие идеи, которые они пробовали, не сработали.

Overview

Как в целом работает решение: видишь в ленте интересный пост на новую для тебя тему, к этому посту автоматически добавлены кнопочки со сгенеренными вопросами для погрудения в тему. Кликаешь на кнопочку - выбирается релевантый AI агент, он использует внутренние API + Bing, на основе собранной информации генерится ответ (суммаризация и использование внутренних API для добавления ссылок и других интерактивных элементов). В целом стандартный дизайн RAG.

Overall design

Задизайнить систему и сделать первое решение (routing на агента, retrieval, generation) было довольно просто - простое решение заработало уже через несколько дней.

По принципу Парето, получить 80% необходимой фунциональности было не так сложно, как оставшиеся 20%.

Для routing/retrieval использовали маленькие модели, для generation - большие. Метрики мерили для каждого из трёх элементов отдельно.

Development speed

Изначально была попытка максимально параллелизировать разработку, например, чтобы каждого агента делали разные люди. Но пошла фрагментация, разные подходы к разработке и дизайну, и всё стало сложно.

Итоговый подход - есть центральная команда, разрабатывающая сам сервис, оценку качества (это было очень важно), UI/UX, шаблоны, инструментарий и общие подходы. И отдельные команды, которые делают своих агентов с учётов обговорённых стандартов.

Но это всё было "просто". Дальше пошло то, что было сложно.

Evaluation

Во-первых, нужно было разработать гайдлайны и принципы ответов на разные вопросы. Например, юзер открыл вакансию, нажал кнопочку "Assess my fit for this job" - просто ответить "вы не подходите" это не вариант. Лучше рассказать ему какие у него пробелы в навыках и как их закрыть.

Ускорение процесса разметки. Вначале все (продакты, инженеры, дизайнеры) давали разрозненные советы и неконсистентную разметку, что явно работало плохо. Для решения проблемы была разработана собственная система для разметки данных и для подсчёта разнообразных метрик (overall quality score, hallucination rate, Responsible AI violation, coherence, style).

Есть попытки автоматизировать разметку, но они работают плохо - особенно для ловли галлюцинаций.

Calling internal APIs

У LinkedIn полно внутренних API, которые могут предоставлять информацию о людях, компаниях и делать многое другое. Естественно, публичные LLM не знают о них и не могут их исользовать. Для их использования были разработаны "навыки". Описание навыков включает общее описание, API параметры, описание формата input/output, бизнес логика.

Вначале пробовали использовать JSON формат, но в итоге выбрали YAML, поскольку он менее verbose, а значит использует меньше токенов. В 90% случаев всё работало норм, но было 10% ошибок. Попробовали делать повторный вызов LLM для исправления ошибок - работало, но требовало больше ресурсов. После ряда экспериментов провоели анализ ошибок, обновили промпты и сделали постпроцессинг для устранения ошибок - в результате их стало около 0.01%.

Consistent quality

За первый месяц удалось покрыть примерно 80% необходимого функционала... затем ушло ещё четыре месяца, чтобы достичь и попытаться превзойти 95%. Во-первых, очень сложно бороться с галлюцинациями. Во-вторых, вначале качество решения росло быстро, а потом вышло на плато.

Blogpost

#datascience
🔥5👍2
​​Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

Исследователи из Microsoft предложили метод Visualization-of-Thought для улучшения пространственного мышления LLMs. VoT визуализирует процессы рассуждения моделей, что значительно улучшает их способности в таких задачах, как natural language navigation, visual navigation и visual tiling in 2D grid worlds. Результаты экспериментов показали, что VoT не только улучшает пространственное мышление LLMs, но и превосходит существующие мультимодальные модели MLLMs.

В целом звучит интересно, может быть альтернативой Chain-of-thought в некоторых задачах.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍4
​​Falcon 2 - новая версия Falcon

Пока все ждут новостей от OpenAI, неожиданно появился Falcon 2 - казалось, что про Falcon уже все забыли. Опубликовали Falcon 2 11B и Falcon 2 11B VLM (для vision-to-language).

"Falcon 2 11B surpasses the performance of Meta’s newly launched Llama 3 with 8 billion parameters(8B), and performs on par with Google’s Gemma 7B at first place". Судя по метрикам обгоняет базовые Llama 3-7B и Mistral-7B. Но вот почему сравнивают 11B и 7B - загадка.

Blogpost

HuggingFace

#datascience
🔥5
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
​​Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon — это семейство early-fusion token-based mixed-modal моделей, способных понимать и генерировать изображения и текст в произвольной последовательности. Модели оценивали на различных задачах, включая visual question answering, image captioning, text generation, image generation и long-form mixed modal generation. Chameleon показывает выдающиеся способности, включая SOTA результаты в image captioning, превосходит Llama-2 в текстовых задачах и достигает результатов сравнимых с Mixtral 8x7B и Gemini-Pro. Также модель справляется со сложной генерацией изображений и по оценкам людей превосходит более крупные модели, такие как Gemini Pro и GPT-4V, в задачах mixed-modal generation.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍4🔥1
​​Anthropic: Mapping the Mind of a Large Language Model

Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.

Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.

Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.

А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)

Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.

Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.

Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.

#datascience
🔥11👍1
​​Отголоски Kaggle

Я уже довольно давно забросил Kaggle - нет ни времени, ни мотивации, ни интереса, но уведомления от Kaggle на почту время от времени приходят.

Сегодня я получил уведомление о том, что мой ноутбук форкнули 1к раз. Удивительно, но приятно.

#datascience
🔥16👍5🤯2
​​YOLOv10: Real-Time End-to-End Object Detection

За последние годы модели YOLO стали ведущим подходом в object detection в real-time. Однако, использование NMS для postprocessing заметно ухудшет latency.

Авторы взяли YOLOv8 и смогли избавиться от NMS, плюс добавили кучу новых штук в архитектуру. Получили SOTA результаты. Например, YOLOv10-S быстрее RT-DETR-R18 в 1.8 раза с меньшим числом параметров и FLOPs. YOLOv10-B имеет на 46% меньш latency и на 25% меньше параметров по сравнению с YOLOv9-C.

Paper link
Code link
Docs link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥13