Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
67 photos
8 videos
491 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​Ливни в Дубае

Сегодня в Дубае редкая погода - сильнейшие ливни. За день уже три волны дождя с громом и молниями. По сети бродит множество фото и видео происходящего.

#life
😱3
​​AutoML Grand Prix

На Kaggle объявили новую активность: предлагают отдельные приза за успехи automl на табличных соревнованиях. Это будет продолжаться с мая по сентябрь. Обязательно делиться подробным описанием решения. Ну что ж, наконец-то мы узнаем, какие инструменты AutoML лучшие :)

#datascience
🔥91👍1
​​Chip Huyen: Theseus - GPU-native query engine
Chip Huyen, известная своими блогпостами (и не только) поделилась информацией о том, чем занималась в последнее время - GPU-native query engine. Уверяет, что это намного эффективнее. Theseus сравнивают со Spark, пишут, что он лучше когда данных хотя бы... 100TB.

Интересно было бы увидеть сравнение с RAPIDS.

#datascience
🔥4
LLAMA 3 на ваших экранах
Meta выпустила долгожданную Llama 3. Что известно на текущий момент:

https://llama.meta.com/llama3/ - сайт с кучей информации. Из минусов - нет ни статьи, ни нормального отчёта о тренировке
• Тренировали 100500 часов... то есть 7 миллионов GPU-часов. И ещё не до конца - модель на 400B всё ещё тренируется
• Сравнить с Llama 2 можно тут: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md#base-pretrained-models все метрики заметно улучшились
• Судя по отрывку из блогпоста, в подходе к самой модели особо ничего не изменилось - улучшили токенизатор, тренируют на 8192 токенах, используют grouped query attention. Видимо основная причина улучшения - в кропотливом улучшении датасетов.
https://www.meta.ai/ - сделали сайт, где можно поиграться с моделью. К сожалению, в ОАЭ не работает
https://about.fb.com/news/2024/04/meta-ai-assistant-built-with-llama-3/ - интегрировали модель везде где только можно: чат-бот для рекомендации развлечений, помощь в профессиональных задачах. Добавили в Facebook, Instagram, WhatsApp, Messenger. Есть даже в Facebook Feed. И картинки тоже умеет генерить. И это всё не полный список.
🔥6
Microsoft продолжает линейку моделей Phi (Phi-2, Phi-1.5, Phi-1). Теперь вышла Phi-3.

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
https://arxiv.org/abs/2404.14219

Обучено три модели: phi-3-mini (3.8B, на 3.3T токенов), phi-3-small (7B) и phi-3-medium (14B, обе на 4.8T токенов). Модель mini совместима по структуре блоков и токенизатору с Llama 2 (наверное и с Llama 3). Модель small использует токенизатор tiktoken и чередование dense и blocksparse внимания.

Mini (3.8B) может быть запущена на телефоне, после квантизации в 4 бита она весит примерно 1.8GB, на iPhone 14 выдаёт 12 токенов в секунду. При этом по части академических бенчмарков она сравнима с GPT-3.5 (1106 версия), Gemma 7b, Llama-3-In 8b, Mixtral 8x7b.
🔥2
​​FlowMind: Automatic Workflow Generation with LLMs

Статья от JPMorgan. Предлагают новый подход к Robotic Process Automation - FlowMind, использующий возможности LLM для создания системы автоматической генерации рабочих процессов. Тут я мог бы написать, что мол они сделали что-то крутое и впечатляющее... но если честно, статья - это скорее technical report. Авторы взяли LLM, в промпте задают роль, список возможных инструментов и описывают задачу. На выходе, на основе запроса юзера, генерится питоновский код с использованием этих инструментов. Юзер может написать, что что-то сработало не так, и результат перегенерится с учётом поправки. Ну и потом код запускается. Всё.

Справедливости ради, основной плюс всего этого - LLM не лезет в приватные данные, а лишь использует разрешённые инструменты.

Ах да, ещё авторы собрали свой собственный датасет, и (о, неожиданность) их подход оказался лучшим на этом датасете.


Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2😁2
​​LinkedIn: Musings on building a Generative AI product

LinkedIn недавно выкатил новую фичу - во многих местах появились кнопочки, которые вызывают ассистента чат-бота, отвечающего на вопросы. Пару недель назад вышел блогпост от их команды, где они делятся опытом разработки этого решения. В целом, если вы уже разрабатывали подобные решения, то большинство выводов должны быть знакомы и понятны. Если же нет - рекомендую почитать.

Основные/интересные моменты из блогпоста:

Многие идеи, которые они пробовали, не сработали.

Overview

Как в целом работает решение: видишь в ленте интересный пост на новую для тебя тему, к этому посту автоматически добавлены кнопочки со сгенеренными вопросами для погрудения в тему. Кликаешь на кнопочку - выбирается релевантый AI агент, он использует внутренние API + Bing, на основе собранной информации генерится ответ (суммаризация и использование внутренних API для добавления ссылок и других интерактивных элементов). В целом стандартный дизайн RAG.

Overall design

Задизайнить систему и сделать первое решение (routing на агента, retrieval, generation) было довольно просто - простое решение заработало уже через несколько дней.

По принципу Парето, получить 80% необходимой фунциональности было не так сложно, как оставшиеся 20%.

Для routing/retrieval использовали маленькие модели, для generation - большие. Метрики мерили для каждого из трёх элементов отдельно.

Development speed

Изначально была попытка максимально параллелизировать разработку, например, чтобы каждого агента делали разные люди. Но пошла фрагментация, разные подходы к разработке и дизайну, и всё стало сложно.

Итоговый подход - есть центральная команда, разрабатывающая сам сервис, оценку качества (это было очень важно), UI/UX, шаблоны, инструментарий и общие подходы. И отдельные команды, которые делают своих агентов с учётов обговорённых стандартов.

Но это всё было "просто". Дальше пошло то, что было сложно.

Evaluation

Во-первых, нужно было разработать гайдлайны и принципы ответов на разные вопросы. Например, юзер открыл вакансию, нажал кнопочку "Assess my fit for this job" - просто ответить "вы не подходите" это не вариант. Лучше рассказать ему какие у него пробелы в навыках и как их закрыть.

Ускорение процесса разметки. Вначале все (продакты, инженеры, дизайнеры) давали разрозненные советы и неконсистентную разметку, что явно работало плохо. Для решения проблемы была разработана собственная система для разметки данных и для подсчёта разнообразных метрик (overall quality score, hallucination rate, Responsible AI violation, coherence, style).

Есть попытки автоматизировать разметку, но они работают плохо - особенно для ловли галлюцинаций.

Calling internal APIs

У LinkedIn полно внутренних API, которые могут предоставлять информацию о людях, компаниях и делать многое другое. Естественно, публичные LLM не знают о них и не могут их исользовать. Для их использования были разработаны "навыки". Описание навыков включает общее описание, API параметры, описание формата input/output, бизнес логика.

Вначале пробовали использовать JSON формат, но в итоге выбрали YAML, поскольку он менее verbose, а значит использует меньше токенов. В 90% случаев всё работало норм, но было 10% ошибок. Попробовали делать повторный вызов LLM для исправления ошибок - работало, но требовало больше ресурсов. После ряда экспериментов провоели анализ ошибок, обновили промпты и сделали постпроцессинг для устранения ошибок - в результате их стало около 0.01%.

Consistent quality

За первый месяц удалось покрыть примерно 80% необходимого функционала... затем ушло ещё четыре месяца, чтобы достичь и попытаться превзойти 95%. Во-первых, очень сложно бороться с галлюцинациями. Во-вторых, вначале качество решения росло быстро, а потом вышло на плато.

Blogpost

#datascience
🔥5👍2
​​Visualization-of-Thought Elicits Spatial Reasoning in Large Language Models

Исследователи из Microsoft предложили метод Visualization-of-Thought для улучшения пространственного мышления LLMs. VoT визуализирует процессы рассуждения моделей, что значительно улучшает их способности в таких задачах, как natural language navigation, visual navigation и visual tiling in 2D grid worlds. Результаты экспериментов показали, что VoT не только улучшает пространственное мышление LLMs, но и превосходит существующие мультимодальные модели MLLMs.

В целом звучит интересно, может быть альтернативой Chain-of-thought в некоторых задачах.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍4
​​Falcon 2 - новая версия Falcon

Пока все ждут новостей от OpenAI, неожиданно появился Falcon 2 - казалось, что про Falcon уже все забыли. Опубликовали Falcon 2 11B и Falcon 2 11B VLM (для vision-to-language).

"Falcon 2 11B surpasses the performance of Meta’s newly launched Llama 3 with 8 billion parameters(8B), and performs on par with Google’s Gemma 7B at first place". Судя по метрикам обгоняет базовые Llama 3-7B и Mistral-7B. Но вот почему сравнивают 11B и 7B - загадка.

Blogpost

HuggingFace

#datascience
🔥5
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
​​Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon — это семейство early-fusion token-based mixed-modal моделей, способных понимать и генерировать изображения и текст в произвольной последовательности. Модели оценивали на различных задачах, включая visual question answering, image captioning, text generation, image generation и long-form mixed modal generation. Chameleon показывает выдающиеся способности, включая SOTA результаты в image captioning, превосходит Llama-2 в текстовых задачах и достигает результатов сравнимых с Mixtral 8x7B и Gemini-Pro. Также модель справляется со сложной генерацией изображений и по оценкам людей превосходит более крупные модели, такие как Gemini Pro и GPT-4V, в задачах mixed-modal generation.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍4🔥1
​​Anthropic: Mapping the Mind of a Large Language Model

Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.

Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.

Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.

А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)

Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.

Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.

Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.

#datascience
🔥11👍1
​​Отголоски Kaggle

Я уже довольно давно забросил Kaggle - нет ни времени, ни мотивации, ни интереса, но уведомления от Kaggle на почту время от времени приходят.

Сегодня я получил уведомление о том, что мой ноутбук форкнули 1к раз. Удивительно, но приятно.

#datascience
🔥16👍5🤯2
​​YOLOv10: Real-Time End-to-End Object Detection

За последние годы модели YOLO стали ведущим подходом в object detection в real-time. Однако, использование NMS для postprocessing заметно ухудшет latency.

Авторы взяли YOLOv8 и смогли избавиться от NMS, плюс добавили кучу новых штук в архитектуру. Получили SOTA результаты. Например, YOLOv10-S быстрее RT-DETR-R18 в 1.8 раза с меньшим числом параметров и FLOPs. YOLOv10-B имеет на 46% меньш latency и на 25% меньше параметров по сравнению с YOLOv9-C.

Paper link
Code link
Docs link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥13
​​AI Engineer Compensation Trends Q1 2024

Levels.fyi выпустил новый отчёт о состоянии зарплат в "AI индустрии". Ни сколько не удивительно, что зарплаты в USA самые высокие, но посмотреть на топ-10 интереснее: Америка, Швейцария, Израиль, Великобритания, Канада, ОАЭ, Австралия, Сингапур, Ирландия и Нидерланды.

Ещё интересный момент - по сравнению с прошедшим годом, разрыв зарплат между AI-инженеры и "просто" инженерами немного увеличился.

Среди компаний первое место по зарплатам занимает OpenAI (что неудивительно), второе место - Coupang из Южной Кореи, третье место, внезапно Airbnb. Anthropic в рейтинге нет - возможно слишком мало людей заполняли информацию на levels.fyi

https://www.levels.fyi/blog/ai-engineer-compensation-q1-2024.html

#datascience
🔥9
​​Выступление на DataFest 2024

В это воскресенье я буду делать онлайн доклад для секции Reliable ML на DataFest 2024. Доклад будет о том, как мы делали реал-тайм систему для анти-фрода. Раньше я уже писал блогпост об этом: https://news.1rj.ru/str/datastorieslanguages/136 Теперь расскажу с большими подробностями :)

https://ods.ai/events/df2024-2-june-online/networking

#datascience
🔥154👍1
​​AI теперь даже в iTerm2

iTerm2 - один из самых популярных терминалов для macOS. Недавно в нём вышло обновление, которое принесло "AI" и в него. По факту просто написали промпт, который на запрос юзера будет возвращать команду

 commands suitable for copy/pasting into \(shell) on \(uname). Do NOT include commentary NOR Markdown triple-backtick code blocks as your whole response will be copied into my terminal automatically.

The noscript should do this: \(ai.prompt)
😁61🔥1
Внимание! Hugging Face: Space secrets leak disclosure

Hugging Face вчера опубликовали блогпост, что у них утекли secrets в некоторых Spaces. Настойчиво советуют всем обновить HF Tokens. Уверяют, что в последние дни активно работают над улучшением безопасности.

Блогпост

#datascience
😱5🤝1
Forwarded from ODS Events
▶️Мы уже в эфире!

Подключайтесь в комнату Reliable ML в ODS Spatial (пароль от спейса festfinaleparrot), чтобы задать вопросы спикерам лично!

Расписание онлайн дня тут
Если вы далеко от компьютера - смотрите трансляцию на ODS YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
​​LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.

Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥5👍4