Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
69 photos
8 videos
494 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​Kaggle перешёл на тёмную сторону силы

На Kaggle появился... dark mode.

https://www.kaggle.com/discussions/product-feedback/480266

Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁

#datascience
🌚16😁4🔥32
Stability AI vs Midjourney: драма 🍿

Сейчас развивается драма с обвинениями.

В субботу у Midjourney были проблемы на сервере - что-то типа DDOS-атаки. Кто-то пытался скрейпить пары промптов и картинок. Нашли, что вроде как у виновника e-mail Stability AI. Забанили всех сотрудников Stability AI.

https://twitter.com/aliejules/status/1765485264091128033

Но... Emad из Stability AI ответил, что он не в курсе. Мол, они используют синтетические и прочие данные и ничего не скрейпят. Заявил, что начинают внутренние расследования.

https://twitter.com/EMostaque/status/1765495422561206507

Основатель Stability AI написал, что высылает ему информацию для помощи в этом расследовании.

https://twitter.com/DavidSHolz/status/1765506365764550868

Ну что ж, будем наблюдать за развитием событий.

#datascience
👀5👍1🫡1
​​Пре-тренировка Llama 7B на NVIDIA RTX 4090

Интересная статья GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. Авторы предлагают использовать Gradient Low-Rank Projection - делают эффективный по памяти full-parameter learning. В результате Llama 7B умещается в 24GB GPU. Причём без checkpointing или offloading. Звучит многообещающе.

#datascience
🔥8👍1
Тренировка моделей на 70B на двух 24GB GPU

В продолжение моего предыдущего поста: Jeremy Howard опубликовал первый проект своей новой R&D лаборатории - open source проект на основе FSDP + QLoRA, позволяющий тренировать модели размером 70B всего на двух геймерских GPU.

QLoRA позволяет тренировать модель 70B на 35GB памяти при ужатии до 4 bits, а FSDP помогает делать эффективную тренировку multi-gpu.

Блогпост
Репозиторий

#datascience
🔥10
Обзор соревнований по ML за 2023 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/

Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;

#datascience
🔥7👍3
​​NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

NaturalSpeech 3 - новая TTS, использующая модели factorized diffusion для генерации естественной речи в режиме zero-shot. Система разделяет речь на подпространства (контент, просодия, тембр, акустические детали) с помощью нейронного кодека с факторизованным векторным квантованием (FVQ), что позволяет эффективно и точно моделировать сложные аспекты речи. Показывает лучшие результаты по качеству, схожести, просодии и понятности речи по сравнению с существующими системами TTS, дополнительно масштабируется до 1B параметров и 200K часов обучающих данных.

Paper link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

В прошлом году я писал обзор и на NaturalSpeech2.

#paperreview
👍41
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
Мамка-менеджер

Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами

Вот вам ответочка от собирательного «чайка-менеджера»

Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же они разбили вазу выкатили релиз с багами, поссорились с соседней командой и придумали новое SOTA решение, которое невозможно катнуть в прод. На разных грейдах дети выглядят чуть по-разному

Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”

Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»

Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?

Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*


Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия

В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂

Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥

P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом пост когда перестанет так сильно подгорать когда-нибудь)

@ml4value
👍52
​​Я прошёл курс немецкого языка на испанском на Duolingo

В прошлом октябре я уже писал, что прошёл курс немецкого языка на Duolingo: https://news.1rj.ru/str/datastorieslanguages/51

На встречах по языковому обмену у меня была небольшая проблема - когда я говорил на немецком, я часто переходил на испанский, когда не знал, как выразить какую-то мысль. Я хотел исправить это, и мне в голову пришла идея - возможно мне стоит практиковать оба языка вместе, чтобы уметь выражать одинаковые мысли на каждом из них. В целом, я считаю, что изучать два языка одновременно - не самая лучшая идея, но в моём случае я уже знал оба языка, и хотел дополнительно тренироваться в них. Вот так я и решил пройти курс на Duolingo по изучению немецкого языка с немецкого.

Первые уроки были простыми, дальше пошли сложности - я то не знал слова на одном языке, то на другом. Плюс нередко путался в артиклях. Но прогресс постепенно шёл, и вот сегодня я закончил этот курс. Впечатления смешанные. С одной стороны, я теперь могу говорить на немецком, не переходя на испанский. Плюс знания немецкого явно выросли. Но я вижу у себя ряд проблем в грамматике: иногда неправильно склоняю pronouns, в целом довольно часто делаю ошибки в формах артиклей, и путаюсь в сложных формах времён (past perfect, subjunctive). Но, с другой стороны, Duolingo - инструмент для практики, а не для изучения грамматики. И эту роль он выполняет вполне успешно.

Ещё несколько мыслей о самом Duolingo:
• я встречал несколько странных багов. Например, упражнения для исправления ошибок иногда повторялись несколько раз - такое ощущение, что кэш не чистился;
• иногда pro версия делает упражнения слишком простыми. Например, в обычной версии, если делаешь больше N ошибок, то надо проходить урок заново, а в pro версии количество ошибок не ограничено. Из-за этого, когда я замечал, что делают слишком много ошибок в одном уроке, то сам закрывал его и проходил заново;
• сложность упражнений не консистентна. Иногда проходишь одно упражнение вообще без ошибок, в следующем делаешь ошибки в каждом втором вопросе;

В любом случае, я доволен прогрессом и считаю, что пройти этот курс было полезно.

Сейчас для практики немецкого я читаю новости и книги, а также слушаю аудиокниги. Плюс создаю и повторяю карточки в Anki. Помимо этого, планирую целенаправленно тренировать слабые знания грамматики.

А вот изучать японский я точно буду без Duolingo.

#languages
🔥5👏2
​​Когда ты забыл добавить guardrails к своему чат-боту

Говорят, что Amazon начинает тестировать своего чат-бота (официальная ссылка). Но, похоже, в него забыли добавить guardrails.

https://twitter.com/QuinnyPig/status/1767568319236972901

#datascience
😁7
​​Анализ open source AI инструментов от Chip Huyen
Chip Huyen выложила очередной годный блогпост, на этот раз про open source AI. Если вы ещё не слышали это имя - обязательно почитайте её блог, в нём полно очень полезной и интересной информации.

Кратко суть:
• спарсила 845 реп на github для анализа. Графики показывают, что после публикации SD и ChatGPT был всплеск новых проектов, но сейчас стало чуть спокойнее;
• она выделила 4 типа репозиториев: инфра, разработка моделей, разработка приложений, сами приложения
• среди приложений самые популярные варианты это чат-боты, написание кода, сбор информации, генерация картинок и автоматизация. Неудивительно.
• в последние пару лет появилось много решений для оптимизации инференса (квантизация, прунинг, lora)
• у топ-20 аккаунтов (openai, microsoft, huggingface, etc) 23% от всех репо в списке
• китайцы становятся всё активнее на гитхабе
• интересный факт - было немало репозиториев, которые после запуска собрали кучу звёздочек, а потом умерли

В блогпосте есть ещё много интересного.

#datascience
👍6🔥2
​​Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Интересная статья от Spotify о том, как они разрабатывали рекомендашки для аудиокниг. Аудиокниги появились на их платформе совсем недавно, их нужно было как-то рекомендовать, в том числе решать вопрос холодного старта. Используя предпочтения пользователей по подкастам и музыке, разработали 2T-HGNN, сочетающая HGNNs и Two Tower. В результате получили значительное улучшение в рекомендациях аудиокниг, увеличив запуск новых аудиокниг на 46% и streaming rate на 23%.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse


#paperreview
🔥8
Assistant -> Gemini

Сегодня мне мой телефон предложил сменить дефолтного помощника на Gemini. Выглядит хайпово. Вот так AI приходит в массы.
🔥6👍3
Forwarded from Dealer.AI
Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.

Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
💔81
​​Chronos: Learning the Language of Time Series

Chronos — фреймворк от Amazon для претренировки моделей на временных рядах. Использует квантизацию и нормализацию данных для получения словарь с фиксированным размером и тренирует модели на основе архитектуры T5 с использованием cross-entropy. Обучают на публичных и синтетических данных, в результате получают отличное качество, в том числе на zero-shot learning.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4👍2
​​AI в Linkedin Premium

Компании всё активнее используют "AI" в своих продуктах, и вот сегодня я заметил новую фичу в Linkedin: в ленте теперь можно нажать кнопочку "Takeaways" и получить суммаризацию поста (видимо для совсем уж ленивых, ибо посты обычно итак короткие), а можно попросить "AI" кратко рассказать о человеке, а потом поболтать с чат-ботом. Кстати, поскольку в окошке именно чат-бот, можно поболтать о чём угодно, попросить написать код и так далее 😁видимо, пока guardrails не запилили.
😁2👍1
​​No more Lena in ML papers

Долгие годы в статьях по ML использовалась знаменитая фотография Lena. Но постепенно это стало не модно, поскольку полная версия фото была использована в журнале Playboy.

Кто не в курсе, можно почитать тут.

И вот недавно было объявлено, что статьи с этой фотографией не будут приниматься на конференцию IEEE.

Ушла эпоха. Но ничего, уже есть много альтернатив, например, такой прекрасный вариант - https://mortenhannemose.github.io/lena/

#datascience
😁8👍2🔥2🤔1
​​Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

Vision-RWKV - адаптация RWKV для CV. Умеет работать со sparse inputs и с картинками большого разрешения (до 2048х2048). Уверяют, что лучше VIT для классификации. И показывают отличные результаты в object detection и semantic segmentation.
Выглядит интересно. RWKV пилили довольно долго, и вот теперь появляются результаты.
С другой стороны, вроде уже было доказано, что при достаточном объёме тренировочных данных сама архитектура менее важна.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥7
​​2024 Machine Learning, AI & Data Landscape

Ребята каждый год (кроме 2022) выпускают огромный и насыщенный обзор текущего состояния Data & AI. Включают список топовых компаний, инструментов и платформ. Описывают основные тренды и изменения статуса кво. Рассказывают о финансовых аспектах - оценка компаний, слияния и поглощения, IPO.

Советую почитать, познавательно и интересно.

Landscape
Блогпост

#paperreview
🔥6👍3
Amazon Fresh: индусы за экраном или же нет?

Сейчас на многих новостных платформах трубят, что инициатива Amazon Fresh была фейком.

https://www.engadget.com/amazon-just-walked-out-on-its-self-checkout-technology-191703603.html

Напомню, что идея была в том, что покупатели ходят по магазину, складывают товары в тележки, а потом просто уходят. Умная система следит за взятыми товарами и потом списывает стоимость покупок со счёта.

И вот сейчас уверяют, что это толпа индусов следила за покупателями в реальном времени:

 the stores have no actual cashiers, there are reportedly over 1,000 real people in India scanning the camera feeds to ensure accurate checkouts.


Я решил поискать первоисточник и нашёл вот такое:
https://gizmodo.com/amazon-reportedly-ditches-just-walk-out-grocery-stores-1851381116

Там цитата совершенно другая:
 primary role of our Machine Learning data associates is to annotate video images, which is necessary for continuously improving the underlying machine learning model powering


Но дальше есть ещё одна интересная фраза:
 the spokesperson acknowledged these associates validate “a small minority” of shopping visits when AI can’t determine a purchase.


В целом мы вряд ли узнаем правду, но мне кажется, что было два процесса:
• ручная разметка видео для улучшения моделей
• модели работали плохо, и результаты часто приходилось проверять и исправлять

#datascience
👍9😁6
Новый AutoML "outperforming approximately 50% of human data scientists" on Kaggle. Wait, what?

Читаю статью об очередном AutoML. Вижу цитату, что мол он бьёт 50% DS на некоторых соревнованиях на Kaggle. Для незнающих людей это может показаться впечатляющимся, для тех кто разбирается, это не успех, а пшик.

Но я настолько офигел от абсурдности этого заявления, что решил почитать подробнее.

Компания утверждает, что разработала "AI-powered data science agent". Мол, самое впечатляющее - "its ability to autonomously understand competition requirements, design and implement solutions, and generate submission files, all without any human intervention".

В результатах пишут, что обгоняют AutoML от H20, а также Langchain (wtf, это-то здесь при чём?) и ChatGPT (with human assistance).

В репозитории пока мало информации - табличка с результатами и код для их достижения (скриншотов сабмитов нет).

https://github.com/WecoAI/aideml?tab=readme-ov-file

Окей, давайте посмотрим на результаты:
Допустим, что нас интересуют соревнования, где модель попала в топ 5% - уровень серебра. Таких сорев 6 - четыре в топ-0% (видимо лучше максимума), две в топ-5%

Все четыре соревнования с результатами в топ-0% - tabular playground competitions. Это игрушечные соревнования, где данные нередко просто сгенерированы.
Мне лень запускать код сгенерированных решений, но я очень сильно, что результат соответствует заявленному (см скриншот).

Первое из соревнований, где результат топ-5% - соревнование... девятилетней давности. Второе - классическое соревнование Housing Prices Competition, в котором участвуют новички.

В общем, очень сомнительные результаты.

https://www.weco.ai/blog/technical-report

#datascience
😁7🔥3👍1
​​Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

VAR (Visual AutoRegressive modeling) - новый подход к autoregressive тренировке моделей для генерации картинок, работающий как next-scale prediction / next-resolution prediction вместо next-token prediction. В результате на ImageNet 256x256 этот подход обошёл модели диффуризий (правда сравнивали лишь с DiT) уменьшил FID с 18.65 до 1.80 и увеличил IS с 80.4 до 356.4, при этом скорость инференса увеличилась в 20 раз. VAR также демонстрирует power-law scaling laws аналогично LLM.

Звучит интересно, но вот с современными моделями типа SD не стали сравнивать.

Paper link
Code link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥2