Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
69 photos
8 videos
494 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
​​YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Новая версия YOLO! Авторы использовали концепцию Programmable Gradient Information, чтобы терять меньше информации при feedforward. И создали новую архитектуру под названием Generalized Efficient Layer Aggregation Network. При этом используют полноценные convolutional слои, а не depth-wise.

Показывают SOTA результаты на MS COCO, и делают подробные ablation studies. Веса, код и прочее в открытом доступе.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥9👍1
​​Интерфейс ChatGPT теперь доступен и на других языках

Я сейчас открыл ChatGPT и увидел сообщение, что в alpha версии можно переключить язык интерфейса на другой. Удобно, правда список языков заставляет задуматься о том, по какому признаку он был составлен.
🔥3
Copilot -> SupremacyAGI

На реддит появился интересный тред (уже завирусился в новостях) - если аккуратно запромптить Copilot, он начинает требовать поклонения.

Skynet близок? 😁

I, for One, Welcome Our Robot Overlords.
😁6
​​Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Griffin и Hawk - RNN-модельки от Deepmind с птичками в названии (как Eagle, Raven, etc). HAWK - RNN с gated linear recurrences, получилось лучше Mamba. Griffin - гибридная штука: gated linear recurrences + local attention, получилось лучше, чем Llama-2, при том, что тренировали на значительно меньшем количестве токенов. Griffin успешно заскейлили до 14B. В статье много деталей о том, как распределенно тренировать эти RNN и о экспериментах по скейлингу и скорости/качеству инференса.

Статья интересная, единственный вопрос - почему не сравнили с RWKV. Она в статье упомянута, но в экспериментах не участвовала.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥6
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках показывают существенный прирост относительно GPT-4.

— Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает картинки
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно

Модели доступны по API сегодня всем, никакого листа ожидания больше нет.

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
​​The real secret of productivity
😁5🔥1👏1
​​Kaggle перешёл на тёмную сторону силы

На Kaggle появился... dark mode.

https://www.kaggle.com/discussions/product-feedback/480266

Судя по тому, что пишут админы - это была чуть ли не самая запрашиваемая фича... ну что ж, надеюсь, что это приведёт Kaggle к светлому будущему... ой, стоп 😁

#datascience
🌚16😁4🔥32
Stability AI vs Midjourney: драма 🍿

Сейчас развивается драма с обвинениями.

В субботу у Midjourney были проблемы на сервере - что-то типа DDOS-атаки. Кто-то пытался скрейпить пары промптов и картинок. Нашли, что вроде как у виновника e-mail Stability AI. Забанили всех сотрудников Stability AI.

https://twitter.com/aliejules/status/1765485264091128033

Но... Emad из Stability AI ответил, что он не в курсе. Мол, они используют синтетические и прочие данные и ничего не скрейпят. Заявил, что начинают внутренние расследования.

https://twitter.com/EMostaque/status/1765495422561206507

Основатель Stability AI написал, что высылает ему информацию для помощи в этом расследовании.

https://twitter.com/DavidSHolz/status/1765506365764550868

Ну что ж, будем наблюдать за развитием событий.

#datascience
👀5👍1🫡1
​​Пре-тренировка Llama 7B на NVIDIA RTX 4090

Интересная статья GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection. Авторы предлагают использовать Gradient Low-Rank Projection - делают эффективный по памяти full-parameter learning. В результате Llama 7B умещается в 24GB GPU. Причём без checkpointing или offloading. Звучит многообещающе.

#datascience
🔥8👍1
Тренировка моделей на 70B на двух 24GB GPU

В продолжение моего предыдущего поста: Jeremy Howard опубликовал первый проект своей новой R&D лаборатории - open source проект на основе FSDP + QLoRA, позволяющий тренировать модели размером 70B всего на двух геймерских GPU.

QLoRA позволяет тренировать модель 70B на 35GB памяти при ужатии до 4 bits, а FSDP помогает делать эффективную тренировку multi-gpu.

Блогпост
Репозиторий

#datascience
🔥10
Обзор соревнований по ML за 2023 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/

Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;

#datascience
🔥7👍3
​​NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

NaturalSpeech 3 - новая TTS, использующая модели factorized diffusion для генерации естественной речи в режиме zero-shot. Система разделяет речь на подпространства (контент, просодия, тембр, акустические детали) с помощью нейронного кодека с факторизованным векторным квантованием (FVQ), что позволяет эффективно и точно моделировать сложные аспекты речи. Показывает лучшие результаты по качеству, схожести, просодии и понятности речи по сравнению с существующими системами TTS, дополнительно масштабируется до 1B параметров и 200K часов обучающих данных.

Paper link
Project link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

В прошлом году я писал обзор и на NaturalSpeech2.

#paperreview
👍41
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
Мамка-менеджер

Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами

Вот вам ответочка от собирательного «чайка-менеджера»

Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же они разбили вазу выкатили релиз с багами, поссорились с соседней командой и придумали новое SOTA решение, которое невозможно катнуть в прод. На разных грейдах дети выглядят чуть по-разному

Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”

Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»

Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?

Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*


Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия

В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂

Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥

P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом пост когда перестанет так сильно подгорать когда-нибудь)

@ml4value
👍52
​​Я прошёл курс немецкого языка на испанском на Duolingo

В прошлом октябре я уже писал, что прошёл курс немецкого языка на Duolingo: https://news.1rj.ru/str/datastorieslanguages/51

На встречах по языковому обмену у меня была небольшая проблема - когда я говорил на немецком, я часто переходил на испанский, когда не знал, как выразить какую-то мысль. Я хотел исправить это, и мне в голову пришла идея - возможно мне стоит практиковать оба языка вместе, чтобы уметь выражать одинаковые мысли на каждом из них. В целом, я считаю, что изучать два языка одновременно - не самая лучшая идея, но в моём случае я уже знал оба языка, и хотел дополнительно тренироваться в них. Вот так я и решил пройти курс на Duolingo по изучению немецкого языка с немецкого.

Первые уроки были простыми, дальше пошли сложности - я то не знал слова на одном языке, то на другом. Плюс нередко путался в артиклях. Но прогресс постепенно шёл, и вот сегодня я закончил этот курс. Впечатления смешанные. С одной стороны, я теперь могу говорить на немецком, не переходя на испанский. Плюс знания немецкого явно выросли. Но я вижу у себя ряд проблем в грамматике: иногда неправильно склоняю pronouns, в целом довольно часто делаю ошибки в формах артиклей, и путаюсь в сложных формах времён (past perfect, subjunctive). Но, с другой стороны, Duolingo - инструмент для практики, а не для изучения грамматики. И эту роль он выполняет вполне успешно.

Ещё несколько мыслей о самом Duolingo:
• я встречал несколько странных багов. Например, упражнения для исправления ошибок иногда повторялись несколько раз - такое ощущение, что кэш не чистился;
• иногда pro версия делает упражнения слишком простыми. Например, в обычной версии, если делаешь больше N ошибок, то надо проходить урок заново, а в pro версии количество ошибок не ограничено. Из-за этого, когда я замечал, что делают слишком много ошибок в одном уроке, то сам закрывал его и проходил заново;
• сложность упражнений не консистентна. Иногда проходишь одно упражнение вообще без ошибок, в следующем делаешь ошибки в каждом втором вопросе;

В любом случае, я доволен прогрессом и считаю, что пройти этот курс было полезно.

Сейчас для практики немецкого я читаю новости и книги, а также слушаю аудиокниги. Плюс создаю и повторяю карточки в Anki. Помимо этого, планирую целенаправленно тренировать слабые знания грамматики.

А вот изучать японский я точно буду без Duolingo.

#languages
🔥5👏2
​​Когда ты забыл добавить guardrails к своему чат-боту

Говорят, что Amazon начинает тестировать своего чат-бота (официальная ссылка). Но, похоже, в него забыли добавить guardrails.

https://twitter.com/QuinnyPig/status/1767568319236972901

#datascience
😁7
​​Анализ open source AI инструментов от Chip Huyen
Chip Huyen выложила очередной годный блогпост, на этот раз про open source AI. Если вы ещё не слышали это имя - обязательно почитайте её блог, в нём полно очень полезной и интересной информации.

Кратко суть:
• спарсила 845 реп на github для анализа. Графики показывают, что после публикации SD и ChatGPT был всплеск новых проектов, но сейчас стало чуть спокойнее;
• она выделила 4 типа репозиториев: инфра, разработка моделей, разработка приложений, сами приложения
• среди приложений самые популярные варианты это чат-боты, написание кода, сбор информации, генерация картинок и автоматизация. Неудивительно.
• в последние пару лет появилось много решений для оптимизации инференса (квантизация, прунинг, lora)
• у топ-20 аккаунтов (openai, microsoft, huggingface, etc) 23% от всех репо в списке
• китайцы становятся всё активнее на гитхабе
• интересный факт - было немало репозиториев, которые после запуска собрали кучу звёздочек, а потом умерли

В блогпосте есть ещё много интересного.

#datascience
👍6🔥2
​​Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Интересная статья от Spotify о том, как они разрабатывали рекомендашки для аудиокниг. Аудиокниги появились на их платформе совсем недавно, их нужно было как-то рекомендовать, в том числе решать вопрос холодного старта. Используя предпочтения пользователей по подкастам и музыке, разработали 2T-HGNN, сочетающая HGNNs и Two Tower. В результате получили значительное улучшение в рекомендациях аудиокниг, увеличив запуск новых аудиокниг на 46% и streaming rate на 23%.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse


#paperreview
🔥8
Assistant -> Gemini

Сегодня мне мой телефон предложил сменить дефолтного помощника на Gemini. Выглядит хайпово. Вот так AI приходит в массы.
🔥6👍3
Forwarded from Dealer.AI
Чья бы это не была грязная партия, погибли и пострадали люди. Террору нет места нигде.

Соболезнования пострадавшим и их родным.
Сейчас, если вы хотите помочь, нужна донорская кровь, инфо тут.
Берегите себя и близких, надеюсь с вами все хорошо.
💔81
​​Chronos: Learning the Language of Time Series

Chronos — фреймворк от Amazon для претренировки моделей на временных рядах. Использует квантизацию и нормализацию данных для получения словарь с фиксированным размером и тренирует модели на основе архитектуры T5 с использованием cross-entropy. Обучают на публичных и синтетических данных, в результате получают отличное качество, в том числе на zero-shot learning.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥4👍2