Data, Stories and Languages – Telegram
Data, Stories and Languages
2.96K subscribers
67 photos
8 videos
490 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://news.1rj.ru/str/Erlemar
Download Telegram
Forwarded from ODS Events
Сап чат!

Data Fest 2024 уже совсем скоро, и сегодня у нас ударный пост с эпичным вскрытием карт и открытием регистраций 🎉

В этом году мы чутка нарастили и программу и географию и число локаций 👀
12 оффлайн площадок уже открыты — можно регистрироваться 🔥

24 мая (пт): Москва, Pre-Party Феста с Яндексом
25 мая (сб): Москва, самый крупный офлайн день Феста в гостях у VK
26 мая (вс): Ереван, офлайн митап в гостях у РАУ
29 мая (ср): Москва и Питер — день Феста в гостях у ВТБ в Москве плюс день Феста в гостях у Альфа-Банка х ИТМО в Питере
31 мая (пт): Алматы и Москва — вечерний офлайн митап в гостях у Altel digital в Алматы и день Феста в гостях у Цифровой кафедры Альфа-Банка в Финансовом Университете в Москве
01 июня (сб): Алматы, Новосибирск и Москва — день Феста в гостях у Citix в Алматы, три зала и целый день Феста в гостях у МехМата НГУ в Новосибирске и целый день Феста в гостях у Avito.tech в Москве
02 июня (вс): Москва и Питер — завершаем программу с финальным днем Феста в гостях у Яндекса в Москве и днем Феста в гостях у VK в Питере!

На каждой площадке будет свой состав секций и спикеров — каждый найдёт себе ивенты под свои интересы 🤗

Плюс планируется огромное количество online активностей в Spatial.Chat, программу в котором будем анонсировать по мере готовности 👀️️️️ А что-то можно уже сейчас найти на странице Феста

Ждём на Фесте, где бы в пространстве-времени он не оказался! 🦾️️️️️️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41
​​Chameleon: Mixed-Modal Early-Fusion Foundation Models

Chameleon — это семейство early-fusion token-based mixed-modal моделей, способных понимать и генерировать изображения и текст в произвольной последовательности. Модели оценивали на различных задачах, включая visual question answering, image captioning, text generation, image generation и long-form mixed modal generation. Chameleon показывает выдающиеся способности, включая SOTA результаты в image captioning, превосходит Llama-2 в текстовых задачах и достигает результатов сравнимых с Mixtral 8x7B и Gemini-Pro. Также модель справляется со сложной генерацией изображений и по оценкам людей превосходит более крупные модели, такие как Gemini Pro и GPT-4V, в задачах mixed-modal generation.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍4🔥1
​​Anthropic: Mapping the Mind of a Large Language Model

Anthropic выпустил новую статью/блогпост - про то, как "думает" Claude Sonnet.

Из среднего слоя модели извлекли фичи и стали их визуализировать и анализировать. Нашли группы признаков, относящимся к разным понятиям - городам, людям, научным понятиям и так далее. Было и более абстрактного - типа гендерного bias или багов в коде.

Но просто увидеть это - не так интересно, прикольно то, что они смогли "манипулировать" этими признаками. Условно говоря, можно повысить признак веса "Golden Gate Bridge", и модель будет значительно чаще говорить про него, даже когда вопрос вообще никак с ним не связан.

А теперь к любимой теме Anthropic - к безопасности и alignment. Один из найденных признаков отвечает за понимание скама/развода в письмах. Обычно модель отказывается генерить письма со скамом, но если увеличить вес этой "фичи", модель без проблем будет заниматься разводом лохов :)

Польза в том, что можно подавлять подобные "плохие" темы и улучшать безопасность модели - делать модель менее социопатичной, "отключать" ответы на определенные темы и так далее.

Правда, боюсь, что с тем же успехом можно делать и обратное - двигать какую-нибудь повестку, рекламировать товары или просто отстаивать какую-то точку зрения.

Желающие могут почитать подробности в блогпосте или в детальной статье с кучей клёвых визуализаций и инсайтов.

#datascience
🔥11👍1
​​Отголоски Kaggle

Я уже довольно давно забросил Kaggle - нет ни времени, ни мотивации, ни интереса, но уведомления от Kaggle на почту время от времени приходят.

Сегодня я получил уведомление о том, что мой ноутбук форкнули 1к раз. Удивительно, но приятно.

#datascience
🔥16👍5🤯2
​​YOLOv10: Real-Time End-to-End Object Detection

За последние годы модели YOLO стали ведущим подходом в object detection в real-time. Однако, использование NMS для postprocessing заметно ухудшет latency.

Авторы взяли YOLOv8 и смогли избавиться от NMS, плюс добавили кучу новых штук в архитектуру. Получили SOTA результаты. Например, YOLOv10-S быстрее RT-DETR-R18 в 1.8 раза с меньшим числом параметров и FLOPs. YOLOv10-B имеет на 46% меньш latency и на 25% меньше параметров по сравнению с YOLOv9-C.

Paper link
Code link
Docs link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥13
​​AI Engineer Compensation Trends Q1 2024

Levels.fyi выпустил новый отчёт о состоянии зарплат в "AI индустрии". Ни сколько не удивительно, что зарплаты в USA самые высокие, но посмотреть на топ-10 интереснее: Америка, Швейцария, Израиль, Великобритания, Канада, ОАЭ, Австралия, Сингапур, Ирландия и Нидерланды.

Ещё интересный момент - по сравнению с прошедшим годом, разрыв зарплат между AI-инженеры и "просто" инженерами немного увеличился.

Среди компаний первое место по зарплатам занимает OpenAI (что неудивительно), второе место - Coupang из Южной Кореи, третье место, внезапно Airbnb. Anthropic в рейтинге нет - возможно слишком мало людей заполняли информацию на levels.fyi

https://www.levels.fyi/blog/ai-engineer-compensation-q1-2024.html

#datascience
🔥9
​​Выступление на DataFest 2024

В это воскресенье я буду делать онлайн доклад для секции Reliable ML на DataFest 2024. Доклад будет о том, как мы делали реал-тайм систему для анти-фрода. Раньше я уже писал блогпост об этом: https://news.1rj.ru/str/datastorieslanguages/136 Теперь расскажу с большими подробностями :)

https://ods.ai/events/df2024-2-june-online/networking

#datascience
🔥154👍1
​​AI теперь даже в iTerm2

iTerm2 - один из самых популярных терминалов для macOS. Недавно в нём вышло обновление, которое принесло "AI" и в него. По факту просто написали промпт, который на запрос юзера будет возвращать команду

 commands suitable for copy/pasting into \(shell) on \(uname). Do NOT include commentary NOR Markdown triple-backtick code blocks as your whole response will be copied into my terminal automatically.

The noscript should do this: \(ai.prompt)
😁61🔥1
Внимание! Hugging Face: Space secrets leak disclosure

Hugging Face вчера опубликовали блогпост, что у них утекли secrets в некоторых Spaces. Настойчиво советуют всем обновить HF Tokens. Уверяют, что в последние дни активно работают над улучшением безопасности.

Блогпост

#datascience
😱5🤝1
Forwarded from ODS Events
▶️Мы уже в эфире!

Подключайтесь в комнату Reliable ML в ODS Spatial (пароль от спейса festfinaleparrot), чтобы задать вопросы спикерам лично!

Расписание онлайн дня тут
Если вы далеко от компьютера - смотрите трансляцию на ODS YouTube
Please open Telegram to view this post
VIEW IN TELEGRAM
​​LiteVAE: Lightweight and Efficient Variational Autoencoders for Latent Diffusion Models

Исследователи из Disney Studio представляют LiteVAE, семейство автоэнкодеров для LDMs, использующее 2D discrete wavelet transform для повышения масштабируемости и вычислительной эффективности по сравнению с обычными VAEs без потери качества.

Базовая модель LiteVAE сравнима по качеству с существующими VAEs в LDMs, при том, что количество параметров энкодера в шесть раз меньше - это значит, что тренировка идёт быстрее и нужно меньше памяти GPU. Более крупная модель превосходит VAEs аналогичной сложности по всем метрикам.

Paper link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥5👍4
​​Код xLSTM

Недавно вышла нашумевшая статья про xLSTM, а теперь авторы выложили код: https://github.com/NX-AI/xlstm

Интересно, будет ли использоваться или быстро забудется?

#datascience
👍10🔥3👎1👀1
​​Войны художников против AI продолжаются

Как известно, художники постоянно негодуют по поводу AI (я их вполне понимаю) и пытаются придумать новые решения против этого. То программы, которые "портят" картинки чтобы модели на них не могли тренироваться, то ещё что.

Новая идея: https://cara.app/explore

 widespread use of generative AI, we decided to build a place that filters out generative AI images so that people who want to find authentic creatives and artwork can do so easily.


Звучит прикольно. Довольно быстро туда хлынула толпа юзеров. Они запустились в конце мая, ворвались в топ-9 приложений в App Store для social media, достигли 500к юзеров.

Казалось бы, что могло пойти не так? Они хостили свой продукт на платформе https://vercel.com/ai и... к ним пришло "письмо счастья" сообщающее, что они превысили все лимиты, и им надо заплатить почти 100к$. В тред твиттера даже пришёл VP of Product Vercel и объяснил, что всё верно - к ним пришло много трафика (56 миллионов function invocations за 3 июня), и они не настраивали лимиты по тратам.
В целом дальше обещал попробовать договориться - посмотрим, что получится.

Но самое ироничное в этом - совсем другое. Cara, платформа для "настоящих" художников и против AI, хостится на vercel, у которого на сайте большими буквами написано "Vercel is the Home of AI Apps".

Интересная история.
😁17🤷‍♂11🤷1
​​σ-GPTs: A New Approach to Autoregressive Models

В этой статье решили попробовать генерить тексты не слева направо, а в рандомном порядке. Для этого к токенам добавляют два позиционных энкодинга - информация о позиции этого и следующего токенов. В результате, модель может генерить тексты параллельно (одновременно разные куски текста), по факту делать in-filling, лучше генерализирует в некоторых случаях. По приколу показали, что можно генерить тексты хоть по фрактальным паттернам - правда это работало уже не так хорошо.

Но смутило то, что говорят про возможность параллельной генерации, а скорость инференса замерять не стали. И тренировали лишь GPT-2. Возможно, что следуют заветам Karpathy. Кстати, он как раз сегодня выложил новую лекцию о том, как закодить GPT-2 с нуля.

Визуализацию примера того, как генерится текст, можно посмотреть тут

Paper link
Demo

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
👍9🔥4😁1
​​Чтение книг для практики иностранных языков

Чтение книг на иностранных языках - это отличный способ набрать словарный запас. Есть много способов прокачивания языка, но практика в любом виде просто необходима - это может быть чтение текстов, просмотр фильмов, слушание подкастов/аудиокниг/чего-угодно, разговоры и так далее. При чтении мне проще всего трекать прогресс, чем и хочу поделиться.

Недавно я закончил читать серию из четырёх книг на немецком - это перевод русский серии "Страж" Алексея Пехова. Кстати, это один из моих любимых авторов современного фэнтези. Я читал эту серию очень давно (последняя книга вроде как была опубликована лет 10 назад), но вот несколько месяцев назад мне попался на глаза немецкий перевод, и я решил перечитать её - на этот раз не только по фану, но и для языковой практики. Пехов пишет отличные книги, богатые на описания, но от этого получается высокая сложность текста, когда читаешь их в переводе.

На чтение первой книги у меня ушло больше месяца, и на Kindle я отметил примерно 1.5к слов как неизвестные (смотрел их перевод). Первая треть книги шла совсем с трудом, но постепенно становилось легче и легче. Вторую книгу я читал немного быстрее, но всё равно потребовался примерно месяц, и было примерно 1.1к новых слов. А дальше стало лучше - где-то три недели на третью книгу (~900 слов) и всего дней десять на четвёртую (~500 слов). Естественно, на скорость чтения влияли внешние факторы, но прогресс очевиден.
Кстати, все эти слова я потом переносил в Anki с помощью того приложения, о котором я писал раньше: https://news.1rj.ru/str/datastorieslanguages/59 Правда я в свою локальную версию добавил возможность делать перевод с помощью gpt-4o :)

Дальше планирую почитать что-нибудь в оригинале на немецком (в дополнение к другим способам практики).

P. S. Обложки к немецких изданий просто шикарные.

#languages
👍9🔥2
​​Leetcode теперь может автоматически считать асимптотику алгоритмов

Теперь на Leetcode появилась новая удобная фича. После сабмита решения можно нажать на кнопочку "Analyze Complexity" и увидеть какая сложность у написанного кода. Прикольно, так будет легче запомнить разные асимптотики тем, кто ещё в них путается

#datascience
🔥172
​​GPT-4 is "smarter" at temperature=1 than temperature=0, even on deterministic tasks.

Я наткнулся на любопытное обсуждение в твиттере - оказалось, что если поставить temperature=1 в GPT-4, он будет работать немного получше.
Что забавно - попробовали такое же с затюненой LLama3 - и там полный разброс.
Тюнинг и инференс LLM остаётся алхимией :)

#datascience
🔥6🆒3
Обзор книги "Accelerate Model Training with PyTorch 2.X"

Недавно мне написали из Packt и сам автор книги Maicon Melo Alves и предложили почитать книгу и опубликовать отзыв.

Мой англоязычный отзыв можно почитать тут: https://www.linkedin.com/posts/andlukyane_accelerate-model-training-with-pytorch-2-activity-7207747253212483585-n7np?utm_source=share&utm_medium=member_desktop

Неофициально скажу, что книга вполне неплохая... но хз на кого нацеленная. Для новичков будет слишком много технических деталей, проще взять официальные туториалы pytorch. Для опытных людей новое будет, но я не уверен в том, что они подчерпнут достаточно полезного. Плюс весь код в открытом доступе

Наверное, полезнее всего будет тем, кто не хочет гуглить, а предпочитает читать книги. Сам стиль хороший, объяснения качественные, материал покрывает всё нужное.

Ссылка на книгу

#datascience
👍10
​​ChatGPT is bullshit

https://link.springer.com/article/10.1007/s10676-024-09775-5

Я так и не понял, что в этой статье нового, но название порадовало.

#datascience
😁7🤝3🔥1
​​Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

Только недавно NVIDIA натренировала SSM Mamba-2 на 8B параметров на 3.5T токенов, как в Microsoft решил не ударить в грязь лицом и натренировали Samba (Mamba + MLP + Sliding Window Attention) на 3.8B параметров и 3.2T токенов. Получили модельку лучше, чем Phi3-mini - MMLU 71.2, 71.9 при intruction-tuning. Из главных плюшек - большой контекст. Например, тренировали на контексте 4к, и Samba успешно экстраполировала на 256к с почти идеальным memory recall. Плюс шустрый инференс. Выглядит очень любопытно. Но весов пока нет.

Paper link
Code link

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
🔥61👍1
​​Курс испанского языка на Duolingo пройден. Опять

Я уже рассказывал, что использую Duolingo для дополнительной практики языков. Вчера вот я снова завершил курс испанского. До этого я уже проходил его полностью пару раз, но каждый раз через какое-то время компания делала редизайн курса и добавляла новые материалы.

Впечатления от курса такие же как и прежде - чем ближе к концу, тем меньше польза. По субъективным ощущениям, я делал ошибки примерно в 10% вопросов, и большинство было либо из-за моих глупых опечаток, либо из-за случаев, когда Duolingo ожидал какой-то специфичный ответ вместо моего (который тоже подходил).

В качестве дополнительного усложнения, везде где это было возможно, я старался использовать микрофон для голосового ввода. Кстати, с этим было интересно: обычно iPhone отлично распознавал мой голос и выдавал именно то, что я говорил; а когда я использовал приложение на Android, те же самые фразы часто распознавались криво и приходилось исправлять их ручками.

Теперь не знаю забрасывать ли Duolingo, или поддерживать почти 900-дневный streak.

#languages
🔥11👍3🤓1