Forwarded from addmeto (Grigory Bakunov)
Вот эта работа имеет все шансы стать куда более значимой, чем все нынешние "соры", выпущенные в последние полгода. Это система, в которой вы можете симулировать реальные физические процессы и визуализировать их. По сути используется физическая модель, где из текста строится не видео (как все уже привыкли), а моделируется 3д с учетом физики процессов и материалов. Слова тут вероятно лишние, посмотрите на картинки https://genesis-embodied-ai.github.io
Forwarded from .ml
Как LLM могут помочь в классическом ML?
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.
Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:
✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.
Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!
Forwarded from Стать специалистом по машинному обучению
Каюсь, лежит у меня этот плейлист запланированным для просмотра довольно давно, но только сейчас дошли руки начать смотреть. И это просто кайф! Павел Кикин на проятяжении 10 роликов рассказывает о том, как должен быть устроен нормальный ML в компании. При этом Павел сам в ML пришел из бэкэнда, а поэтому очень много про версионирование, стиль кода, документацию, управление зависимостями... Очень структурированный и полезный материал! Смотрю уже четвертое занятие - еле оторвался мини-пост написать 🙂
MLOps и production подход к ML исследованиям 2.0
MLOps и production подход к ML исследованиям 2.0
YouTube
MLOps и production подход к ML исследованиям 2.0
Share your videos with friends, family, and the world
🔥2
Forwarded from BOGDANISSSIMO
Самая разумная политика проведения coding интервью начиная с 2023, Я считаю
Как говорил Валера в одном из выступлений X5 Retail Hero, "хорошее интервью - должно быть хорошим прокси того, чем ты будешь заниматься на этой работе". И кажется, мы не в 2000х или 2010х чтобы писать код без интернета / без LLM. Наоборот, по тому, что ищет кандидат или какие запросы делает, за сколько промптов он доходит до нужного решения у того же курсора и как потом проверяет что всё работает – это очень-очень показательно
Лично кидаю тапками в те компании, где в 2025 всё ещё будет не так
Как говорил Валера в одном из выступлений X5 Retail Hero, "хорошее интервью - должно быть хорошим прокси того, чем ты будешь заниматься на этой работе". И кажется, мы не в 2000х или 2010х чтобы писать код без интернета / без LLM. Наоборот, по тому, что ищет кандидат или какие запросы делает, за сколько промптов он доходит до нужного решения у того же курсора и как потом проверяет что всё работает – это очень-очень показательно
Лично кидаю тапками в те компании, где в 2025 всё ещё будет не так
👍1
Forwarded from Data Secrets
Известный мировой тех.подкаст про AI Latent.Space в честь Нового Года выложили 2025 AI Engineering Reading List
Это огромный список актуальных мастридов для ML/AI инженеров. В нем нет базовой базы, а только те статьи, которые непосредственно относятся к современным развивающимся методам и технологиям.
Охвачены 10 самых важных на сегодняшний день областей: файнтюнинг, агенты, диффузия, голос, вижн модели, генерация кода, RAG, цепочки рассуждений, бенчмарки и эвал, и frontier LLMs.
Список получился у ребят действительно очень крутой и насущный, так что обязательно забирайте себе в бэклог или в ридинг-клабы.
Это огромный список актуальных мастридов для ML/AI инженеров. В нем нет базовой базы, а только те статьи, которые непосредственно относятся к современным развивающимся методам и технологиям.
Охвачены 10 самых важных на сегодняшний день областей: файнтюнинг, агенты, диффузия, голос, вижн модели, генерация кода, RAG, цепочки рассуждений, бенчмарки и эвал, и frontier LLMs.
Список получился у ребят действительно очень крутой и насущный, так что обязательно забирайте себе в бэклог или в ридинг-клабы.
По многим источникам вижу, что подводить итоги почему-то нынче зашквар, наверное потому, что якобы никому не интересно их читать. Но лично мне это было очень даже интересно, много нового узнал о тех, за кем давно слежу. Поэтому напишу свои - у меня это первый раз, мне можно ))
Из профессионального:
- Ни разу не лейоффнули за 2024. Доволен, потому что в 2023 это случалось дважды.
- Оказавшись в коммьюнити “Hello New Job” в конце 23, рад состоять в нем, ибо продолжаю пожинать плоды весь этот год. Стало понятно, как искать работу, как составлять резюме, как проходить нетехнические интервью и так далее. После того, как стал следить за новыми выпусками по теме, ощущаю себя в курсе того, в каком состоянии рыночек в IT
- Ощутил мощь Linkedin, понял, как с ним работать, чтобы он приносил пользу (в первую очередь, предложения о работе), набрал 1к+ фолловеров, стали писать рекрутеры.
- Несмотря на то, что активно работу не искал, прошел 20+ собесов, с 2 неплохими офферами, один даже с релоком в ЕС. По результатам четко сформулировал слабые места по технике, работаю над ними.
- Сделали крутой проект в Нигерийском банке, написали с шефом статью, ждем публикации
- Понял, что могу работать на 2 работах постоянно. В наше время постоянных лейоффов это отлично страхует от голода и придает уверенности.
- Касаемо учебы. Наконец закрыл позорный гештальт: начал изучать DL, прошел специализацию от Deeplearning.AI. Andrew NG, как и много лет назад - топ! Начал вгрызаться в PyTorch, читать классические статьи, смотреть доклады - все как мы любим. Смотря на то, сколько всего появилось в контексте LLM, почти безуспешно борюсь с FOMO, но когда при близком рассмотрении оказывается, что большинство “эйай экспертов” дальше промтов “за ворота” и не выглядывали, начинаю успокаиваться: мой подход был и будет основан на изучении фундаментальных вещей. Хотел одновременно затащить курс по NLP ODS, но не осилил - вернусь в следующем году. Еще из нереализованного: не прочитал книгу по causal inference, не сдал ни одной сертификации по облакам.
- Планировал продолжить писать на медиуме, но под конец года совсем не осталось времени.
- Немного занимался менторством (2 человека обращались за консультацией), один в итоге нашел работу в ЕС. Для себя плюсы такой деятельности вижу как возможность самому разобраться еще глубже в теме, которую казалось бы и так знаешь хорошо. Ну и за менти порадоваться конечно же!
Из профессионального:
- Ни разу не лейоффнули за 2024. Доволен, потому что в 2023 это случалось дважды.
- Оказавшись в коммьюнити “Hello New Job” в конце 23, рад состоять в нем, ибо продолжаю пожинать плоды весь этот год. Стало понятно, как искать работу, как составлять резюме, как проходить нетехнические интервью и так далее. После того, как стал следить за новыми выпусками по теме, ощущаю себя в курсе того, в каком состоянии рыночек в IT
- Ощутил мощь Linkedin, понял, как с ним работать, чтобы он приносил пользу (в первую очередь, предложения о работе), набрал 1к+ фолловеров, стали писать рекрутеры.
- Несмотря на то, что активно работу не искал, прошел 20+ собесов, с 2 неплохими офферами, один даже с релоком в ЕС. По результатам четко сформулировал слабые места по технике, работаю над ними.
- Сделали крутой проект в Нигерийском банке, написали с шефом статью, ждем публикации
- Понял, что могу работать на 2 работах постоянно. В наше время постоянных лейоффов это отлично страхует от голода и придает уверенности.
- Касаемо учебы. Наконец закрыл позорный гештальт: начал изучать DL, прошел специализацию от Deeplearning.AI. Andrew NG, как и много лет назад - топ! Начал вгрызаться в PyTorch, читать классические статьи, смотреть доклады - все как мы любим. Смотря на то, сколько всего появилось в контексте LLM, почти безуспешно борюсь с FOMO, но когда при близком рассмотрении оказывается, что большинство “эйай экспертов” дальше промтов “за ворота” и не выглядывали, начинаю успокаиваться: мой подход был и будет основан на изучении фундаментальных вещей. Хотел одновременно затащить курс по NLP ODS, но не осилил - вернусь в следующем году. Еще из нереализованного: не прочитал книгу по causal inference, не сдал ни одной сертификации по облакам.
- Планировал продолжить писать на медиуме, но под конец года совсем не осталось времени.
- Немного занимался менторством (2 человека обращались за консультацией), один в итоге нашел работу в ЕС. Для себя плюсы такой деятельности вижу как возможность самому разобраться еще глубже в теме, которую казалось бы и так знаешь хорошо. Ну и за менти порадоваться конечно же!
🔥6
Из личного:
- Поставил антирекорд: не выезжал из страны уже больше 2 лет, чего не было, наверное, со школы
- Получил постоянную резиденцию (больше никаких походов в миграционку!) и подал доки на второе гражданство - причина антирекорда из предыдущего пункта и причина непринятия офера из ЕС: из страны не стоит выезжать на время процесса.
- Приобрел велик, теперь почти не пользуюсь общественным транспортом, который, кстати, подорожал в несколько раз за 2 года. Все поездки до 15-20 км стараюсь совершать на нем. Благо в городе хорошо развита вело инфра. Фитнес и экономия!
- В теплое время года бегаю, но пока не достиг цели пробежать десятку. Пока 8км - мой максимум. Вообще без снега живется гораздо лучше (я не видел его почти 3 года, кроме как морозилке), а если очень хочется - есть горнолыжные курорты, но это не мое ))
- Под конец года взялся-таки за испанский, в магазинах и на рынках новому уже не научат, теперь придется учиться самому)
- Поставил антирекорд: не выезжал из страны уже больше 2 лет, чего не было, наверное, со школы
- Получил постоянную резиденцию (больше никаких походов в миграционку!) и подал доки на второе гражданство - причина антирекорда из предыдущего пункта и причина непринятия офера из ЕС: из страны не стоит выезжать на время процесса.
- Приобрел велик, теперь почти не пользуюсь общественным транспортом, который, кстати, подорожал в несколько раз за 2 года. Все поездки до 15-20 км стараюсь совершать на нем. Благо в городе хорошо развита вело инфра. Фитнес и экономия!
- В теплое время года бегаю, но пока не достиг цели пробежать десятку. Пока 8км - мой максимум. Вообще без снега живется гораздо лучше (я не видел его почти 3 года, кроме как морозилке), а если очень хочется - есть горнолыжные курорты, но это не мое ))
- Под конец года взялся-таки за испанский, в магазинах и на рынках новому уже не научат, теперь придется учиться самому)
🔥6
Не ожидал, что это случится ТАК быстро
https://www.cnews.ru/news/top/2025-01-10_znamenityj_sajt_dlya_programmistov
https://www.cnews.ru/news/top/2025-01-10_znamenityj_sajt_dlya_programmistov
CNews.ru
Знаменитый сайт для программистов на грани закрытия после почти 20 лет процветания. Его стремительно убивают нейросети - CNews
Проект Stack Overflow может закрыться в ближайшие месяцы после почти 20 лет существования. Это самый известный и некогда самый популярный сайт для программистов, где они могут попросить коллег о...
🤯1
Forwarded from Машинное обучение от ИЦ "ГЕВИССТА"
В 2025 CI/CF продолжат набирать популярность. Сочетание спроса и небольшое количество толковых специалистов, очень большое поле для новаций. С одной стороны, LLMки, где 2000 человек на кв. см, много хайпа и существенное превышение затрат над value, с другой стороны, СF, causal investments, 2 десятка человек с пачкой проектов и с загруженностью до 2028 года, Марко де Прадо, его ученики, ученики его учеников, ученики Хайндмана, Цая и Атанасопулоса. Убытки в использовании цифровых двойников на ML-моделях, над которыми не надстроен каузальный анализ, колоссальные, но об этом часто исследователями умалчивается, а бизнес нередко разочаровывается в возможностях промышленного ML, хотя ML и не может ответить на вопрос, на сколько мне нужно изменить X, чтобы изменить Y на столько-то. Собственно в это направление перемещаюсь, бог даст, будет пара книжек в этом году. Для введения подойдет https://www.cambridge.org/core/services/aop-cambridge-core/content/view/9AFE270D7099B787B8FD4F4CBADE0C6E/9781009397292AR.pdf/causal-factor-investing.pdf
Forwarded from Запрети мне псевдолейблить
Apache Parquet: как Twitter и Cloudera развивали дата инжиниринг
Apache Parquet начинался как совместный проект Twitter (ныне X) и Cloudera — компании, известной своими дистрибутивами Hadoop и инструментами для работы с ним. Многие, кто работал с Hadoop, вероятно, сталкивались с Cloudera и пользовались их решениями. Например, в Сбербанке используют их софт для обработки больших данных (Сбер за рекламу не платил, а мог бы).
Теперь давайте наглядно сравним Parquet с традиционным CSV-файлом, чтобы понять его преимущества. Возьмем простой пример CSV:
1. Колоночный формат
Первая ключевая особенность Parquet — это колоночное хранение данных. В CSV данные хранятся построчно, и для вычисления среднего значения, скажем, веса, вам нужно пройти по каждой строке, извлекая из нее данные. Это требует времени, особенно для больших наборов данных.
Parquet же хранит данные по колонкам. Сначала записываются все значения первой колонки, затем второй, и так далее. Например, для расчета среднего роста нужно считать только колонку с ростом, не затрагивая остальные данные. Это заметно ускоряет обработку.
Более того, в Parquet применяется метод сжатия RLE (Run Length Encoding), что эффективно для хранения повторяющихся значений и пропусков. Например:
Таким образом, можно обрабатывать большие объемы данных быстрее и с меньшими затратами памяти. Библиотеки вроде Polars, благодаря колоночному формату, не будут загружать лишние данные при ленивых вычислениях, что делает их работу еще эффективнее.
Типизация данных, схемы и партиционирование
Каждый Parquet-файл сопровождается схемой, которая описывает структуру данных: какие есть поля, их типы, и где начинается блок с данными. Так как данные типизированы, можно сэкономить место. Например, колонку "Пол" можно хранить в виде числовых значений, а в схеме — просто словарь, который сопоставляет числа с реальными значениями ("М" и "Ж"). Помните, в CSV каждый символ весит минимум байт!
Теперь представим, что наш CSV-файл содержит миллиард строк. Это около 100 ГБ данных, что вполне помещается на обычный компьютер, но работать с таким файлом будет неудобно. Чтобы оптимизировать работу с большими данными, применяют партиционирование. Это разделение файла на несколько частей по какому-то признаку — например, по дате записи.
Разделив данные по дням, вы сможете, например, быстро посчитать средний рост людей только за вчерашний день, не обрабатывая весь миллиард строк. Более того, партиции можно читать параллельно в разных потоках, что еще больше ускоряет вычисления на современных многопроцессорных архитектурах. Библиотеки Pandas, Polars и Spark поддерживают такое параллельное чтение с помощью Apache Arrow.
Parquet — это мощный инструмент для работы с большими объемами данных благодаря колоночному хранению, эффективным алгоритмам сжатия и возможностям партиционирования. Для задач, связанных с большими данными, Parquet сильно удобнее и быстрее, чем традиционный CSV. Используя такие библиотеки как Polars и Spark, можно значительно ускорить обработку данных и снизить затраты на вычисления. А еще можно каждый день дописывать новую партицию за день и не менять структуру файлов и избежать дублирования
Apache Parquet начинался как совместный проект Twitter (ныне X) и Cloudera — компании, известной своими дистрибутивами Hadoop и инструментами для работы с ним. Многие, кто работал с Hadoop, вероятно, сталкивались с Cloudera и пользовались их решениями. Например, в Сбербанке используют их софт для обработки больших данных (Сбер за рекламу не платил, а мог бы).
Теперь давайте наглядно сравним Parquet с традиционным CSV-файлом, чтобы понять его преимущества. Возьмем простой пример CSV:
Имя, Пол, Год рождения, Вес, Рост, Дата записи
Владимир, М, 1954, 74, 179, 01/01/2024
Борис, М, 1931, 88, 187, 01/01/2024
None, М, None, 77, 178, 02/01/2024
Валерия, Ж, 1950, 150, 168, 02/01/2024
1. Колоночный формат
Первая ключевая особенность Parquet — это колоночное хранение данных. В CSV данные хранятся построчно, и для вычисления среднего значения, скажем, веса, вам нужно пройти по каждой строке, извлекая из нее данные. Это требует времени, особенно для больших наборов данных.
Parquet же хранит данные по колонкам. Сначала записываются все значения первой колонки, затем второй, и так далее. Например, для расчета среднего роста нужно считать только колонку с ростом, не затрагивая остальные данные. Это заметно ускоряет обработку.
Более того, в Parquet применяется метод сжатия RLE (Run Length Encoding), что эффективно для хранения повторяющихся значений и пропусков. Например:
Имя: (Владимир, [0]), (Борис, [1]), (Валерия, [3])
Пол: (М, [0, 1, 2]), (Ж,[3])
Таким образом, можно обрабатывать большие объемы данных быстрее и с меньшими затратами памяти. Библиотеки вроде Polars, благодаря колоночному формату, не будут загружать лишние данные при ленивых вычислениях, что делает их работу еще эффективнее.
Типизация данных, схемы и партиционирование
Каждый Parquet-файл сопровождается схемой, которая описывает структуру данных: какие есть поля, их типы, и где начинается блок с данными. Так как данные типизированы, можно сэкономить место. Например, колонку "Пол" можно хранить в виде числовых значений, а в схеме — просто словарь, который сопоставляет числа с реальными значениями ("М" и "Ж"). Помните, в CSV каждый символ весит минимум байт!
Теперь представим, что наш CSV-файл содержит миллиард строк. Это около 100 ГБ данных, что вполне помещается на обычный компьютер, но работать с таким файлом будет неудобно. Чтобы оптимизировать работу с большими данными, применяют партиционирование. Это разделение файла на несколько частей по какому-то признаку — например, по дате записи.
Разделив данные по дням, вы сможете, например, быстро посчитать средний рост людей только за вчерашний день, не обрабатывая весь миллиард строк. Более того, партиции можно читать параллельно в разных потоках, что еще больше ускоряет вычисления на современных многопроцессорных архитектурах. Библиотеки Pandas, Polars и Spark поддерживают такое параллельное чтение с помощью Apache Arrow.
Parquet — это мощный инструмент для работы с большими объемами данных благодаря колоночному хранению, эффективным алгоритмам сжатия и возможностям партиционирования. Для задач, связанных с большими данными, Parquet сильно удобнее и быстрее, чем традиционный CSV. Используя такие библиотеки как Polars и Spark, можно значительно ускорить обработку данных и снизить затраты на вычисления. А еще можно каждый день дописывать новую партицию за день и не менять структуру файлов и избежать дублирования
👍2
Офигенное интервью с Юрием Селивановым - core разработчиком Python, создателем async/await механизма, крутым инженером и просто приятным человеком
YouTube
Асинхронный python / Python FastAPI / Python uv / Юрий Селиванов / #16
В этом выпуске мы с Юрием Селивановым, CEO и co-founder Edgedb, говорим о разработке на Python: будет много про Open Source, контрибьют в Python, инструменты и технологии. Рассмотрим, где сейчас активно применяется Python в веб-разработке, Data Science и…
Data notes
AWS based risk engine (part 3) Результаты? - Сокращение инфраструктурных затрат почти в 20 раз! Serverless решает, когда вам не нужно что-то эдакое, где AWS упирается в потолок возможностей. - Выкатка новой модели - 1 час вместо недели. Да, для этого…
Не прошло и года, как мы наконец опубликовались.
Вход только по регистрации с корпоративной почты - это серьезное финансовое издание😁
Вход только по регистрации с корпоративной почты - это серьезное финансовое издание😁
Risk.net
How a serverless risk engine transformed a digital bank - Risk.net
Migrating to the cloud permitted scalability, faster model updates and a better team structure
🔥2
Зайдя сегодня в Линкедин, увидел 2 противоречащие друг другу вещи:
- Мета уволила тех самых low performers, как и обещал Цукерберг. Оценки разные, видел 3-5 тысяч человек, что очень много для некоего "нижнего перцентиля"
- Рекрутер из той же Меты предлагает пособеситься на ML/SWE
Особенно странно, что они по-прежнему нанимают ML Generalist. А как же обещания заменить всех на эй ай в 2025?!
Много вопросов и мало ответов...
- Мета уволила тех самых low performers, как и обещал Цукерберг. Оценки разные, видел 3-5 тысяч человек, что очень много для некоего "нижнего перцентиля"
- Рекрутер из той же Меты предлагает пособеситься на ML/SWE
Особенно странно, что они по-прежнему нанимают ML Generalist. А как же обещания заменить всех на эй ай в 2025?!
Много вопросов и мало ответов...
👍1🔥1
Как AI нас всех заменяет (нет).
Написали в линкедин, предложили помочь по MLE в стартапе, я в ответ всегда интересуюсь проектом, обязанностями и компенсацией (если пишущий не сообщает об этом самостоятельно).
Так вот, с его слов у них СЕО проникся вот этим самым "любой сможет накидать прототип в одиночку", "разработка теперь под силу любому" и решил, что справится сам. Он потратил месяц на то, чтобы накидать этот самый прототип, получилось около 100к строк кода с помощью Gemini. И вы представляете, этот код почему-то не заработал! И вот теперь они ищут несколько MLE , чтобы заставить это творение работать. А не проще ли было сразу нанять людей, чтобы они с самого начала писали все как положено? Как известно, разобраться и починить чужой код (тем более такой, как в этом примере) куда более затратно по ресурсам. Ну и месяц работы СЕО наверное, не самый дешёвый...
Продолжаю наблюдение:)
Написали в линкедин, предложили помочь по MLE в стартапе, я в ответ всегда интересуюсь проектом, обязанностями и компенсацией (если пишущий не сообщает об этом самостоятельно).
Так вот, с его слов у них СЕО проникся вот этим самым "любой сможет накидать прототип в одиночку", "разработка теперь под силу любому" и решил, что справится сам. Он потратил месяц на то, чтобы накидать этот самый прототип, получилось около 100к строк кода с помощью Gemini. И вы представляете, этот код почему-то не заработал! И вот теперь они ищут несколько MLE , чтобы заставить это творение работать. А не проще ли было сразу нанять людей, чтобы они с самого начала писали все как положено? Как известно, разобраться и починить чужой код (тем более такой, как в этом примере) куда более затратно по ресурсам. Ну и месяц работы СЕО наверное, не самый дешёвый...
Продолжаю наблюдение:)
😁3