NEW BOT Телеграм, страница - 832918753

Aspiring Data Science

@AspiringDataScience

385 subscribers

465 photos

12 videos

12 files

2.15K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

385 subscribers

Aspiring Data Science

#surveys

Результаты опроса ML-щиков от devcrowd.

https://devcrowd.ru/ds24/

Исследование специалистов DS/ML/AI-направлений, 2024

Исследование рынка специалистов DS/ML/AI-направлений, 2024

DevCrowd вместе с Контуром провели исследование рынка специалистов DS/ML/AI-направлений, 2024

✍1👍1

132 viewsAnatoly Alekseev, 10:17

Aspiring Data Science

#politics #ai

Статья - просто песня )

"Если в 2016 году Альтман назвал первое избрание Трампа «худшим, что случилось в моей жизни», то сейчас он поздравил политика и пожелал ему «огромных успехов на этой работе»."

https://3dnews.ru/1113702/izbranie-trampa-znachitelno-povliyaet-na-tehnologicheskuyu-otrasl

3DNews - Daily Digital Digest

Избрание Трампа значительно повлияет на технологическую отрасль

С повторным избранием Дональда Трампа (Donald Trump) на пост президента США крупнейшие технологические компании надеются на более снисходительное отношение властей к слияниям и поглощениям, ослабление наиболее жёстких норм антимонопольного законодательства…

😁1

129 viewsAnatoly Alekseev, 10:34

Aspiring Data Science

#codegems #seedir

Классная утилита seedir:

import seedir as sd

sd.seedir(
    DATA_FOLDER,
    style="lines",
    itemlimit=10,
    depthlimit=3,
    exclude_folders=".ipynb_checkpoints",
    sort=True,
)

data/
├─categories/
│ └─categories/
│ ├─unique.item_brand.parquet
│ ├─unique.item_category.parquet
│ ├─unique.item_id.parquet
│ ├─unique.item_shop.parquet
│ ├─unique.user_age.parquet
│ ├─unique.user_brands.parquet
│ ├─unique.user_categories.parquet
│ ├─unique.user_consumption_2.parquet
│ ├─unique.user_gender.parquet
│ └─unique.user_geography.parquet
├─processed/
│ ├─train/
│ │ ├─_file_list.txt
│ │ ├─_metadata
│ │ ├─_metadata.json
│ │ ├─part_0.parquet
│ │ └─schema.pbtxt
│ └─valid/
│ ├─_file_list.txt
│ ├─_metadata
│ ├─_metadata.json
│ ├─part_0.parquet
│ └─schema.pbtxt
├─train/
│ └─part.0.parquet
├─valid/
│ └─part.0.parquet
└─workflow/
├─categories/
│ ├─unique.item_brand.parquet
│ ├─unique.item_category.parquet
│ ├─unique.item_id.parquet
│ ├─unique.item_shop.parquet
│ ├─unique.user_age.parquet
│ ├─unique.user_brands.parquet
│ ├─unique.user_categories.parquet
│ ├─unique.user_consumption_2.parquet
│ ├─unique.user_gender.parquet
│ └─unique.user_geography.parquet
├─metadata.json
└─workflow.pkl

141 viewsAnatoly Alekseev, 14:13

Aspiring Data Science

#windows #microsoft

Очень смешно!

"По словам сотрудника стороннего сервиса обновлений Heimdal, Microsoft допустила ошибку и классифицировала необязательное обновление операционной системы, связанное с Windows 11, и обновление безопасности для Windows Server 2022, как одно и то же обновление. В итоге новая ОС начинает установку, «замаскировавшись» под обычное обновление безопасности из-за путаницы в репозитории."

https://3dnews.ru/1113734/oshibka-v-sisteme-obnovleniy-privela-k-ustanovke-novoy-os-windows-server-2025-na-sistemi-s-windows-server-2022

3DNews - Daily Digital Digest

Из-за ошибки Microsoft cерверы на Windows Server 2022 внезапно обновили ОС до Windows Server 2025

Многочисленные системные администраторы пожаловались на форуме Reddit на то, что системы на Windows Server 2022 неожиданно начали обновляться до Windows Server 2025.

132 viewsAnatoly Alekseev, 16:27

Aspiring Data Science

#codegems #frameworks

С заменой sklearn/pytorch я не согласен, это глупость. selectolax я не знаю, а вот под всем остальным скорее подпишусь. Лучше начинать проекты с рекомендуемых тулз вместо исторически самых популярных.

https://python.plainenglish.io/5-overrated-python-libraries-and-what-you-should-use-instead-106bd9ded180

149 viewsAnatoly Alekseev, edited 04:49

Aspiring Data Science

#animals #battleforlife

"That damn thing tried everything...ink.... camouflage...shape shifting 😂"

"He knows the bastard wants a tentacle. So he is actually hiding its tentacles under its body and shielding them. That is amazing and so smart."

"That octopus ran that fish into a stonefish. Very venomous. 200 IQ move."

https://www.youtube.com/shorts/wFZZrJuBMzQ

Closed call life under ocean

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

144 viewsAnatoly Alekseev, edited 14:15

Aspiring Data Science

#hpo #hpt #benchmarks #cv

Кажется важной темой, т.к. я частенько вижу, что сделанный тюнинг модели не приводит к практическим улучшениям OOS.

https://www.youtube.com/watch?v=ZRQF72IXiDc

Xavier Bouthillier | "Reliability of benchmarks and why HPO is important"

Xavier Bouthillier | AutoML Seminars | 18.11.21

Title: Reliability of benchmarks and why HPO is important

Abstract
Strong empirical evidence that one machine-learning algorithm outperforms another one, ideally calls for multiple trials optimizing the learning…

👍1

141 viewsAnatoly Alekseev, 10:22

Aspiring Data Science

#physics #entropy #people #boltzmann

https://youtu.be/InP-f6l3vmU?si=6jtoixf5M4xehbVt

The Man Who Understood Entropy.

In the serene town of Duino, Italy, on September 5, 1906, physicist Ludwig Boltzmann took his own life. The reason was constant criticism for his belief in atoms—a concept most scientists of his era dismissed.

Boltzmann was among the first to use atoms…

👍1

114 viewsAnatoly Alekseev, edited 22:01

Aspiring Data Science

#hardware #tpu #gpu

Странный подход, сравнивать решения разной архитектуры поштучно. Какая мне нафиг разница, сколько там штук TPU будет, мне важна стоимость железа и электроэнергии.

"Система из 6144 TPU v5p достигла контрольной точки обучения GPT-3 за 11,77 мин, отстав от системы с 11 616 H100, которая выполнила задачу примерно за 3,44 мин. При одинаковом же количестве ускорителей решения Google почти вдвое отстают от решений NVIDIA, а разница между v5p и v6e составляет менее 10 %."

https://servernews.ru/1114029

ServerNews - все из мира больших мощностей

Google и NVIDIA показали первые результаты TPU v6 и B200 в ИИ-бенчмарке MLPerf Training

Ускорители Blackwell компании NVIDIA опередили в бенчмарках MLPerf Training 4.1 чипы H100 более чем в 2,2 раза, сообщил The Register. По словам NVIDIA, более высокая пропускная способность памяти в Blackwell также сыграла свою роль. Тесты были проведены с…

155 viewsAnatoly Alekseev, 22:37

Aspiring Data Science

#from #series

Приближается финал 3-го сезона сериальчика Извне. Люди заперты в деревеньке, из которой нельзя убежать, а по ночам к ним приходят монстры. А мы за этим с интересом наблюдаем )

✍2

158 viewsAnatoly Alekseev, 00:02

Aspiring Data Science

#computers

Я даже не задумывался, что "компьютером" раньше называлась человеческая профессия, представители которой занимались вычислениями на арифмометрах!

https://www.youtube.com/watch?v=e049IoFBnLA

Terence Tao at IMO 2024: AI and Mathematics

The AIMO Prize and IMO 2024 are supported by XTX Markets

https://aimoprize.com/

Speaking at the 65th IMO in Bath, UK, Terence Tao gives an overview of how computers and AI are being used in mathematical research. He discusses the evolution from early computational…

140 viewsAnatoly Alekseev, edited 16:21

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=U9ZVpNscIGg

Outfoxing a 1200-Rated Genius | Philidor, Bowdler Attack, Sicilian | GM Naroditsky's DYI Speedrun

00:00 Intro
00:30 Game 1
12:55 Analysis 1
22:00 Example 1
23:40 Back to Game
24:45 Game 2
40:34 Analysis 2
46:13 Example 2
48:39 Winter-Capablanca Example
49:35 Back to Game
01:03:15 5 Min Game (1800)
01:07:50 Analysis 3

Develop Your Instincts!
Ever wondered…

135 viewsAnatoly Alekseev, 06:30

Aspiring Data Science

#competitions #security #adversarial #fgsm #simbba

One pixel attack забавная.

"Как заставить LLM выдать вам все тайны вселенной?

Что скрывают в себе 192-мерные данные?

Что нам хочет сказать заключенный в модели искусственный интеллект?

Зачем ходить в душ?

На эти и другие вопросы пришлось находить ответы участникам Kaggle-соревнования AI Village Capture the Flag на DEFCON31. Я расскажу про самые интересные загадки и их решения, а также немного затрону тему важности AI Security в наше удивительное время."

https://www.youtube.com/watch?v=iwgZJcDzhjg

Михаил Каменщиков. AI CTF: решаем загадки, обманываем нейросети

Как заставить LLM выдать вам все тайны вселенной?

Что скрывают в себе 192-мерные данные?

Что нам хочет сказать заключенный в модели искусственный интеллект?

Зачем ходить в душ?

На эти и другие вопросы пришлось находить ответы участникам Kaggle-соревнования…

150 viewsAnatoly Alekseev, edited 19:41

Aspiring Data Science

#fun #truedetective

- What do you call a black man who flies a plane?
Detective Lutz :
- I don't know.
Detective Marty Hart :
- Pilot, you racist bastard!

✍1😁1

132 viewsAnatoly Alekseev, edited 01:20

Aspiring Data Science

#fun #californication

-Здравствуйте, Вы придумали новый порностартап на блокчейне?
-Нет. На дикчейне.

https://www.youtube.com/watch?v=JjWHHBueJiA

Californication - The Wall of Cocks

136 viewsAnatoly Alekseev, 16:47

Aspiring Data Science

#benchmarks #sota

Я не согласен с автором, что надо забить на бенчмарки в сфере интерпретабельности. "Просто" нужны хорошие синтетические бенчмарки.

"The obsession with benchmarks and SOTA runs deep:

Creation of benchmark islands.
People on social media arguing over which ML algorithm is better.
Difficulties in publishing new approaches that don’t beat the state-of-the-art.
LLM evaluation based on benchmarks even when they start memorizing them.

The hope is that the performance on these benchmark tasks and datasets are predictive of performance on new datasets. Ideally, the benchmark datasets are representative of the typical dataset you would work on in the future. But it’s not like we can sample from the distribution of datasets. Benchmarks are guided by what datasets are openly available (huge selection bias already) and which datasets are convenient to use (for example in clean CSV format and not in some wild Excel construct). Benchmarks are not representative samples, they are arbitrary samples."

https://mindfulmodeler.substack.com/p/we-are-obsessed-with-benchmarks

Mindful Modeler

We are obsessed with benchmarks

Two days ago, I talked to a causal ML researcher.

117 viewsAnatoly Alekseev, 20:26

Aspiring Data Science

#fairness

Что учить, одну модель на все регионы или по отдельной модельке для каждого региона?

В целом с Крисом согласен, но надо было упомянуть, что крайне желательно вообще делать такую проверку перформанса предиктивной модели по группам, условно говоря, что она для женщин и мужчин, старых и молодых, чёрных и белых, голубых фишек и неликвидов работает одинаково хорошо и не проседает, а где проседает, то почему, и не лучше ли там иметь отдельную модельку (а основную не сбивать с толку выбросами).

"The beautiful thing about performance-based evaluation is that if one of the two strategies wins, you also learn something about the prediction task. If the one model per entity strategy has a better performance, it means that there are mostly entity-specific effects.

In general, I tend to pack everything into one model. For starters, I am often too lazy to implement an additional logic that splits the data by entity and then stores multiple models and so on. Such a hassle. Also, when using tree-based algorithms like the random forest, Catboost, or XGBoost, they can handle entity-specific effects very naturally since they kind of emulate the model-per-entity approach when they split by entity ID. They can be even more “clever” about it since they can bundle entities that have similar relations between features and outcome."

https://mindfulmodeler.substack.com/p/one-model-or-many-balancing-entity

Mindful Modeler

One model or many? Balancing entity-specific effects in prediction tasks

What do you do in the following scenario?

106 viewsAnatoly Alekseev, edited 20:35

Aspiring Data Science

#tabular #anns #trees

Любопытная попытка объяснить известный феномен.

"According to Grinsztajn et. al (2022)4, tree-based methods work well for tabular data because they are not rotational invariant. In tabular data, the feature columns are often individually meaningful, and mixing them with other columns by rotating them is a disadvantage. An MLP first has to learn the right rotation and therefore has a more difficult task.

Sparse solutions: rotationally invariant models have a hard time distinguishing relevant and irrelevant features. Trees and forests are good at separating relevant and irrelevant and offer sparser solutions.

https://mindfulmodeler.substack.com/p/inductive-biases-of-the-random-forest

Mindful Modeler

Inductive biases of the Random Forest and their consequences

part 4 of the inductive bias series

116 viewsAnatoly Alekseev, edited 23:37

Aspiring Data Science

#ensembling #cv

Поржал с The Fuck-It Approach. На русский можно, наверное, перевести как ДебОК-метод.

https://mindfulmodeler.substack.com/p/how-to-get-from-evaluation-to-final

Mindful Modeler

How to get from evaluation to final model

We’ve all been there: You’ve set up a machine learning pipeline with tuning, model selection, and evaluation.

125 viewsAnatoly Alekseev, edited 23:46

Aspiring Data Science

#wisdom

"Machine learning changes how we see the world.

Success comes from focusing on failure.
Steer your career with stochastic gradient descent.
Put your trust in tight feedback loops.
Don’t overfit when buying stuff online.
Live a biased life."

https://mindfulmodeler.substack.com/p/machine-learning-algorithms-to-live

⚡1

130 viewsAnatoly Alekseev, edited 23:51

Aspiring Data Science

Forwarded from Small Data Science for Russian Adventurers

#книга
Онлайн-учебник по машинному и глубокому обучению от преподавателя ВМК МГУ Виктора Китова
https://deepmachinelearning.ru/

108 viewsAnatoly Alekseev, 01:47