Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#windows #microsoft

Очень смешно!

"По словам сотрудника стороннего сервиса обновлений Heimdal, Microsoft допустила ошибку и классифицировала необязательное обновление операционной системы, связанное с Windows 11, и обновление безопасности для Windows Server 2022, как одно и то же обновление. В итоге новая ОС начинает установку, «замаскировавшись» под обычное обновление безопасности из-за путаницы в репозитории."

https://3dnews.ru/1113734/oshibka-v-sisteme-obnovleniy-privela-k-ustanovke-novoy-os-windows-server-2025-na-sistemi-s-windows-server-2022
#codegems #frameworks

С заменой sklearn/pytorch я не согласен, это глупость. selectolax я не знаю, а вот под всем остальным скорее подпишусь. Лучше начинать проекты с рекомендуемых тулз вместо исторически самых популярных.

https://python.plainenglish.io/5-overrated-python-libraries-and-what-you-should-use-instead-106bd9ded180
#animals #battleforlife

"That damn thing tried everything...ink.... camouflage...shape shifting 😂"

"He knows the bastard wants a tentacle. So he is actually hiding its tentacles under its body and shielding them. That is amazing and so smart."

"That octopus ran that fish into a stonefish. Very venomous. 200 IQ move."

https://www.youtube.com/shorts/wFZZrJuBMzQ
#hardware #tpu #gpu

Странный подход, сравнивать решения разной архитектуры поштучно. Какая мне нафиг разница, сколько там штук TPU будет, мне важна стоимость железа и электроэнергии.

"Система из 6144 TPU v5p достигла контрольной точки обучения GPT-3 за 11,77 мин, отстав от системы с 11 616 H100, которая выполнила задачу примерно за 3,44 мин. При одинаковом же количестве ускорителей решения Google почти вдвое отстают от решений NVIDIA, а разница между v5p и v6e составляет менее 10 %."

https://servernews.ru/1114029
#from #series

Приближается финал 3-го сезона сериальчика Извне. Люди заперты в деревеньке, из которой нельзя убежать, а по ночам к ним приходят монстры. А мы за этим с интересом наблюдаем )
2
#computers

Я даже не задумывался, что "компьютером" раньше называлась человеческая профессия, представители которой занимались вычислениями на арифмометрах!


https://www.youtube.com/watch?v=e049IoFBnLA
#competitions #security #adversarial #fgsm #simbba

One pixel attack забавная.

"Как заставить LLM выдать вам все тайны вселенной?

Что скрывают в себе 192-мерные данные?

Что нам хочет сказать заключенный в модели искусственный интеллект?

Зачем ходить в душ?

На эти и другие вопросы пришлось находить ответы участникам Kaggle-соревнования AI Village Capture the Flag на DEFCON31. Я расскажу про самые интересные загадки и их решения, а также немного затрону тему важности AI Security в наше удивительное время."

https://www.youtube.com/watch?v=iwgZJcDzhjg
#fun #truedetective

- What do you call a black man who flies a plane?
Detective Lutz :
- I don't know.
Detective Marty Hart :
- Pilot, you racist bastard!
1😁1
#fun #californication

-Здравствуйте, Вы придумали новый порностартап на блокчейне?
-Нет. На дикчейне.

https://www.youtube.com/watch?v=JjWHHBueJiA
#benchmarks #sota

Я не согласен с автором, что надо забить на бенчмарки в сфере интерпретабельности. "Просто" нужны хорошие синтетические бенчмарки.

"The obsession with benchmarks and SOTA runs deep:

Creation of benchmark islands.
People on social media arguing over which ML algorithm is better.
Difficulties in publishing new approaches that don’t beat the state-of-the-art.
LLM evaluation based on benchmarks even when they start memorizing them.

The hope is that the performance on these benchmark tasks and datasets are predictive of performance on new datasets. Ideally, the benchmark datasets are representative of the typical dataset you would work on in the future. But it’s not like we can sample from the distribution of datasets. Benchmarks are guided by what datasets are openly available (huge selection bias already) and which datasets are convenient to use (for example in clean CSV format and not in some wild Excel construct). Benchmarks are not representative samples, they are arbitrary samples."

https://mindfulmodeler.substack.com/p/we-are-obsessed-with-benchmarks
#fairness

Что учить, одну модель на все регионы или по отдельной модельке для каждого региона?

В целом с Крисом согласен, но надо было упомянуть, что крайне желательно вообще делать такую проверку перформанса предиктивной модели по группам, условно говоря, что она для женщин и мужчин, старых и молодых, чёрных и белых, голубых фишек и неликвидов работает одинаково хорошо и не проседает, а где проседает, то почему, и не лучше ли там иметь отдельную модельку (а основную не сбивать с толку выбросами).

"The beautiful thing about performance-based evaluation is that if one of the two strategies wins, you also learn something about the prediction task. If the one model per entity strategy has a better performance, it means that there are mostly entity-specific effects.

In general, I tend to pack everything into one model. For starters, I am often too lazy to implement an additional logic that splits the data by entity and then stores multiple models and so on. Such a hassle. Also, when using tree-based algorithms like the random forest, Catboost, or XGBoost, they can handle entity-specific effects very naturally since they kind of emulate the model-per-entity approach when they split by entity ID. They can be even more “clever” about it since they can bundle entities that have similar relations between features and outcome."

https://mindfulmodeler.substack.com/p/one-model-or-many-balancing-entity
#tabular #anns #trees

Любопытная попытка объяснить известный феномен.

"According to Grinsztajn et. al (2022)4, tree-based methods work well for tabular data because they are not rotational invariant. In tabular data, the feature columns are often individually meaningful, and mixing them with other columns by rotating them is a disadvantage. An MLP first has to learn the right rotation and therefore has a more difficult task.

Sparse solutions: rotationally invariant models have a hard time distinguishing relevant and irrelevant features. Trees and forests are good at separating relevant and irrelevant and offer sparser solutions.

https://mindfulmodeler.substack.com/p/inductive-biases-of-the-random-forest
#wisdom

"Machine learning changes how we see the world.

Success comes from focusing on failure.
Steer your career with stochastic gradient descent.
Put your trust in tight feedback loops.
Don’t overfit when buying stuff online.
Live a biased life."

https://mindfulmodeler.substack.com/p/machine-learning-algorithms-to-live
1
#книга
Онлайн-учебник по машинному и глубокому обучению от преподавателя ВМК МГУ Виктора Китова
https://deepmachinelearning.ru/
#doge #musk

Как грится, толковый программист может заменить всё министерство на один скрипт ) DOGE - это троллинг на криптовалюту такой, да?

"Как пишет издание The Verge, предложение Маска и Рамасвами состоит в том, чтобы определить минимальное количество сотрудников и функций, необходимых для выполнения каждым федеральным агентством своих конституционных обязанностей. Они также намерены пересмотреть и отменить множество регуляций, которые, по их словам, замедляют работу государственных органов.

Несмотря на то, что DOGE пока существует лишь на бумаге, сторонники Дональда Трампа активно обсуждают эту идею. "

https://3dnews.ru/1114461/ilon-mask-hochet-reorganizovat-gosupravlenie-v-ssha-provedya-massovoe-sokrashchenie-gosapparata
Дайджест соревнований до конца года (при необходимости будет пополняться):

[ХАК] ФИЦ
Даты: 29.11 - 4.12 (рег. до 26.11)
🔜 [NLP] Кейс 2 - БухПульс - Разработать алгоритм сбора обратной связи от пользователей сервисе «Бухэксперт8».
🔜 [CV] Кейс 3 - Классификации опор ЛЭП по фото.
🔜 [NLP] Кейс 4 - Погонщик нейронок - Как можно быстрее сделать react приложение по макету из Figma, используя любые ИИ помощники.
🔜 [NLP] Кейс 5 - Оценка уровня экспертности по резюме.
🔜 [NLP] Кейс 6 - Контекстный перевод названий научных работ.
🔜 [TS] Кейс 7 - Прогнозирование бизнес драйверов (трафик людей, количество чеков, количество проданных товаров и т.д).
🔜 [CV] Кейс 8 - Формирование фото и видео контента с использованием нейросетей на основе биографии и фото персоны.
🔜 [CV] Кейс 9 - Разработка алгоритма трекинга людей в видеопотоке с нескольких камер.
🔜 [NLP] Кейс 11 - Симуляция записи в расписание.
🔜 [CV] Кейс 12 - Сервис для ведения реестра зеленых насаждений города Москвы: подсчета их количества, определения породы и пр. по фото.
🔜 [CV] Кейс 14 - Определение доступа на объект с использованием модели распознавания лиц.
🔜 [NLP] Кейс 15 - Семантический делитель текстов.
🔜 [CLF] Кейс 17 - Стартовый (профилактический) комплаенс: предотвращение рисков с помощью AI.
🔜 [NLP] Кейс 20 - Цифровой помощник юриста.
💰 Приз: 6 000 000 т.р.
🏀 Участие: команда 2-6 человек
🌐 Формат: отборочный этап - онлайн, финал - офлайн (Москва)

[ХАК] Норникель: интеллектуальные горизонты
Даты: 6.12 - 8.12 (рег. до 2.12)
🔜 [TS] Трек 1 - Флотомашина времени. Поиск наиболее эффективных диапазонов работы оборудования для повышения извлечения руды.
🔜 [CV] Трек 2 - Грязные дела. Разработать метод определения степени загрязнения кадра, чтобы обеспечить надежную работу камер на производстве.
🔜 [NLP] Трек 3 - Мультимодальные RAG модели. Разработка RAG системы для поиска информации в текстовых документах и картинках.
💰 Приз: 1 500 000 т.р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн

[ХАК] Совкомбанк SecureHack
Даты: 6.12 - 15.12 (рег. до 4.12)
🔜 [NLP] Задача - необходимо создать продукт, который позволит разработчикам, аналитикам информационной безопасности и проектным менеджерам оценивать безопасность своих проектов, сервисов, задач на основе входных данных и предоставлять заключения с практическими рекомендациями по улучшению.
💰 Приз: 300 000 т.р.
🏀 Участие: команда 1-3 человек
🌐 Формат: онлайн

[ХАК] ТерраЛинк Code Fest
Даты: 9.12 - 15.12 (рег. до 6.12)
🔜 [NLP] Задача 1. Цифровой ассистент пользователя для исполнения функциональных команд.
🔜 [NLP] Задача 2. Нейросеть для проверки соответствия документации стандартам компании с выявлением рисков и отклонений.
🔜 [NLP] Задача 3. Нейросеть по распознавание текста (OCR), классификация документов, автоматическое извлечение данных, проверка орфографии, пунктуации, соответствии СТО компании.
💰 Приз: 600 000 т.р.
🏀 Участие: команда 2-5 человек
🌐 Формат: онлайн
Please open Telegram to view this post
VIEW IN TELEGRAM