Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#competitions

У меня не очень опыт с ML соревами - потратишь обычно кучу времени, потом вылезет какая-нить утечка данных. Или в конце выяснится, что для организатора соревнования главное - PR, а вовсе не реальная польза от моделек.

Но периодически накатывает, и пытаюсь влезть в какие-то ) Идея в том, чтобы свериться с индустрией, оценить, насколько сильно ты отстал от топов.

Сейчас на ODS идут 2 соревы, я решил поучаствовать для разнообразия. Попробуйте свои силы и вы.

Сначала советую AvitoTech ML cup 2024, только вчера стартануло, длиться 4 недели будет.
Потом смотрите VK RecSys Challenge , там уже полсрока прошло (ну все равно еще 7 недель есть).
1
#trading #crypto

Фантики-то растут! )

"За последние сутки курс биткоина вырос более чем на 9 %, благодаря чему криптовалюта смогла обновить исторический максимум. Предыдущий рекорд был зафиксирован 14 марта, тогда цена самой популярной криптовалюты мира на непродолжительное время поднялась до $73 797 за монету. С тех пор большую часть года цена биткоина находилась ниже отметки в $70 000.

Рост курса биткоина спровоцировали проходящие в США выборы президента страны. Кандидат от республиканской партии Дональд Трамп, по данным СМИ, лидирует в них. Инвесторы ожидали, что курс биткоина будет нестабилен до тех пор, пока не будет объявлен победитель президентских выборов. При этом в случае победы Трампа прогнозировался уверенный рост цифрового актива, тогда как победа кандидата от демократической партии Камалы Харрис (Kamala Harris) наоборот могла привести к понижению курса."

https://3dnews.ru/1113580/kurs-bitkoina-viros-do-rekordnih-znacheniy-kriptovalyuta-pereshagnula-otmetku-v-75-000-za-monetu
#politics #crypto

"Одним из ключевых моментов президентских выборов США также стала победа республиканца Берни Морено (Bernie Moreno) в штате Огайо. Морено, поддерживающий криптовалюты, выиграл сенаторское кресло у демократа Шеррода Брауна (Sherrod Brown), известного своей непримиримой критикой криптоиндустрии. Морено набрал более 2,8 млн голосов, или 50,2 % от общего числа, в то время как Браун получил 2,5 млн голосов, или 46,4 %. В этой гонке было потрачено более $500 млн, причём Fairshake также вложила $40 млн в поддержку Морено. Среди крупнейших спонсоров были такие компании, как Coinbase, Ripple Labs и Andreessen Horowitz."

https://3dnews.ru/1113620/tramp-vozvrashchaetsya-v-beliy-dom-vmeste-s-armiey-storonnikov-kriptovalyuti
#openai

"В мире технологий покупка дорогих доменов не является большой редкостью. Например, буквально несколько месяцев назад стартап Friend приобрёл домен friend.com за $1,8 млн после привлечения инвестиций на сумму $2,5 млн. А на фоне недавно полученных OpenAI $6,6 млрд сумма в $15,5 млн кажется незначительной."

А мне, если это правдивая инфа, трата $15,5 млн кажется дебилизмом.

https://3dnews.ru/1113619/openai-ne-pogalela-155-mln-na-pokupku-domena-chatcom
#cpu #hardware #intel

Тем временем у Интел вышли новы настольные процессоры.

https://www.ign.com/articles/intel-core-ultra-9-285k-review
#yan

Своего рода пробежка по несвязанным темам, но может натолкнуть на полезные идеи. Я выпишу несколько срезонировавших тем.

Machine learning involves trade-offs. Recall vs. precision. Explore vs. exploit. Relevance vs. diversity vs. serendipity. Accuracy vs. speed vs. cost. The challenge is figuring out the right balance for your user experience.

Set realistic expectations. Most problems have a ceiling on what can be achieved, especially those that involve predicting the behavior of unpredictable humans (e.g., search, recommendations, fraud). It may not make sense to aim beyond the ceiling, unless you’re doing core research to push the boundaries on what’s possible.

Don’t overlook the dimension of time. User preferences change. Inventory gets drawn down. Content relevance shifts. Daily, seasonally, over months and years. If time is a key factor in your problem (e.g., recommendations, search, news feed), ensure your systems and models are time-aware.

Build with an eye toward the future. Flexibility beats specialization in the long run. -Вот это наиболее спорный пункт, конечно, но и интересный. Есть факты за и против.

Don’t underestimate the effort it takes to go from demo to production. “There’s a large class of problems that are easy to imagine and build demos for, but extremely hard to make products out of. For example, self-driving. It’s easy to demo a car self-driving around a block but making it into a product takes a decade.” — Andrej Karpathy

Not everything needs to be in real-time. If your user experience allows it, consider batch or asynchronous workflows to simplify the system design and reduce operational costs. When designing a new system, ask yourself: Can this be async?

Design for fast failure detection and recovery. No system is perfect; stuff will slip through. Yet, there’s an optimal investment balance between prevention and cure. Monitoring, alerts, rollbacks, Andon cords—these will go a long way. - Про andon cords вообще не знал.

Not every challenge is technical. Some challenges are about alignment, culture, and organizations. Working with people is hard. When you zoom out, it turns out that tech is often the easier part.

To create winning products, dream big and sweat the small stuff. Aim for the stars but don’t forget the details. The best leaders have vision and get their hands dirty with the details. You can’t just do one or the other; you need to do both.

Humans are insatiable. LLMs will automate some tasks. LLMs will simplify others. But there will always be new problems to solve, and more things to build. AI won’t steal your job—it’ll just make it more interesting. - Скажите это массово уволенным операторам техподдержки!

https://eugeneyan.com/writing/conf-lessons/
👍1
#lean #management

"The andon cord represents a system by which any worker can invoke attention in case of a problem. It sends a notification to the maintenance or the management team before it’s too late. Consequently, it reduces waste and boosts progress."

https://www.plutora.com/blog/andon-cord
Forwarded from asisakov
Roadmap в DataScience

Десятки гайдов я перечитал в свое время про то, как вкатиться в наш любимый датасаенс. И не раз я встречал потом комментарии к ним, что подготовка по таким гайдам занимает не менее года, и потом за этим следует череда собеседований и отказов, которая может занимать в лучшем случае несколько недель, а в худшем даже больше года. Проблема - там огромная куча курсов с глубоким погружением почти во все направления, что отнимает много ресурсов и часто является оверкиллом.

Мы все понимаем, что вкладывать огромное количество времени и сил целый год подряд и даже без надежды на 100% успех, это немного тяжело - тем более с непрофильными фуллтайм учебой/работой. Не забываем также о том, что конкуренция на начальные позиции постоянно растет. Вместо условных 100 резюме на одну стажерскую позицию несколько лет назад, сейчас мы имеем 300 (цифры субъективны).

Итак. Давайте мы посмотрим с другой стороны на весь этот процесс и вспомним, что же нам нужно знать для прохождения всех этих собеседований. Обратившись к моим прошлым постам про собесы, мы вдруг понимаем, что вещей, которые следует знать, существует огромное множество. И каждый из этих элементов реально важен для своей специфики. Ну например: cuda, c++, linear algebra, gan, llm. Да, реально важны и нужны в своих областях 🤓

Вы наверно не поверите, если я скажу, что в DS можно вкатиться без знания всех этих вещей. Если мы отсортируем требования по вакансиям и попробуем посмотреть самое частое, то скорее всего в нашем списке будет только небольшое количество моментов: python, sql, classic ml, dl. Это некоторый минимум, чтобы попасть на стажировку на ML engineer или аналитика. Но минимум не означает, что шансы сильно вырастут, хотя они будут не околонулевые. Но если сюда докинуть пет-проект и знания узкой области, в которой планируется работать, то шансы многократно возрастают. Но база в виде указанных выше моментов все равно нужна.

Предполагаем, что нам в первую очередь нужно на базе: python, sql, classic ml, dl. И самое интересное, что никому не нужно 100% понимание и погружение. Я даже не видел вживую человека, который на 100% знает Python. При прохождении отбора на начальные позиции важнее иметь скиллы, которые являются базовыми и позволяют уже работать с инструментом быстро, даже если требуется гуглинг и это уже неплохо. К слову, ставьте 💯, если минимум 1 раз в день гуглите на работе.

Давайте попробуем понять, а какой же из этих скиллов может дать наибольший выхлоп сразу. А именно, со знанием какого скилла мы можем слегка доучиьтся и сразу пойти получать опыт? Можно даже отсортировать эти скиллы:

1️⃣SQL (+ подтянуть специфичную аналитику, Excel и A/B) - можно идти на стажера-аналитика
2️⃣SQL + Python (+ сделать пет-проект) - можно идти и на стажера-разработчика, и на стажера-аналитика
3️⃣SQL + Python + Classic ML + DL (+ сделать пет-проект + подтянуть специфику) - можно попробоваться даже на стажера ML-разработчика

По объему базовое понимание SQL статзначимо занимает меньше времени, чем базовое понимание Python. И, начав с SQL, погрузившись немного в аналитику и метрики, мы уже можем пробовать себя в аналитике, найти работу и уже получать опыт, пока подтягиваем Python и остальные скиллы. И совсем не обязательно это значит, что потом нужно идти дальше и менять направление на разработчика. Можно строить карьеру в аналитике дальше, либо можно пойти по менеджерскому треку и стать Project Manager или Product Owner. Главное понимать, где лежит бешеное желание развиваться.

Можно пройти хоть миллион курсов за несколько лет, но это не позволит получить 100% вероятность прохождения собеседования. Банально может не произойти сходство по вайбу. Поэтому с собеседованием тоже не стоит тянуть. Как только почувствовали уверенность в себе - можно идти набирать опыт в собеседованиях, искать точки роста и в конце концов, заветный оффер не заставит себя ждать 🤩

По курсам я могу сделать отдельный пост. И если это нужно, ставьте реакции и пишите комментарии. Кому интересно обсудить такой путь развития, welcome в комментарии.

@asisakov_channel

#career #interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
#codegems #seedir

Классная утилита seedir:

import seedir as sd

sd.seedir(
DATA_FOLDER,
style="lines",
itemlimit=10,
depthlimit=3,
exclude_folders=".ipynb_checkpoints",
sort=True,
)


data/
├─categories/
│ └─categories/
│ ├─unique.item_brand.parquet
│ ├─unique.item_category.parquet
│ ├─unique.item_id.parquet
│ ├─unique.item_shop.parquet
│ ├─unique.user_age.parquet
│ ├─unique.user_brands.parquet
│ ├─unique.user_categories.parquet
│ ├─unique.user_consumption_2.parquet
│ ├─unique.user_gender.parquet
│ └─unique.user_geography.parquet
├─processed/
│ ├─train/
│ │ ├─_file_list.txt
│ │ ├─_metadata
│ │ ├─_metadata.json
│ │ ├─part_0.parquet
│ │ └─schema.pbtxt
│ └─valid/
│ ├─_file_list.txt
│ ├─_metadata
│ ├─_metadata.json
│ ├─part_0.parquet
│ └─schema.pbtxt
├─train/
│ └─part.0.parquet
├─valid/
│ └─part.0.parquet
└─workflow/
├─categories/
│ ├─unique.item_brand.parquet
│ ├─unique.item_category.parquet
│ ├─unique.item_id.parquet
│ ├─unique.item_shop.parquet
│ ├─unique.user_age.parquet
│ ├─unique.user_brands.parquet
│ ├─unique.user_categories.parquet
│ ├─unique.user_consumption_2.parquet
│ ├─unique.user_gender.parquet
│ └─unique.user_geography.parquet
├─metadata.json
└─workflow.pkl
#windows #microsoft

Очень смешно!

"По словам сотрудника стороннего сервиса обновлений Heimdal, Microsoft допустила ошибку и классифицировала необязательное обновление операционной системы, связанное с Windows 11, и обновление безопасности для Windows Server 2022, как одно и то же обновление. В итоге новая ОС начинает установку, «замаскировавшись» под обычное обновление безопасности из-за путаницы в репозитории."

https://3dnews.ru/1113734/oshibka-v-sisteme-obnovleniy-privela-k-ustanovke-novoy-os-windows-server-2025-na-sistemi-s-windows-server-2022
#codegems #frameworks

С заменой sklearn/pytorch я не согласен, это глупость. selectolax я не знаю, а вот под всем остальным скорее подпишусь. Лучше начинать проекты с рекомендуемых тулз вместо исторически самых популярных.

https://python.plainenglish.io/5-overrated-python-libraries-and-what-you-should-use-instead-106bd9ded180
#animals #battleforlife

"That damn thing tried everything...ink.... camouflage...shape shifting 😂"

"He knows the bastard wants a tentacle. So he is actually hiding its tentacles under its body and shielding them. That is amazing and so smart."

"That octopus ran that fish into a stonefish. Very venomous. 200 IQ move."

https://www.youtube.com/shorts/wFZZrJuBMzQ
#hardware #tpu #gpu

Странный подход, сравнивать решения разной архитектуры поштучно. Какая мне нафиг разница, сколько там штук TPU будет, мне важна стоимость железа и электроэнергии.

"Система из 6144 TPU v5p достигла контрольной точки обучения GPT-3 за 11,77 мин, отстав от системы с 11 616 H100, которая выполнила задачу примерно за 3,44 мин. При одинаковом же количестве ускорителей решения Google почти вдвое отстают от решений NVIDIA, а разница между v5p и v6e составляет менее 10 %."

https://servernews.ru/1114029
#from #series

Приближается финал 3-го сезона сериальчика Извне. Люди заперты в деревеньке, из которой нельзя убежать, а по ночам к ним приходят монстры. А мы за этим с интересом наблюдаем )
2
#computers

Я даже не задумывался, что "компьютером" раньше называлась человеческая профессия, представители которой занимались вычислениями на арифмометрах!


https://www.youtube.com/watch?v=e049IoFBnLA