Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
🔥2👍1
#music #daskollektivnet #deutsch

Веками (ну уж декадами точно) философские вопросы AI интересовали людей. Не остались в строне и музыканты электро-синти-поп направления DasKollektiv.net )

"Ist mein Denken selbstgerecht,
Wenn Du mich am Leben lässt?
Wenn ich sage: ich war Der, der gab dir das Elexier
Dass Dich glauben lässt, du seist wertvoll und ein kluger Geist...
Ich bin Gott, der Leben schafft - oder treibt mich tiefster Hass?"

https://www.youtube.com/watch?v=mMAZdBFNGZI
#selfdriving

Первые испытания роботакси «Яндекс» провёл в 2018 году в Иннополисе, после чего они были перенесены в Москву. За прошедшее время беспилотные машины «Яндекса» наездили 24 млн км, а жители Иннополиса заказали более 60 тыс. поездок. Публичное тестирование роботакси станет новым этапом в развитии технологии беспилотной навигации."

https://3dnews.ru/1088043/v-moskve-poyavilis-robotaksi-ot-yandeksa
👍1
Forwarded from Время Валеры
Прочитал неплохую статью про новую систему левелов в Shopify - Inside Shopify's Leveling Split: Exclusive

Если кратко - и что видно на картинке превью, добавили еще одну ось - Mastery
Например ты можешь быть Staff Engineer и быть крутым на этом уровне и дальше перед тобой стоит выбор, идти на уровень выше, но тогда ты там уже не крутой, а просто обычный типан или расти и становиться гуру, но на своем уровне.

Идея интересная и разумная, потому что действительно, есть ряд людей, которых вроде как и повысить можно, а вроде как и не нужно. Ведь тогда вместо пользы в виде своей глубокой экспертизы на текущем уровне, они вынуждены будут становиться клеем для абстракции более высокого уровня, а нужны и те и те. Поэтому хочется им денег накинуть, а как это сделать без промо, не всегда понятно - поэтому и повышают бедолаг. Теперь можно повышать по деньгам, но не по уровню, за мастерство.

Тонко - интересно будет посмотреть - основную сложность вижу в еще одной калибровке, теперь по мастерству - а калибровка это всегда большой оверхэд

Из интересного - в компании появляются волшебники (впрочем в какой большой компании их нет?)

The concept of “wizards” is interesting. Mastery scores do not stop at 50; individuals can be assigned a mastery score that exceeds 50. Getting a score above this level makes someone a “wizard,” and needs exceptional justification. The general expectation is that wizards will be incredibly rare.

Остальное по мелочи - подрезали менеджеров (кто же против?) и рассказывают про компенсацию ( у шопифай интересная тема - что можно самому выбирать сколько стоков и сколько кэша получать - менять пропорцию в рамках своего компа)

В целом - интересно
#business #opticloud

А между тем, наконец-то полностью организован сбор ценовых данных и оценок доступности для AWS. Потрачен месяц вместо недели.
Работаю над API. Напоминаю, основная цель сервиса - быстро найти самые дешёвые сервера для облачных вычислений в достаточном количестве.

Раздумываю, как этим сервисом будут пользоваться вообще. Вот взять ML. Обычно мои задачи сводились к поиску серверов с достаточным объёмом RAM/VRAM на машину (чтобы хотя бы загрузился датасет), ядер чтоб побольше, и затем выбору инстанса с наименьшей спот-ценой. Ну, может, при обработке картинок еще был важен размер и тип локального диска.

Понятно, что в серьёзных кластерных вычислениях помимо цены надо ориентироваться ещё и на производительность на ядро CPU или GPU (+- с учетом архитектуры) для нагрузки конкретного типа.

Пока вырисовывается основной метод API:

find_best_servers(
workload="ml|finance|physics|rendering|integer|floating",
capacity={vcores,gpus,tpus},
hardware_requirements={cpu,gpu,tpu,ram,hdd,network},
schedule_requirements={start_time, duration_hours},
optimize_for="efficiency|price|performance|availability",
cloud_providers="any|aws|gcp|azure|ali|sber|etc",
lease_type="any|spot|ondemand"
)
,
который находит, скажем, топ-3 комбинации инстанса/облака/региона/зоны, удовлетворяющих критериям клиента по железу, доступности, и имеющих самое лучшее отношение производительность/цена для указанного типа нагрузки.

Пример вызова, чтобы подешевле посчитать тюнинг катбуста на табличке в миллион примеров с 300 фичами, на процессоре нового поколения, чтоб каждый сервер имел как минимум 20Gb RAM для открытия датасета, считать думаем на 500 ядрах около 2 часов, начать хотим сейчас:

find_best_servers(
workload={"type":"ml","framework":"catboost","dataset":{"nrows":1e6,"ncols":300},"hpt":True},
capacity={"vcores":500},
hardware_requirements={"ram":{"node_min_size":"20GB"},"cpu":{"features":"avx2"}},
schedule_requirements={"start_time":"now", "duration_hours":2},
optimize_for="efficiency",
cloud_providers="any",
lease_type="spot"
)

Пример ответа:

{'n_suitable_servers': 158,
'best_servers': [{'cloud_provider': 'aws',
'region': 'us-east-2',
'zone': 'az3',
'instance_type': 'r6idn.4xlarge',
'lease_type': 'spot',
'hardware_info': {...},
'n_required_instances': 62,
'expected_runtime_hours': 2,
'fulfillment_probability': 0.85,
'interruption_probability': 0.07,
'expected_instance_hourly_price': {'usd':0.3569},
'expected_workload_total_cost': {'usd':44.26},
'expected_average_savings': {'usd':7.11},
'workload_performance_rating':"15/1000",
}, ... ]}

Возможно, что данные будут грузиться из хранилища S3 некоторого региона, и будет удобно дать возможность указать, откуда и сколько данных потребуется загружать. Это позволит автоматически учесть стоимость трансфера в сервера "других регионов", чтобы потом не оказалось, что самый дешевый по железу сервер обошелся дорого из-за копирования данных.

Что ещё нужно учесть? Пишите в комменты советы и пожелания.
🔥2
Forwarded from Время Валеры
Что за день 7 июня

Deepmind утверждает что с помощью RL нашли алгоритмы для ускорения сортировки. New algorithms will transform the foundations of computing

AlphaDev uncovered new sorting algorithms that led to improvements in the LLVM libc++ sorting library that were up to 70% faster for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements.

AlphaDev not only found faster algorithms, but also uncovered novel approaches. Its sorting algorithms contain new sequences of instructions that save a single instruction each time they’re applied. This can have a huge impact as these algorithms are used trillions of times a day.

Еще затронули скорость хэш функций

We applied AlphaDev to one of the most commonly used algorithms for hashing in data structures to try and discover a faster algorithm. And when we applied it to the 9-16 bytes range of the hashing function, the algorithm that AlphaDev discovered was 30% faster.

Теперь осталось понять, так ли это, ребята авторитетные, но и понимать бы с чем что сравнивали и в каких условиях
#hinton

Почему знаменитости из мира учёных кажутся такими тупыми на публичных выступлениях? Взять Фейнмана, Хинтона.
Неуклюжие шутки про расизм и секс, поданная не лучшим образом иллюстрация широко известной концепции, "дружеский" пинок известного человека, и никаких инсайтов по делу. Или это я уже настолько отупел и ничего не вижу? Неужели это проблема завышенных ожиданий?

https://www.youtube.com/watch?v=EnmetgyiMic
1🤔1
#pandas

А кто-нибудь может мне объяснить, почему вообще работает ffill над группами с синтаксисом

df['sales'] = df.groupby('store')['sales'].ffill()

? Ведь фрейм не отсортирован.

https://www.statology.org/pandas-ffill-with-condition/
Forwarded from dev optozorax
Я сильно упоролся и хотел по имеющимся данным из прошлого поста построить гладкий график распределения.

Можно ведь как-то численными методами по набору точек аппроксимировать функцию их распределения, да?.. В интернете не нашёл готового ответа, поэтому решил изобрести это сам, с использованием полиномов. Оказалось довольно несложно.

В итоге мало того что написал математический вывод и приложил псевдокод, так ещё и сделал веб-интерфейс (прямо в статье!), куда вы можете вставить свои данные, и сразу получить нарисованную гистограмку, и гладкую кривую, статистику по ней, уравнение полинома!!!

Вы только представьте себе мир, где каждый учёный когда делает какой-то алгоритм, публикует в интернет веб-интерфейс своего алгоритма! Да никто так не сделает. А я взял и сделал))) Не могу иначе))))

https://optozorax.github.io/p/polynom-distribution/
1
Forwarded from Neural Info
I have been solving Kaggle competitions for about 2 months. Now I have finally reached the expert level in datasets. I've solved the Stable Diffusion - Image to Prompts competition in a team and won the bronze medal. And a lot of other work has been done and medals won. So now I can share my subjective opinion.

Advantages:
1. Large community. I met some new people, talked to them and learned a lot from their experiences.

2. You can implement your own ideas and see if it works or not in terms of competition. You can also use Kaggle for your own projects that aren't attached to competitions.

3. You have free GPU / TPU resources and really cool integration with Jupyter Notebooks.

4. You can upload large datasets to the Kaggle cloud and use them in notebooks directly from the cloud. If your datasets are public, there is no limit to the amount of space you can use.

5. Medals, levels, ranking points. These things make competitions more interesting and you can promote cool ideas, notebooks, datasets with upvotes.

Disadvantages:
1. You need a lot of resources for large competitions. If you have at least one A100, you have a big advantage over others who don't.

2. Competitions without interesting ideas can sometimes only be solved with large ensembles.

3. Some competitions have leaks and the solutions aren't close to real applications. It's just a correct number matching without model training, algorithm implementation, etc.

Conclusions:
Kaggle has become a hobby for me. I like solving competitions, implementing my ideas and Kaggle is also a platform for my small projects. One of them is fire segmentation on TPU using FLAX.
👍1
Когда читатель открывает типичную книгу по топологии (особенно если она советская), его глазам немедленно предстают целые горы наваленных друг на друга непонятных математических символов и терминов, которые вводятся сходу через большие, громоздкие формулы, с минимальным количеством объяснений и примеров. Неудивительно, что в глазах многих читателей эти символы как бы складываются в буквы "пошел на ***", после человек думает "ладно" и закрывает книгу.
Данная брошюра (Рис.1) призвана смягчить эту проблему, делая упор на наглядность, большое количество иллюстраций, примеров и задач (см. предисловие на рис.2-3), давая читателю возможность освоиться с интуицией вводимых определений, прежде чем переходить к сложным, большим формулам. Например, она может быть полезна для младшекурсников, которые могут прочитать ее перед тем, как переходить к более сложным курсами по топологии или использовать параллельно с такими курсами, чтобы лучше во всем разобраться.
Большим плюсом является то, что в книге есть не только задачи, но и их решения, что поможет не застопориться, если что-то не получается.
На рис. 4 изображено содержание книги. Главы 1-5 и 9 посвящены некоторым основным понятиям (используемым во всей топологии) и нескольким темам из теории узлов (маломерной топологии). Эти главы может понять и старшеклассник с хорошей мат.подготовкой. Главы 6-8 примыкают к дифференциальной топологии и являются более сложными.
На рис. 5 и 6 приведено рассуждение про инварианты узлов; на рис. 7 и 8 - более сложное рассужение-доказательство известной формулы Эйлера с помощью понятий об особых точках векторного поля.
Я иногда листаю эту книгу чтобы припомнить что-то забытое из курсов по топологии или решаю упражнения из нее для разминки.

#математика #учебные_материалы
1
При работе с временными рядами часто нужно прогнозировать от одной точки на разные горизонты (день, неделя, месяц). По Вашему опыту, при одинаковых входах, что лучше (в терминах точности предсказаний и других ML-метрик)? Комменты приветствуются.
Anonymous Poll
60%
N отдельных моделей, 1 на каждый горизонт
10%
1 модель со столбцом "желаемый горизонт прогноза"
30%
1 модель с мультитаргетом (Y - вектор, а не скаляр)