Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#business

Мне кажется, с финансированием в $1M я бы мог сделать несколько успешных стартапов, нанимая разработчиков. Так много хороших идей и так мало времени. Ни у кого нет лишнего ляма? Что характерно, несколько месяцев тому я написал письмо с подобным содержанием 5 моим лучшим клиентам, мол, не хотят ли проинвестировать в такое? Ни один не ответил. ) В сотрудничество/партнёрство я уже не верю, так как все "слишком заняты", чтобы начать работать и что-то полезное сделать. Только найм, или своими силами.
#astronomy #lifeorigin #jameswebb

"Спектральные приборы «Уэбба» позволили выделить в свете галактики SPT0418-47 сложные органические молекулы, которые на Земле обычно находятся в нефти. Обнаружить подобное в открытом космосе всего через 1,5 млрд лет после Большого взрыва — это было удивительно. Это указывает на то, что химические преобразования во Вселенной шли гораздо быстрее, чем это себе представляла земная наука. На тот момент Вселенная прошла только 10 % своего развития, а органики там не меньше чем в нашей галактике. Подобные вещества должны были быть в ней в следовых количествах и недоступны для определения земными приборами."

https://3dnews.ru/1087960/dgeyms-uebb-obnarugil-slognuyu-organiku-v-dalyokoy-galaktike-v-period-detstva-vselennoy
Forwarded from Борис опять
#лабораторный_журнал

ML - субоптимальное, но кост-эффективное решение.

Мы делаем на фабрике детекцию проблем с растениями. Но зачем детектить проблемы после того, как они произошли, если можно было бы работать над устранением проблем? Лучше не иметь проблем с ирригацией, чем узнавать о проблемах с ирригацией.

Суть в том, что затраты на решение проблем в зародыше имеют свойство расти очень быстро. Условно говоря устранить 90% проблем это просто база, 95% проблем это хорошо, 96% уже сложно, 99% очень дорого, 99.9% абсурдно дорого. Проценты взяты с потолка, но главное идея: затраты растут нелинейно и каждый процентик дается сложнее предыдущего.

Тогда можно хитрить: сделаем решение, которое работает немного хуже, чем оптимальное, но многократно дешевле. Здесь и приходит на помощь ML.

Кстати такой подход очень популярен в математике: заменяем точный расчет на приблизительный и получаем огромное ускорение за счет небольшой ошибки. Пример: семплирование, Монте-Карло симуляции.
Forwarded from Dealer.AI
Исследования MIT, о том как изменяется производительность труда с и без LLM.

А пока мы тут трындим за хайп и LLM. Ребята из MIT проделали мега соц.эксперимент. Они заперли 444 белых воротничка в офисе и заставили их делать ту же работу с и без ChatGPT.

Те лошадки, что были под допингом ChatGPT. Справились с работой на 37% быстрее, при той же оценке качества результата. Кстати, для этого они придумали специальную, репрезентативную систему оценки и выбрали экспертов. Пахать нужно было по 20-30 мин, в рамках типичных для этих людей задач. Но в целом ни одна "лошадка" не пострадала.

Далее, господа погонщики из MIT провели эксперимент по динамике роста качества, оно естественно, чем больше люди осваивались с ChatGPT росло. Потом ещё и попросили ребяток сделать за фиксированное время как можно больше задач. И снова ставка сыграла в бегах на лошадках с майками ChatGPT.

Ну и на последок. Так сказать для закрепления результатов. Подопытные повторили свою работу ещё разок. Повторенье мать ученья! В итоге, double elimination подтвердил всё указанное выше.

Далее, в статье указан предполагаемый экономический эффект. Анализируется мотивация участников эксперимента, запрашивается обратная связь.

По обратной связи:

Команда также спросила людей, “для чего они использовали ChatGPT”, и выяснила следующее. LLM сокращает время мозгового штурма, значительно сокращает время создания черновика, но затем проактивно используется в процессе окончательного редактирования.
Другими словами, это система, которая значительно ускоряет “первый набросок” и “первоначальные выводы” части работы, которые затем будут использоваться чуть более интенсивно для итогового эскиза. И это становится еще лучше. Когда они спросили респондентов, как они сами оценивают свои навыки письма, оказалось, что “готовность платить” и “полученная ценность” почти идентичны у “плохих писателей” и “хороших писателей”. Другими словами, ChatGPT помогает “плохим писателям” становиться хорошими, а “хорошим писателям” продвигаться быстрее и, возможно, становиться лучше! - Это что получается, что для кожаных мешков ChatGPT, как RETRO или Retrieval augmented для LLM!? 😜

Материальный вопрос:

На мой взгляд следующая мякотка вот тут. Респонденты, использовавшие ChatGPT, сообщили исследователям, что они готовы платить ежемесячную плату в размере 0,5% от своей зарплаты за доступ к этому инструменту! Для работника, зарабатывающего 100 000 долларов в год, это эквивалентно почти 500 долларам в год за пользование этой системой.

Выводы:
Воротнички, что не хотят оседлать прогресс и раскошелиться на api'шечку, рискуют утратить свою конкурентоспособность, проиграв в продуктивности на треть. 😱

Всем желаю быть в ресурсе и осваивать новые технологии!
2
#ml #slicediscovery

Насчёт "программируемых датасетов" показалось бредом, экспертные эвристики должны по итогам беседы с DS идти в признаки, а не заменять экспертную разметку. Confident learning неизбежно, coreset selection интересно. Slice discovery - не знал, что оно так называется. А кто знает, чем выбросы "отличаются" от аномалий? ))

https://www.youtube.com/watch?v=xR5mLxwNFR0
#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
🔥2👍1
#music #daskollektivnet #deutsch

Веками (ну уж декадами точно) философские вопросы AI интересовали людей. Не остались в строне и музыканты электро-синти-поп направления DasKollektiv.net )

"Ist mein Denken selbstgerecht,
Wenn Du mich am Leben lässt?
Wenn ich sage: ich war Der, der gab dir das Elexier
Dass Dich glauben lässt, du seist wertvoll und ein kluger Geist...
Ich bin Gott, der Leben schafft - oder treibt mich tiefster Hass?"

https://www.youtube.com/watch?v=mMAZdBFNGZI
#selfdriving

Первые испытания роботакси «Яндекс» провёл в 2018 году в Иннополисе, после чего они были перенесены в Москву. За прошедшее время беспилотные машины «Яндекса» наездили 24 млн км, а жители Иннополиса заказали более 60 тыс. поездок. Публичное тестирование роботакси станет новым этапом в развитии технологии беспилотной навигации."

https://3dnews.ru/1088043/v-moskve-poyavilis-robotaksi-ot-yandeksa
👍1
Forwarded from Время Валеры
Прочитал неплохую статью про новую систему левелов в Shopify - Inside Shopify's Leveling Split: Exclusive

Если кратко - и что видно на картинке превью, добавили еще одну ось - Mastery
Например ты можешь быть Staff Engineer и быть крутым на этом уровне и дальше перед тобой стоит выбор, идти на уровень выше, но тогда ты там уже не крутой, а просто обычный типан или расти и становиться гуру, но на своем уровне.

Идея интересная и разумная, потому что действительно, есть ряд людей, которых вроде как и повысить можно, а вроде как и не нужно. Ведь тогда вместо пользы в виде своей глубокой экспертизы на текущем уровне, они вынуждены будут становиться клеем для абстракции более высокого уровня, а нужны и те и те. Поэтому хочется им денег накинуть, а как это сделать без промо, не всегда понятно - поэтому и повышают бедолаг. Теперь можно повышать по деньгам, но не по уровню, за мастерство.

Тонко - интересно будет посмотреть - основную сложность вижу в еще одной калибровке, теперь по мастерству - а калибровка это всегда большой оверхэд

Из интересного - в компании появляются волшебники (впрочем в какой большой компании их нет?)

The concept of “wizards” is interesting. Mastery scores do not stop at 50; individuals can be assigned a mastery score that exceeds 50. Getting a score above this level makes someone a “wizard,” and needs exceptional justification. The general expectation is that wizards will be incredibly rare.

Остальное по мелочи - подрезали менеджеров (кто же против?) и рассказывают про компенсацию ( у шопифай интересная тема - что можно самому выбирать сколько стоков и сколько кэша получать - менять пропорцию в рамках своего компа)

В целом - интересно
#business #opticloud

А между тем, наконец-то полностью организован сбор ценовых данных и оценок доступности для AWS. Потрачен месяц вместо недели.
Работаю над API. Напоминаю, основная цель сервиса - быстро найти самые дешёвые сервера для облачных вычислений в достаточном количестве.

Раздумываю, как этим сервисом будут пользоваться вообще. Вот взять ML. Обычно мои задачи сводились к поиску серверов с достаточным объёмом RAM/VRAM на машину (чтобы хотя бы загрузился датасет), ядер чтоб побольше, и затем выбору инстанса с наименьшей спот-ценой. Ну, может, при обработке картинок еще был важен размер и тип локального диска.

Понятно, что в серьёзных кластерных вычислениях помимо цены надо ориентироваться ещё и на производительность на ядро CPU или GPU (+- с учетом архитектуры) для нагрузки конкретного типа.

Пока вырисовывается основной метод API:

find_best_servers(
workload="ml|finance|physics|rendering|integer|floating",
capacity={vcores,gpus,tpus},
hardware_requirements={cpu,gpu,tpu,ram,hdd,network},
schedule_requirements={start_time, duration_hours},
optimize_for="efficiency|price|performance|availability",
cloud_providers="any|aws|gcp|azure|ali|sber|etc",
lease_type="any|spot|ondemand"
)
,
который находит, скажем, топ-3 комбинации инстанса/облака/региона/зоны, удовлетворяющих критериям клиента по железу, доступности, и имеющих самое лучшее отношение производительность/цена для указанного типа нагрузки.

Пример вызова, чтобы подешевле посчитать тюнинг катбуста на табличке в миллион примеров с 300 фичами, на процессоре нового поколения, чтоб каждый сервер имел как минимум 20Gb RAM для открытия датасета, считать думаем на 500 ядрах около 2 часов, начать хотим сейчас:

find_best_servers(
workload={"type":"ml","framework":"catboost","dataset":{"nrows":1e6,"ncols":300},"hpt":True},
capacity={"vcores":500},
hardware_requirements={"ram":{"node_min_size":"20GB"},"cpu":{"features":"avx2"}},
schedule_requirements={"start_time":"now", "duration_hours":2},
optimize_for="efficiency",
cloud_providers="any",
lease_type="spot"
)

Пример ответа:

{'n_suitable_servers': 158,
'best_servers': [{'cloud_provider': 'aws',
'region': 'us-east-2',
'zone': 'az3',
'instance_type': 'r6idn.4xlarge',
'lease_type': 'spot',
'hardware_info': {...},
'n_required_instances': 62,
'expected_runtime_hours': 2,
'fulfillment_probability': 0.85,
'interruption_probability': 0.07,
'expected_instance_hourly_price': {'usd':0.3569},
'expected_workload_total_cost': {'usd':44.26},
'expected_average_savings': {'usd':7.11},
'workload_performance_rating':"15/1000",
}, ... ]}

Возможно, что данные будут грузиться из хранилища S3 некоторого региона, и будет удобно дать возможность указать, откуда и сколько данных потребуется загружать. Это позволит автоматически учесть стоимость трансфера в сервера "других регионов", чтобы потом не оказалось, что самый дешевый по железу сервер обошелся дорого из-за копирования данных.

Что ещё нужно учесть? Пишите в комменты советы и пожелания.
🔥2
Forwarded from Время Валеры
Что за день 7 июня

Deepmind утверждает что с помощью RL нашли алгоритмы для ускорения сортировки. New algorithms will transform the foundations of computing

AlphaDev uncovered new sorting algorithms that led to improvements in the LLVM libc++ sorting library that were up to 70% faster for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements.

AlphaDev not only found faster algorithms, but also uncovered novel approaches. Its sorting algorithms contain new sequences of instructions that save a single instruction each time they’re applied. This can have a huge impact as these algorithms are used trillions of times a day.

Еще затронули скорость хэш функций

We applied AlphaDev to one of the most commonly used algorithms for hashing in data structures to try and discover a faster algorithm. And when we applied it to the 9-16 bytes range of the hashing function, the algorithm that AlphaDev discovered was 30% faster.

Теперь осталось понять, так ли это, ребята авторитетные, но и понимать бы с чем что сравнивали и в каких условиях
#hinton

Почему знаменитости из мира учёных кажутся такими тупыми на публичных выступлениях? Взять Фейнмана, Хинтона.
Неуклюжие шутки про расизм и секс, поданная не лучшим образом иллюстрация широко известной концепции, "дружеский" пинок известного человека, и никаких инсайтов по делу. Или это я уже настолько отупел и ничего не вижу? Неужели это проблема завышенных ожиданий?

https://www.youtube.com/watch?v=EnmetgyiMic
1🤔1
#pandas

А кто-нибудь может мне объяснить, почему вообще работает ffill над группами с синтаксисом

df['sales'] = df.groupby('store')['sales'].ffill()

? Ведь фрейм не отсортирован.

https://www.statology.org/pandas-ffill-with-condition/
Forwarded from dev optozorax
Я сильно упоролся и хотел по имеющимся данным из прошлого поста построить гладкий график распределения.

Можно ведь как-то численными методами по набору точек аппроксимировать функцию их распределения, да?.. В интернете не нашёл готового ответа, поэтому решил изобрести это сам, с использованием полиномов. Оказалось довольно несложно.

В итоге мало того что написал математический вывод и приложил псевдокод, так ещё и сделал веб-интерфейс (прямо в статье!), куда вы можете вставить свои данные, и сразу получить нарисованную гистограмку, и гладкую кривую, статистику по ней, уравнение полинома!!!

Вы только представьте себе мир, где каждый учёный когда делает какой-то алгоритм, публикует в интернет веб-интерфейс своего алгоритма! Да никто так не сделает. А я взял и сделал))) Не могу иначе))))

https://optozorax.github.io/p/polynom-distribution/
1
Forwarded from Neural Info
I have been solving Kaggle competitions for about 2 months. Now I have finally reached the expert level in datasets. I've solved the Stable Diffusion - Image to Prompts competition in a team and won the bronze medal. And a lot of other work has been done and medals won. So now I can share my subjective opinion.

Advantages:
1. Large community. I met some new people, talked to them and learned a lot from their experiences.

2. You can implement your own ideas and see if it works or not in terms of competition. You can also use Kaggle for your own projects that aren't attached to competitions.

3. You have free GPU / TPU resources and really cool integration with Jupyter Notebooks.

4. You can upload large datasets to the Kaggle cloud and use them in notebooks directly from the cloud. If your datasets are public, there is no limit to the amount of space you can use.

5. Medals, levels, ranking points. These things make competitions more interesting and you can promote cool ideas, notebooks, datasets with upvotes.

Disadvantages:
1. You need a lot of resources for large competitions. If you have at least one A100, you have a big advantage over others who don't.

2. Competitions without interesting ideas can sometimes only be solved with large ensembles.

3. Some competitions have leaks and the solutions aren't close to real applications. It's just a correct number matching without model training, algorithm implementation, etc.

Conclusions:
Kaggle has become a hobby for me. I like solving competitions, implementing my ideas and Kaggle is also a platform for my small projects. One of them is fire segmentation on TPU using FLAX.
👍1