Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#hardware #intel

"Intel заявила, что её перспективная технология, названная PowerVia, обеспечивает 6-процентный прирост частоты на тестовых чипах уже сейчас. Также на 30 % уменьшается падение напряжения и снижаются рабочие температуры. Кроме того, благодаря вынесению питания на другую сторону чипа, разработчики получают возможность проектировать более плотные микросхемы.

В Arrow Lake, преемнике процессора Meteor Lake, который выйдет в 2024 году, Intel отделит линии напряжения от сигнальных линий, перенеся их на противоположную сторону чипа. Именно это решение Intel и называет именем PowerVia. «PowerVia это революционное изменение для межсоединений на кристалле, которое улучшает мощность, производительность, площадь и стоимость, то есть все важные параметры транзисторного дизайна», — сказал Бен Селл (Ben Sell), вице-президент Intel, работавший над технологией."

https://3dnews.ru/1087917/intel-povisit-chastoti-protsessorov-arrow-lake-za-schyot-tehnologii-powervia-eyo-uspeshno-proverili
1
#business

Мне кажется, с финансированием в $1M я бы мог сделать несколько успешных стартапов, нанимая разработчиков. Так много хороших идей и так мало времени. Ни у кого нет лишнего ляма? Что характерно, несколько месяцев тому я написал письмо с подобным содержанием 5 моим лучшим клиентам, мол, не хотят ли проинвестировать в такое? Ни один не ответил. ) В сотрудничество/партнёрство я уже не верю, так как все "слишком заняты", чтобы начать работать и что-то полезное сделать. Только найм, или своими силами.
#astronomy #lifeorigin #jameswebb

"Спектральные приборы «Уэбба» позволили выделить в свете галактики SPT0418-47 сложные органические молекулы, которые на Земле обычно находятся в нефти. Обнаружить подобное в открытом космосе всего через 1,5 млрд лет после Большого взрыва — это было удивительно. Это указывает на то, что химические преобразования во Вселенной шли гораздо быстрее, чем это себе представляла земная наука. На тот момент Вселенная прошла только 10 % своего развития, а органики там не меньше чем в нашей галактике. Подобные вещества должны были быть в ней в следовых количествах и недоступны для определения земными приборами."

https://3dnews.ru/1087960/dgeyms-uebb-obnarugil-slognuyu-organiku-v-dalyokoy-galaktike-v-period-detstva-vselennoy
Forwarded from Борис опять
#лабораторный_журнал

ML - субоптимальное, но кост-эффективное решение.

Мы делаем на фабрике детекцию проблем с растениями. Но зачем детектить проблемы после того, как они произошли, если можно было бы работать над устранением проблем? Лучше не иметь проблем с ирригацией, чем узнавать о проблемах с ирригацией.

Суть в том, что затраты на решение проблем в зародыше имеют свойство расти очень быстро. Условно говоря устранить 90% проблем это просто база, 95% проблем это хорошо, 96% уже сложно, 99% очень дорого, 99.9% абсурдно дорого. Проценты взяты с потолка, но главное идея: затраты растут нелинейно и каждый процентик дается сложнее предыдущего.

Тогда можно хитрить: сделаем решение, которое работает немного хуже, чем оптимальное, но многократно дешевле. Здесь и приходит на помощь ML.

Кстати такой подход очень популярен в математике: заменяем точный расчет на приблизительный и получаем огромное ускорение за счет небольшой ошибки. Пример: семплирование, Монте-Карло симуляции.
Forwarded from Dealer.AI
Исследования MIT, о том как изменяется производительность труда с и без LLM.

А пока мы тут трындим за хайп и LLM. Ребята из MIT проделали мега соц.эксперимент. Они заперли 444 белых воротничка в офисе и заставили их делать ту же работу с и без ChatGPT.

Те лошадки, что были под допингом ChatGPT. Справились с работой на 37% быстрее, при той же оценке качества результата. Кстати, для этого они придумали специальную, репрезентативную систему оценки и выбрали экспертов. Пахать нужно было по 20-30 мин, в рамках типичных для этих людей задач. Но в целом ни одна "лошадка" не пострадала.

Далее, господа погонщики из MIT провели эксперимент по динамике роста качества, оно естественно, чем больше люди осваивались с ChatGPT росло. Потом ещё и попросили ребяток сделать за фиксированное время как можно больше задач. И снова ставка сыграла в бегах на лошадках с майками ChatGPT.

Ну и на последок. Так сказать для закрепления результатов. Подопытные повторили свою работу ещё разок. Повторенье мать ученья! В итоге, double elimination подтвердил всё указанное выше.

Далее, в статье указан предполагаемый экономический эффект. Анализируется мотивация участников эксперимента, запрашивается обратная связь.

По обратной связи:

Команда также спросила людей, “для чего они использовали ChatGPT”, и выяснила следующее. LLM сокращает время мозгового штурма, значительно сокращает время создания черновика, но затем проактивно используется в процессе окончательного редактирования.
Другими словами, это система, которая значительно ускоряет “первый набросок” и “первоначальные выводы” части работы, которые затем будут использоваться чуть более интенсивно для итогового эскиза. И это становится еще лучше. Когда они спросили респондентов, как они сами оценивают свои навыки письма, оказалось, что “готовность платить” и “полученная ценность” почти идентичны у “плохих писателей” и “хороших писателей”. Другими словами, ChatGPT помогает “плохим писателям” становиться хорошими, а “хорошим писателям” продвигаться быстрее и, возможно, становиться лучше! - Это что получается, что для кожаных мешков ChatGPT, как RETRO или Retrieval augmented для LLM!? 😜

Материальный вопрос:

На мой взгляд следующая мякотка вот тут. Респонденты, использовавшие ChatGPT, сообщили исследователям, что они готовы платить ежемесячную плату в размере 0,5% от своей зарплаты за доступ к этому инструменту! Для работника, зарабатывающего 100 000 долларов в год, это эквивалентно почти 500 долларам в год за пользование этой системой.

Выводы:
Воротнички, что не хотят оседлать прогресс и раскошелиться на api'шечку, рискуют утратить свою конкурентоспособность, проиграв в продуктивности на треть. 😱

Всем желаю быть в ресурсе и осваивать новые технологии!
2
#ml #slicediscovery

Насчёт "программируемых датасетов" показалось бредом, экспертные эвристики должны по итогам беседы с DS идти в признаки, а не заменять экспертную разметку. Confident learning неизбежно, coreset selection интересно. Slice discovery - не знал, что оно так называется. А кто знает, чем выбросы "отличаются" от аномалий? ))

https://www.youtube.com/watch?v=xR5mLxwNFR0
#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.
🔥2👍1
#music #daskollektivnet #deutsch

Веками (ну уж декадами точно) философские вопросы AI интересовали людей. Не остались в строне и музыканты электро-синти-поп направления DasKollektiv.net )

"Ist mein Denken selbstgerecht,
Wenn Du mich am Leben lässt?
Wenn ich sage: ich war Der, der gab dir das Elexier
Dass Dich glauben lässt, du seist wertvoll und ein kluger Geist...
Ich bin Gott, der Leben schafft - oder treibt mich tiefster Hass?"

https://www.youtube.com/watch?v=mMAZdBFNGZI
#selfdriving

Первые испытания роботакси «Яндекс» провёл в 2018 году в Иннополисе, после чего они были перенесены в Москву. За прошедшее время беспилотные машины «Яндекса» наездили 24 млн км, а жители Иннополиса заказали более 60 тыс. поездок. Публичное тестирование роботакси станет новым этапом в развитии технологии беспилотной навигации."

https://3dnews.ru/1088043/v-moskve-poyavilis-robotaksi-ot-yandeksa
👍1
Forwarded from Время Валеры
Прочитал неплохую статью про новую систему левелов в Shopify - Inside Shopify's Leveling Split: Exclusive

Если кратко - и что видно на картинке превью, добавили еще одну ось - Mastery
Например ты можешь быть Staff Engineer и быть крутым на этом уровне и дальше перед тобой стоит выбор, идти на уровень выше, но тогда ты там уже не крутой, а просто обычный типан или расти и становиться гуру, но на своем уровне.

Идея интересная и разумная, потому что действительно, есть ряд людей, которых вроде как и повысить можно, а вроде как и не нужно. Ведь тогда вместо пользы в виде своей глубокой экспертизы на текущем уровне, они вынуждены будут становиться клеем для абстракции более высокого уровня, а нужны и те и те. Поэтому хочется им денег накинуть, а как это сделать без промо, не всегда понятно - поэтому и повышают бедолаг. Теперь можно повышать по деньгам, но не по уровню, за мастерство.

Тонко - интересно будет посмотреть - основную сложность вижу в еще одной калибровке, теперь по мастерству - а калибровка это всегда большой оверхэд

Из интересного - в компании появляются волшебники (впрочем в какой большой компании их нет?)

The concept of “wizards” is interesting. Mastery scores do not stop at 50; individuals can be assigned a mastery score that exceeds 50. Getting a score above this level makes someone a “wizard,” and needs exceptional justification. The general expectation is that wizards will be incredibly rare.

Остальное по мелочи - подрезали менеджеров (кто же против?) и рассказывают про компенсацию ( у шопифай интересная тема - что можно самому выбирать сколько стоков и сколько кэша получать - менять пропорцию в рамках своего компа)

В целом - интересно
#business #opticloud

А между тем, наконец-то полностью организован сбор ценовых данных и оценок доступности для AWS. Потрачен месяц вместо недели.
Работаю над API. Напоминаю, основная цель сервиса - быстро найти самые дешёвые сервера для облачных вычислений в достаточном количестве.

Раздумываю, как этим сервисом будут пользоваться вообще. Вот взять ML. Обычно мои задачи сводились к поиску серверов с достаточным объёмом RAM/VRAM на машину (чтобы хотя бы загрузился датасет), ядер чтоб побольше, и затем выбору инстанса с наименьшей спот-ценой. Ну, может, при обработке картинок еще был важен размер и тип локального диска.

Понятно, что в серьёзных кластерных вычислениях помимо цены надо ориентироваться ещё и на производительность на ядро CPU или GPU (+- с учетом архитектуры) для нагрузки конкретного типа.

Пока вырисовывается основной метод API:

find_best_servers(
workload="ml|finance|physics|rendering|integer|floating",
capacity={vcores,gpus,tpus},
hardware_requirements={cpu,gpu,tpu,ram,hdd,network},
schedule_requirements={start_time, duration_hours},
optimize_for="efficiency|price|performance|availability",
cloud_providers="any|aws|gcp|azure|ali|sber|etc",
lease_type="any|spot|ondemand"
)
,
который находит, скажем, топ-3 комбинации инстанса/облака/региона/зоны, удовлетворяющих критериям клиента по железу, доступности, и имеющих самое лучшее отношение производительность/цена для указанного типа нагрузки.

Пример вызова, чтобы подешевле посчитать тюнинг катбуста на табличке в миллион примеров с 300 фичами, на процессоре нового поколения, чтоб каждый сервер имел как минимум 20Gb RAM для открытия датасета, считать думаем на 500 ядрах около 2 часов, начать хотим сейчас:

find_best_servers(
workload={"type":"ml","framework":"catboost","dataset":{"nrows":1e6,"ncols":300},"hpt":True},
capacity={"vcores":500},
hardware_requirements={"ram":{"node_min_size":"20GB"},"cpu":{"features":"avx2"}},
schedule_requirements={"start_time":"now", "duration_hours":2},
optimize_for="efficiency",
cloud_providers="any",
lease_type="spot"
)

Пример ответа:

{'n_suitable_servers': 158,
'best_servers': [{'cloud_provider': 'aws',
'region': 'us-east-2',
'zone': 'az3',
'instance_type': 'r6idn.4xlarge',
'lease_type': 'spot',
'hardware_info': {...},
'n_required_instances': 62,
'expected_runtime_hours': 2,
'fulfillment_probability': 0.85,
'interruption_probability': 0.07,
'expected_instance_hourly_price': {'usd':0.3569},
'expected_workload_total_cost': {'usd':44.26},
'expected_average_savings': {'usd':7.11},
'workload_performance_rating':"15/1000",
}, ... ]}

Возможно, что данные будут грузиться из хранилища S3 некоторого региона, и будет удобно дать возможность указать, откуда и сколько данных потребуется загружать. Это позволит автоматически учесть стоимость трансфера в сервера "других регионов", чтобы потом не оказалось, что самый дешевый по железу сервер обошелся дорого из-за копирования данных.

Что ещё нужно учесть? Пишите в комменты советы и пожелания.
🔥2
Forwarded from Время Валеры
Что за день 7 июня

Deepmind утверждает что с помощью RL нашли алгоритмы для ускорения сортировки. New algorithms will transform the foundations of computing

AlphaDev uncovered new sorting algorithms that led to improvements in the LLVM libc++ sorting library that were up to 70% faster for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements.

AlphaDev not only found faster algorithms, but also uncovered novel approaches. Its sorting algorithms contain new sequences of instructions that save a single instruction each time they’re applied. This can have a huge impact as these algorithms are used trillions of times a day.

Еще затронули скорость хэш функций

We applied AlphaDev to one of the most commonly used algorithms for hashing in data structures to try and discover a faster algorithm. And when we applied it to the 9-16 bytes range of the hashing function, the algorithm that AlphaDev discovered was 30% faster.

Теперь осталось понять, так ли это, ребята авторитетные, но и понимать бы с чем что сравнивали и в каких условиях
#hinton

Почему знаменитости из мира учёных кажутся такими тупыми на публичных выступлениях? Взять Фейнмана, Хинтона.
Неуклюжие шутки про расизм и секс, поданная не лучшим образом иллюстрация широко известной концепции, "дружеский" пинок известного человека, и никаких инсайтов по делу. Или это я уже настолько отупел и ничего не вижу? Неужели это проблема завышенных ожиданий?

https://www.youtube.com/watch?v=EnmetgyiMic
1🤔1
#pandas

А кто-нибудь может мне объяснить, почему вообще работает ffill над группами с синтаксисом

df['sales'] = df.groupby('store')['sales'].ffill()

? Ведь фрейм не отсортирован.

https://www.statology.org/pandas-ffill-with-condition/
Forwarded from dev optozorax
Я сильно упоролся и хотел по имеющимся данным из прошлого поста построить гладкий график распределения.

Можно ведь как-то численными методами по набору точек аппроксимировать функцию их распределения, да?.. В интернете не нашёл готового ответа, поэтому решил изобрести это сам, с использованием полиномов. Оказалось довольно несложно.

В итоге мало того что написал математический вывод и приложил псевдокод, так ещё и сделал веб-интерфейс (прямо в статье!), куда вы можете вставить свои данные, и сразу получить нарисованную гистограмку, и гладкую кривую, статистику по ней, уравнение полинома!!!

Вы только представьте себе мир, где каждый учёный когда делает какой-то алгоритм, публикует в интернет веб-интерфейс своего алгоритма! Да никто так не сделает. А я взял и сделал))) Не могу иначе))))

https://optozorax.github.io/p/polynom-distribution/
1