NEW BOT Телеграм, страница

Aspiring Data Science

#business

Мне кажется, с финансированием в $1M я бы мог сделать несколько успешных стартапов, нанимая разработчиков. Так много хороших идей и так мало времени. Ни у кого нет лишнего ляма? Что характерно, несколько месяцев тому я написал письмо с подобным содержанием 5 моим лучшим клиентам, мол, не хотят ли проинвестировать в такое? Ни один не ответил. ) В сотрудничество/партнёрство я уже не верю, так как все "слишком заняты", чтобы начать работать и что-то полезное сделать. Только найм, или своими силами.

95 viewsedited 23:16

Aspiring Data Science

#circleoflife #fun #jobs

😭2

94 views23:35

Aspiring Data Science

#astronomy #lifeorigin #jameswebb

"Спектральные приборы «Уэбба» позволили выделить в свете галактики SPT0418-47 сложные органические молекулы, которые на Земле обычно находятся в нефти. Обнаружить подобное в открытом космосе всего через 1,5 млрд лет после Большого взрыва — это было удивительно. Это указывает на то, что химические преобразования во Вселенной шли гораздо быстрее, чем это себе представляла земная наука. На тот момент Вселенная прошла только 10 % своего развития, а органики там не меньше чем в нашей галактике. Подобные вещества должны были быть в ней в следовых количествах и недоступны для определения земными приборами."

https://3dnews.ru/1087960/dgeyms-uebb-obnarugil-slognuyu-organiku-v-dalyokoy-galaktike-v-period-detstva-vselennoy

3DNews - Daily Digital Digest

«Джеймс Уэбб» обнаружил сложную органику в очень ранней Вселенной, и она как «третьеклассник на пенсии»

Обнаружить сложные органические молекулы всего через 1,5 млрд лет после Большого взрыва — «это как третьекласснику выйти на пенсию», прокомментировали событие учёные.

105 views13:33

Aspiring Data Science

Forwarded from Борис опять

#лабораторный_журнал

ML - субоптимальное, но кост-эффективное решение.

Мы делаем на фабрике детекцию проблем с растениями. Но зачем детектить проблемы после того, как они произошли, если можно было бы работать над устранением проблем? Лучше не иметь проблем с ирригацией, чем узнавать о проблемах с ирригацией.

Суть в том, что затраты на решение проблем в зародыше имеют свойство расти очень быстро. Условно говоря устранить 90% проблем это просто база, 95% проблем это хорошо, 96% уже сложно, 99% очень дорого, 99.9% абсурдно дорого. Проценты взяты с потолка, но главное идея: затраты растут нелинейно и каждый процентик дается сложнее предыдущего.

Тогда можно хитрить: сделаем решение, которое работает немного хуже, чем оптимальное, но многократно дешевле. Здесь и приходит на помощь ML.

Кстати такой подход очень популярен в математике: заменяем точный расчет на приблизительный и получаем огромное ускорение за счет небольшой ошибки. Пример: семплирование, Монте-Карло симуляции.

49 views14:03

Aspiring Data Science

Forwarded from Dealer.AI

Исследования MIT, о том как изменяется производительность труда с и без LLM.

А пока мы тут трындим за хайп и LLM. Ребята из MIT проделали мега соц.эксперимент. Они заперли 444 белых воротничка в офисе и заставили их делать ту же работу с и без ChatGPT.

Те лошадки, что были под ~~допингом~~ ChatGPT. Справились с работой на 37% быстрее, при той же оценке качества результата. Кстати, для этого они придумали специальную, репрезентативную систему оценки и выбрали экспертов. Пахать нужно было по 20-30 мин, в рамках типичных для этих людей задач. Но в целом ни одна "лошадка" не пострадала.

Далее, господа погонщики из MIT провели эксперимент по динамике роста качества, оно естественно, чем больше люди осваивались с ChatGPT росло. Потом ещё и попросили ребяток сделать за фиксированное время как можно больше задач. И снова ставка сыграла в бегах на лошадках с майками ChatGPT.

Ну и на последок. Так сказать для закрепления результатов. Подопытные повторили свою работу ещё разок. Повторенье мать ученья! В итоге, double elimination подтвердил всё указанное выше.

Далее, в статье указан предполагаемый экономический эффект. Анализируется мотивация участников эксперимента, запрашивается обратная связь.

По обратной связи:

Команда также спросила людей, “для чего они использовали ChatGPT”, и выяснила следующее. LLM сокращает время мозгового штурма, значительно сокращает время создания черновика, но затем проактивно используется в процессе окончательного редактирования.
Другими словами, это система, которая значительно ускоряет “первый набросок” и “первоначальные выводы” части работы, которые затем будут использоваться чуть более интенсивно для итогового эскиза. И это становится еще лучше. Когда они спросили респондентов, как они сами оценивают свои навыки письма, оказалось, что “готовность платить” и “полученная ценность” почти идентичны у “плохих писателей” и “хороших писателей”. Другими словами, ChatGPT помогает “плохим писателям” становиться хорошими, а “хорошим писателям” продвигаться быстрее и, возможно, становиться лучше! - Это что получается, что для кожаных мешков ChatGPT, как RETRO или Retrieval augmented для LLM!? 😜

Материальный вопрос:

На мой взгляд следующая мякотка вот тут. Респонденты, использовавшие ChatGPT, сообщили исследователям, что они готовы платить ежемесячную плату в размере 0,5% от своей зарплаты за доступ к этому инструменту! Для работника, зарабатывающего 100 000 долларов в год, это эквивалентно почти 500 долларам в год за пользование этой системой.

Выводы:
Воротнички, что не хотят оседлать прогресс и раскошелиться на api'шечку, рискуют утратить свою конкурентоспособность, проиграв в продуктивности на треть. 😱

Всем желаю быть в ресурсе и осваивать новые технологии!

❤2

78 views16:48

Aspiring Data Science

#ml #slicediscovery

Насчёт "программируемых датасетов" показалось бредом, экспертные эвристики должны по итогам беседы с DS идти в признаки, а не заменять экспертную разметку. Confident learning неизбежно, coreset selection интересно. Slice discovery - не знал, что оно так называется. А кто знает, чем выбросы "отличаются" от аномалий? ))

https://www.youtube.com/watch?v=xR5mLxwNFR0

YouTube

Антон Голубев - Data-centric AI: обзор методов

Обзор data-centric подходов и их классификация на примерах, в том числе медицинских

Data Fest 2023:
https://ods.ai/events/datafestonline2023
Трек "Ужасы медицинских данных":
https://ods.ai/tracks/df23-meddata

Наши соц.сети:
Telegram: https://news.1rj.ru/str/datafest…

144 viewsedited 11:47

Aspiring Data Science

#tarantool #языкэзопа

Доклад интересен тем, что вместо тарантула на слайды можно подставить практически любую СУБД или те же redis/memcached. Бизнеса такие бизнеса...

https://www.youtube.com/watch?v=pObC9y-8dLI

YouTube

Александр Кучук "Ускоряем приложения, преодолеваем ограничения legacy и переходим к микросервисам"

Доклад "Ускоряем приложения, преодолеваем ограничения legacy и переходим к микросервисам на базе платформы Tarantool"

Пользователи привыкли к качественным сервисам – мобильным приложениям, маркетплейсам и далее. С ростом нагрузки обеспечивать скорость и…

96 viewsedited 12:18

Aspiring Data Science

Пользуетесь ли Вы кластерными расчётами (на нескольких серверах сразу), в том числе для ML задач?

Anonymous Poll

14%

Не делаю никаких расчетов

29%

Нет, считаю всё локально

14%

Нет, но знаю коллег, кто пользуется

14%

Эпизодически

29%

Да, использую в основном Spark

Да, использую в основном Dask

Да, использую в основном Ray

Да, использую другой фреймворк

14 voters95 views13:19

Aspiring Data Science

#advicewanted

Как назвать проект по торговле роботом на бирже? ) Пишите варианты в комментах.

https://www.youtube.com/watch?v=4x5YDCj-wiE

YouTube

DIE KRUPPS - Robo Sapien (Official Music Video) [HD]

"Robo Sapien" taken from the album "The Machinists Of Joy".
Directed by: Jay Gillian
Camera OP and Computer Animation: Shane Williams
Produced by Cinematek Film & Television
Robo Sapien provided by: JG and the Robots www.JGandtheRobots.com

http://www.fa…

102 viewsedited 14:31

Aspiring Data Science

#trading #openinterest

Лучшее объяснение концепции открытого интереса.

https://www.youtube.com/watch?v=3yGva6ECoRA

YouTube

Открытый интерес. Индикатор анализа тренда. Торговля фьючерсами

🚀🎓Бесплатное обучение трейдингу. Ближайшая серия мастер-классов с практикой. Регистрируйтесь по ссылке https://finansistcb.ru/y/d7275f2

🔔Подписывайтесь на канал: https://youtube.com/channel/UCeDs-jrolL7KcVPS0s2JNSw?sub_confirmation=1

🎓 СОДЕРЖАНИЕ.
🔸В этом…

111 viewsedited 15:48

Aspiring Data Science

#ml #featureselection #featureimportance

Интересный доклад
Ben Fowler: Traditional & Novel Feature Selection Approaches | PyData LA 2019

Упомянули пару инструментов, которыми я еще не пользовался

1 https://github.com/abhayspawar/featexp - визуализация, вроде dependency plots

2 https://github.com/limexp/xgbfir - нахождение двух- и трех-признаковых интеракций для xgboost-а (должно быть полезно)

Сказал, что weight of evidence - стандартная фича в риск менеджменте, тоже ее не пробовал.

В конце он сравнивает отбор фичей по стандартному бустинговому gain-у, по shap-у, но на единственном датасете, для задачи классификации. Поэтому неизвестно, насколько подход обобщается (хотя он добавил, что и на работе его применял). В целом здраво повествует.

🔥2👍1

168 viewssciuru, edited 18:46

Aspiring Data Science

#music #daskollektivnet #deutsch

Веками (ну уж декадами точно) философские вопросы AI интересовали людей. Не остались в строне и музыканты электро-синти-поп направления DasKollektiv.net )

"Ist mein Denken selbstgerecht,
Wenn Du mich am Leben lässt?
Wenn ich sage: ich war Der, der gab dir das Elexier
Dass Dich glauben lässt, du seist wertvoll und ein kluger Geist...
Ich bin Gott, der Leben schafft - oder treibt mich tiefster Hass?"

https://www.youtube.com/watch?v=mMAZdBFNGZI

100 viewsAnatoly Alekseev, edited 19:15

Aspiring Data Science

#selfdriving

Первые испытания роботакси «Яндекс» провёл в 2018 году в Иннополисе, после чего они были перенесены в Москву. За прошедшее время беспилотные машины «Яндекса» наездили 24 млн км, а жители Иннополиса заказали более 60 тыс. поездок. Публичное тестирование роботакси станет новым этапом в развитии технологии беспилотной навигации."

https://3dnews.ru/1088043/v-moskve-poyavilis-robotaksi-ot-yandeksa

3DNews - Daily Digital Digest

Роботакси «Яндекса» вышли на работу в московском Ясенево, любая поездка — 100 руб.

«Яндекс» в тестовом режиме запустил в Москве сервис роботакси — автомобилей под управлением искусственного интеллекта.

👍1

96 viewsAnatoly Alekseev, edited 19:30

Aspiring Data Science

Forwarded from Время Валеры

Прочитал неплохую статью про новую систему левелов в Shopify - Inside Shopify's Leveling Split: Exclusive

Если кратко - и что видно на картинке превью, добавили еще одну ось - Mastery
Например ты можешь быть Staff Engineer и быть крутым на этом уровне и дальше перед тобой стоит выбор, идти на уровень выше, но тогда ты там уже не крутой, а просто обычный типан или расти и становиться гуру, но на своем уровне.

Идея интересная и разумная, потому что действительно, есть ряд людей, которых вроде как и повысить можно, а вроде как и не нужно. Ведь тогда вместо пользы в виде своей глубокой экспертизы на текущем уровне, они вынуждены будут становиться клеем для абстракции более высокого уровня, а нужны и те и те. Поэтому хочется им денег накинуть, а как это сделать без промо, не всегда понятно - поэтому и повышают бедолаг. Теперь можно повышать по деньгам, но не по уровню, за мастерство.

Тонко - интересно будет посмотреть - основную сложность вижу в еще одной калибровке, теперь по мастерству - а калибровка это всегда большой оверхэд

Из интересного - в компании появляются волшебники (впрочем в какой большой компании их нет?)

The concept of “wizards” is interesting. Mastery scores do not stop at 50; individuals can be assigned a mastery score that exceeds 50. Getting a score above this level makes someone a “wizard,” and needs exceptional justification. The general expectation is that wizards will be incredibly rare.

Остальное по мелочи - подрезали менеджеров (кто же против?) и рассказывают про компенсацию ( у шопифай интересная тема - что можно самому выбирать сколько стоков и сколько кэша получать - менять пропорцию в рамках своего компа)

В целом - интересно

Pragmaticengineer

Inside Shopify's Leveling Split: Exclusive

A deep dive into the e-commerce giant’s major change to its engineering levels, including a look at the levels before and after the revamp, how and why these new levels could benefit the company, and

59 viewsAnatoly Alekseev, 22:46

Aspiring Data Science

#business #opticloud

А между тем, наконец-то полностью организован сбор ценовых данных и оценок доступности для AWS. Потрачен месяц вместо недели.
Работаю над API. Напоминаю, основная цель сервиса - быстро найти самые дешёвые сервера для облачных вычислений в достаточном количестве.

Раздумываю, как этим сервисом будут пользоваться вообще. Вот взять ML. Обычно мои задачи сводились к поиску серверов с достаточным объёмом RAM/VRAM на машину (чтобы хотя бы загрузился датасет), ядер чтоб побольше, и затем выбору инстанса с наименьшей спот-ценой. Ну, может, при обработке картинок еще был важен размер и тип локального диска.

Понятно, что в серьёзных кластерных вычислениях помимо цены надо ориентироваться ещё и на производительность на ядро CPU или GPU (+- с учетом архитектуры) для нагрузки конкретного типа.

Пока вырисовывается основной метод API:

find_best_servers(
    workload="ml|finance|physics|rendering|integer|floating",    
    capacity={vcores,gpus,tpus},
    hardware_requirements={cpu,gpu,tpu,ram,hdd,network},    
    schedule_requirements={start_time, duration_hours},    
    optimize_for="efficiency|price|performance|availability",
    cloud_providers="any|aws|gcp|azure|ali|sber|etc",
    lease_type="any|spot|ondemand"
)

,
который находит, скажем, топ-3 комбинации инстанса/облака/региона/зоны, удовлетворяющих критериям клиента по железу, доступности, и имеющих самое лучшее отношение производительность/цена для указанного типа нагрузки.

Пример вызова, чтобы подешевле посчитать тюнинг катбуста на табличке в миллион примеров с 300 фичами, на процессоре нового поколения, чтоб каждый сервер имел как минимум 20Gb RAM для открытия датасета, считать думаем на 500 ядрах около 2 часов, начать хотим сейчас:

find_best_servers(
    workload={"type":"ml","framework":"catboost","dataset":{"nrows":1e6,"ncols":300},"hpt":True},
    capacity={"vcores":500},
    hardware_requirements={"ram":{"node_min_size":"20GB"},"cpu":{"features":"avx2"}},    
    schedule_requirements={"start_time":"now", "duration_hours":2},
    optimize_for="efficiency",
    cloud_providers="any",
    lease_type="spot"
)

Пример ответа:

{'n_suitable_servers': 158,
 'best_servers': [{'cloud_provider': 'aws',
   'region': 'us-east-2',
   'zone': 'az3',
   'instance_type': 'r6idn.4xlarge',
   'lease_type': 'spot',
   'hardware_info': {...},
   'n_required_instances': 62,
   'expected_runtime_hours': 2,
   'fulfillment_probability': 0.85,
   'interruption_probability': 0.07,
   'expected_instance_hourly_price': {'usd':0.3569},
   'expected_workload_total_cost': {'usd':44.26},
   'expected_average_savings': {'usd':7.11},
   'workload_performance_rating':"15/1000",
}, ... ]}

Возможно, что данные будут грузиться из хранилища S3 некоторого региона, и будет удобно дать возможность указать, откуда и сколько данных потребуется загружать. Это позволит автоматически учесть стоимость трансфера в сервера "других регионов", чтобы потом не оказалось, что самый дешевый по железу сервер обошелся дорого из-за копирования данных.

Что ещё нужно учесть? Пишите в комменты советы и пожелания.

🔥2

90 viewsAnatoly Alekseev, edited 03:13

Aspiring Data Science

Forwarded from Время Валеры

Что за день 7 июня

Deepmind утверждает что с помощью RL нашли алгоритмы для ускорения сортировки. New algorithms will transform the foundations of computing

AlphaDev uncovered new sorting algorithms that led to improvements in the LLVM libc++ sorting library that were up to 70% faster for shorter sequences and about 1.7% faster for sequences exceeding 250,000 elements.

AlphaDev not only found faster algorithms, but also uncovered novel approaches. Its sorting algorithms contain new sequences of instructions that save a single instruction each time they’re applied. This can have a huge impact as these algorithms are used trillions of times a day.

Еще затронули скорость хэш функций

We applied AlphaDev to one of the most commonly used algorithms for hashing in data structures to try and discover a faster algorithm. And when we applied it to the 9-16 bytes range of the hashing function, the algorithm that AlphaDev discovered was 30% faster.

Теперь осталось понять, так ли это, ребята авторитетные, но и понимать бы с чем что сравнивали и в каких условиях

Deepmind

AlphaDev discovers faster sorting algorithms

In our paper published today in Nature, we introduce AlphaDev, an artificial intelligence (AI) system that uses reinforcement learning to discover enhanced computer science algorithms – surpassing those honed by scientists and engineers over decades.

61 viewsAnatoly Alekseev, 11:11

Aspiring Data Science

#hinton

Почему знаменитости из мира учёных кажутся такими тупыми на публичных выступлениях? Взять Фейнмана, Хинтона.
Неуклюжие шутки про расизм и секс, поданная не лучшим образом иллюстрация широко известной концепции, "дружеский" пинок известного человека, и никаких инсайтов по делу. Или это я уже настолько отупел и ничего не вижу? Неужели это проблема завышенных ожиданий?

https://www.youtube.com/watch?v=EnmetgyiMic

YouTube

"Крестный отец ИИ" о том, что нас ждет | Выступление Джеффри Хинтона для MIT

Поддержать канал: https://boosty.to/turingtestrus

В этом глубоком и потрясающем выступлении на конференции MIT EmTech, Джеффри Хинтон, профессор Университета Торонто и бывший руководитель AI в Google, дает свою взгляд на будущее искусственного интеллекта.…

95 viewsAnatoly Alekseev, edited 15:51

Aspiring Data Science

#fun

✍1🤔1

98 viewsAnatoly Alekseev, 16:27

Aspiring Data Science

#pandas

А кто-нибудь может мне объяснить, почему вообще работает ffill над группами с синтаксисом

df['sales'] = df.groupby('store')['sales'].ffill()

? Ведь фрейм не отсортирован.

https://www.statology.org/pandas-ffill-with-condition/

98 viewsAnatoly Alekseev, 01:28

Aspiring Data Science

Forwarded from dev optozorax

Я сильно упоролся и хотел по имеющимся данным из прошлого поста построить гладкий график распределения.

Можно ведь как-то численными методами по набору точек аппроксимировать функцию их распределения, да?.. В интернете не нашёл готового ответа, поэтому решил изобрести это сам, с использованием полиномов. Оказалось довольно несложно.

В итоге мало того что написал математический вывод и приложил псевдокод, так ещё и сделал веб-интерфейс (прямо в статье!), куда вы можете вставить свои данные, и сразу получить нарисованную гистограмку, и гладкую кривую, статистику по ней, уравнение полинома!!!

Вы только представьте себе мир, где каждый учёный когда делает какой-то алгоритм, публикует в интернет веб-интерфейс своего алгоритма! Да никто так не сделает. А я взял и сделал))) Не могу иначе))))

https://optozorax.github.io/p/polynom-distribution/

optozorax.github.io

Аппроксимация распределения данных полиномом — Блог optozorax'а

У меня была куча данных полётов на микродроне, и я захотел сделать красивый гладкий график... Готового решения в интернете не нашёл.

❤1

72 viewsAnatoly Alekseev, 11:26

Aspiring Data Science

Forwarded from Neural Info

I have been solving Kaggle competitions for about 2 months. Now I have finally reached the expert level in datasets. I've solved the Stable Diffusion - Image to Prompts competition in a team and won the bronze medal. And a lot of other work has been done and medals won. So now I can share my subjective opinion.

Advantages:
1. Large community. I met some new people, talked to them and learned a lot from their experiences.

2. You can implement your own ideas and see if it works or not in terms of competition. You can also use Kaggle for your own projects that aren't attached to competitions.

3. You have free GPU / TPU resources and really cool integration with Jupyter Notebooks.

4. You can upload large datasets to the Kaggle cloud and use them in notebooks directly from the cloud. If your datasets are public, there is no limit to the amount of space you can use.

5. Medals, levels, ranking points. These things make competitions more interesting and you can promote cool ideas, notebooks, datasets with upvotes.

Disadvantages:
1. You need a lot of resources for large competitions. If you have at least one A100, you have a big advantage over others who don't.

2. Competitions without interesting ideas can sometimes only be solved with large ensembles.

3. Some competitions have leaks and the solutions aren't close to real applications. It's just a correct number matching without model training, algorithm implementation, etc.

Conclusions:
Kaggle has become a hobby for me. I like solving competitions, implementing my ideas and Kaggle is also a platform for my small projects. One of them is fire segmentation on TPU using FLAX.

👍1

86 viewsAnatoly Alekseev, 11:27

About

Blog

Apps

Platform