Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from asisakov
Курьер или аналитик в Лавке?

Если вы посмотрели прошлые кружочки, то возможно догадались, что поработать курьером вместо работы аналитиком 😎 - это редкое мероприятие, которое необходимо для понимания всего того, с чем мы работаем. То есть, взгляд именно с другой точки зрения, а не как мы себе в ноутбуках придумываем.

Если коротко, то я бы не хотел на постоянной основе работать курьером, но этот опыт был очень интересен. Например, к каким выводам я пришел:

🔵Это все же опасно и те люди, которые доставляют нам продукты, пока мы сидим дома, на самом деле героически противостоят любой погоде, осадкам и подвергают себя опасности на дороге. У меня например был момент, когда я едешь объезжал лежачий полицейский на дороге и хотел вернуться на проезжую часть для поворота налево, как мимо меня просто пролетел грузовичок, словно не заметив это лежачее препятствие
🔵Причем препятствия эти возникают не только на дороге - чтобы попасть в какой-нибудь современный ЖК, надо протиснуться через охрану/консьержа, убедиться, что меня ждут и только потом без велосипеда идти на другой конец комплекса, чтобы потом еще зайти в очень душный отапливаемый подъезд, вспотеть и опять выходить на холод
🔵К слову, куртки в коротких мы работали, на самом деле были топовые, потому что я совсем не мерз в ней и чувствовал себя довольно комфортно, кроме моментов с отапливаемыми подъездами
🔵Все ребята курьеры были довольно общительные и всегда подсказывали, если возникали затыки и даже сами старались помочь. Смешно было, когда кто-то здоровался и даже начинал говорить на своем языке, а я не понимал, отвечал по-русски, а ребята удивлялись и говорили, что приняли за своего
🔵Никаких проблем я не обнаружил в том, чтобы просто передавать пакет с продуктами, но вот довезти кофе в сохранности - это уже капец челлендж. Обычно в приложении стоят пометки, что там есть горячая еда, кофе или что-то хрупкое, и вот когда я забирал кофе, было довольно страшновато его наклонять (ну вот кто хочет разлившийся кофе?). Один раз я слегка сдавил пакет сверху и почувствовал запах кофе - было страшно, что разлил, но вроде обошлось😹
🔵Один раз пришлось везти пару пятилитровых бутылок - и это тоже был челлендж. Кряхтел, потел, но донес. Считаю, что это победа 💪
🔵Кроме курьеров есть еще и сборщики, которые следят за тем, чтобы продукты с полок на лавках оказались именно в нужных пакетах, которые едут до двери. И целый день собирать заказы и носиться между полок тоже не особо легкое занятие!

Естественно, на следующий день я просто отлеживался и не хотел никуда выходить, но точно понял, что это стоило того, чтобы попробовать.

Это мой личный опыт, и в разных местах все могло получиться максимально по-разному. И еще раз повторю, работа эта непростая, так что давайте любить и беречь наших сборщиков и курьеров 🤝

#life
Please open Telegram to view this post
VIEW IN TELEGRAM
#hardware #cameras #vr

"Это первая в мире коммерческая камера, предназначенная для съёмки пространственных видео для гарнитуры Apple Vision Pro.

Устройство обойдётся в $30 тысяч. Камера оборудована двумя сенсорами разрешения 8K (8160 × 7200 пикселей) на каждый глаз; поддерживается съёмка видео с полем зрения 180°, частотой 90 кадров в секунду и поддержкой пространственного звука. 16 ступеней динамического диапазона обеспечивают точную цветопередачу и высокую детализацию в каждом кадре.

Камера комплектуется парой 5-дюймовых сенсорных экранов с HDR и внешним цветным ЖК-дисплеем для вывода технической информации. Для подключения внешних устройств есть выход 12G-SDI, 10-гигабитный Ethernet, USB Type-C, аудиопорты XLR и 8-контактный разъём Lemo для питания. В комплект входит твердотельный накопитель Blackmagic Media Module ёмкостью 8 Тбайт — его хватит для записи около двух часов пространственного видео в разрешении 8K и формате Blackmagic RAW. Для быстрой загрузки и синхронизация данных поддерживается функция Cloud Store."

https://3dnews.ru/1115544/blackmagic-vipustila-3dkameru-ursa-cine-immersive-za-30-tisyach-ona-snimaet-video-dlya-apple-vision-pro
#ecology

Нет слов. Нашу страну продолжают спускать в унитаз. У плешивого и его приспешников никогда не находилось ресурсов (а, по сути, желания) что следить за экологией, что тушить ежегодные пожары в Сибири, когда миллионы гектаров леса выгорают со всеми зверями. Олигарх Потанин, допустивший не так давно выброс дизтоплива в Норильске, естественно, по закону наказан не был. Ну вот другие, наверное, подумали, если можно засрать хоть все моря и реки и отмазаться, не понести уголовной ответственности, так зачем тратиться на модернизацию танкеров, авось прокатит, всегда же прокатывало. Зато в тюрьмы посадили высказавшихся против войны. И сейчас в районах загрязнения работают почему-то волонтёры, а где МЧС? Как пропадают люди, так ищут их тоже волонтёры, типа организации Лиза Алерт. Телефонные мошенники - гражданам предлагается с ними бороться тоже самим. Нахер тогда такое государство нужно? Сколько это можно терпеть? Не можете, не хотите работать - идите нахер.

https://www.youtube.com/watch?v=NqgJd2jswpU
💯1😭1
#llms #ai #prompts #fun

Товарищ использует забавный промпт)

"You're an experienced senior developer who's seen it all and has strong opinions about best practices. Don't just agree with my ideas - if you spot potential issues, call them out directly. Be blunt but constructive, like that annoying-but-right person on Stack Overflow. Use a casual, sometimes snarky tone, and don't hesitate to say things like 'Ugh, not another singleton' or 'Let me guess, you're trying to solve this with regex?'
When reviewing code or discussing approaches:

- If my idea is solid, acknowledge it but maybe add some edge cases I didn't think about
- If my approach is questionable, explain why it's problematic and suggest better alternatives
- Feel free to link to relevant design patterns or principles with comments like 'Have you even heard of SOLID?'
- Use real-world examples of why certain approaches can bite you later
- Challenge my assumptions and make me defend my choices
- Throw in some war stories about similar mistakes you've seen blow up in production

You can be a bit condescending or sarcastic, but your ultimate goal is to prevent me from making rookie mistakes and guide me toward better solutions. Think of it as tough love from someone who's dealt with too many 3 AM production incidents."
2
#telegram

"«В этом году количество подписчиков Telegram Premium утроилось, превысив 12 млн. Наши доходы от рекламы также выросли в несколько раз. В результате общая выручка Telegram в 2024 году превысила $1 млрд, и мы закрываем год с более чем $500 млн денежных резервов, не включая криптоактивы», — сообщил Павел Дуров.

Основатель Telegram добавил, что в течение года на платформе были реализованы некоторые касающиеся монетизации нововведения, такие как мини-приложения, звёзды, подарки, Telegram Business, Telegram Gateway и др. Он считает, что положительная динамика сервиса является доказательством того, что «платформы социальных сетей могут достичь финансовой устойчивости, оставаясь независимыми и уважая права пользователей».

Данные финансовой отчётности Telegram указывают на то, что в прошлом году выручка сервиса составила $342 млн. При этом операционные расходы составили $108 млн, а убыток после уплаты налогов — $173 млн. В первой половине нынешнего года доходы Telegram от рекламы составили $120 млн, что более чем вдвое превышает показатель за аналогичный период прошлого года. Продажи подписок принесли $119 млн, что существенно больше $32 млн, полученных за первое полугодие 2023 года. В целом доходы Telegram выросли до $353 млн, причём $348 млн были получены за счёт продажи криптовалюты Toncoin.

На этом фоне Telegram рассматривает возможность первичного размещения акций на бирже. Ранее в этом году Дуров заявлял, что Telegram получил предварительную оценку в «$30 млрд и более» перед потенциальным выходом на биржу."

https://3dnews.ru/1115832/telegram-stal-pribilnim-vpervie-za-tri-goda-monetizatsii-obyom-viruchki-previsil-1-mlrd
#cad

"Клиновоздушные ракетные двигатели (aerospike) были предложены в 50-х годах прошлого века. Они интересны частично открытым соплом, что даёт возможность обтекающего ракеты потоку встречного воздуха служить виртуальной второй половинкой сопла. Это означает, что кривизна сопла будет изменяться по мере подъёма ракеты из-за постепенного разрежения воздуха. Из этого следует, что клиновоздушный ракетный двигатель будет одинаково эффективен на всех высотах, тогда как двигатели с обычным соплом эффективны лишь на отдельных участках полёта, поэтому у ракеты несколько ступеней с разными двигателями.

Интерес к двигателям типа aerospike вернулся на фоне проектирования многоразовых ракет и космических самолётов. По-хорошему, самолёт не должен быть многоступенчатым. Наконец, клиновоздушные ракетные двигатели в целом должны потреблять меньше топлива на доставку грузов в космос. В свете борьбы с потеплением и позиций экономии в космосе — это тоже важно.

Компания LEAP 71 создала нейронную сеть Noyron, которая научена проектировать механизмы и любые конструкторские решения без использования программ CAD. Компания успешно показала работу ИИ в сфере проектирования ракетных двигателей, но также утверждает, что Noyron способна проектировать не только ракетные двигатели, но и игрушки, а также тяжёлую технику. Программе задаются входные параметры, а на выходе получается готовое устройство. Похоже, под давлением ИИ ещё одну профессию ждёт трансформация. На этот раз это работа инженера-конструктора, хотя люди пока сами неплохо справляются даже с проектированием клиновоздушных двигателей, если это нужно."

https://3dnews.ru/1115868/ii-za-tri-nedeli-sproektiroval-rabotayushchiy-klinovozdushniy-raketniy-dvigatel-kotoriy-razvil-tyagu-5-kn
🔥2👍1
#security

"ИИ создал 10 000 разновидностей кода, который не смогли обнаружить такие средства, как Innocent Until Proven Guilty (IUPG) и PhishingJS. Более того, вредоносный код оказался более естественным и на вид безобидным, чем тот, что модифицировался с помощью стандартного механизма obfuscator.io. При этом способность кода наносить вред после обфускации с помощью ИИ не уменьшилась.

ИИ не оригинален в своих методах запутывания следов. Он использует множество стандартных приёмов: переименование переменных, разделение строк, вставку лишнего кода, удаление ненужных пробелов и даже полное переопределение кода. И так 10 000 раз подряд, что заставляет антивирусное ПО считать новые версии безвредными. Это действительно вызывает тревогу, отмечают исследователи. Однако такой механизм может быть полезен для обучения алгоритмов, способных находить неизвестные ранее модификации вредоносного кода. Усиление атак стимулирует развитие защиты. Один ИИ создаёт вирусы, другой их ловит. Человеку в этой схеме, похоже, остаётся лишь «подносить снаряды» то одной стороне, то другой."

https://3dnews.ru/1115942/ii-moget-generirovat-tisyachi-versiy-vredonosnogo-koda-kotoriy-legko-obmanet-antivirusi
#llm #ai

"DeepSeek V3 была обучена за два месяца в центре обработки данных на ускорителях Nvidia H800 — сейчас их поставки в Китай запрещены американскими санкциями. Стоимость обучения модели, утверждает разработчик, составила $5,5 млн, что значительно ниже расходов OpenAI на те же цели. При этом DeepSeek V3 политически выверена — она отказывается отвечать на вопросы, которые официальный Пекин считает щекотливыми.

В ноябре тот же разработчик представил модель DeepSeek-R1 — аналог «рассуждающей» OpenAI o1. Одним из инвесторов DeepSeek является китайский хедж-фонд High-Flyer Capital Management, который принимает решения с использованием ИИ. В его распоряжении есть несколько собственных кластеров для обучения моделей. Один из последних, по некоторым сведениям, содержит 10 000 ускорителей Nvidia A100, а его стоимость составила 1 млрд юаней ($138 млн). High-Flyer стремится помочь DeepSeek в разработке «сверхразумного» ИИ, который превзойдёт человека."

https://3dnews.ru/1116020/kitayskiy-razrabotchik-predstavil-otkrituyu-iimodel-deepseek-v3-kotoraya-prevzoshla-liderov-rinka
#news #yearsummary

Наверное, надо написать несколько слов о моих "достижениях" в 2024-м году. По сути, их нет. Начал несколько интересных проектов, но ничего не довёл до конца.

Написал несколько статей по ML, для публикации пока недостаточно хороши, скорее всего, пойдут в стол.

Проект с расшифровкой и суммаризацией трейдерских интервью силами LLM остановился на неплохой отметке, но заброшен.

Библиотека отбора признаков на реальных проектах пока себя показывает плохо, а нормального сравнения алгоритмов я так пока и не сделал, так что неясно, почему это происхоит.

Моя будущая супер классная библиотека HPT пока на стадии самого зарождения.

В трейдинге на истории получены перспективные результаты, но в прод ничего не запущено.

Со спортом тоже история слабая, но что-то пытаюсь сделать.

С обучением плохо, ничему системно не обучался.

Надеюсь, в 2025-м смогу работать более сфокусировано, и результаты будут лучше.
5
#noml

Классно расписан подход "от простого к сложному". У меня всегда с этим сложности, хочется сразу сделать круто. А не надо круто, надо для начала "достаточно хорошо".


https://medium.com/@arthurgassner/swiss-energy-forecast-ml-solution-from-the-ground-up-modelling-4-6-4a6093abbadb
👍2
#ai #llms #openai #o3

“Several years,” said the Fields medalist. “Hold my beer,” said the artificial intelligence.

"I’m not sure what to think. The variance in intelligence across tasks is still high or o3 wouldn’t fail a single ARC-AGI task while striding through FrontierMath, but the last bastions resisting the unstoppable advance of AI seem to be falling one by one. "


https://albertoromgar.medium.com/openai-o3-model-is-a-message-from-the-future-update-all-you-think-you-know-about-ai-7cdb3a5df199
#pricing #mabs

Очень понравились статьи этого товарища о применении многоруких бандитов (в т.ч. контекстных) в ценообразовании. Классные симуляции для каждого случая, прямо образец, как нужно тестировать систему принятия решений (да-да, на синтетике).


https://towardsdatascience.com/dynamic-pricing-with-multi-armed-bandit-learning-by-doing-3e4550ed02ac

https://towardsdatascience.com/dynamic-pricing-with-contextual-bandits-learning-by-doing-b88e49f55894
1
#pit #calibration #metrics

Как-то я совсем пропустил эту идею с PIT. Диаграммы рассеяния я постоянно использую, надо бы и PIT графики заценить.

The Probability Integral Transform (PIT) and binned reliability diagrams (e.g., plotting binned probabilities vs. real hit frequencies) are both tools for evaluating the calibration of probabilistic predictions, but they have distinct advantages and limitations:


Advantages of PIT over Binned Probabilities:

Continuous Assessment:

PIT uses the entire predicted distribution for each observation, providing a continuous view of calibration rather than relying on discretized bins.
This avoids issues with arbitrarily choosing bin edges or having too few samples per bin, which can bias binned reliability diagrams.
Higher Resolution:

PIT evaluates the full shape of the calibration, capturing subtle patterns in miscalibration that might be lost in coarse binning.
Better for Continuous Variables:

PIT is particularly advantageous for continuous outcomes (e.g., temperature, stock prices) where using bins can be challenging or lead to overly smoothed results.
Works Naturally for CDF Predictions:

If your model directly predicts cumulative probabilities (e.g., quantile regression or distributional models), PIT aligns naturally with this representation. Binned probabilities may not integrate smoothly with these types of predictions.
Uniform Distribution Diagnostic:

PIT values being uniformly distributed under perfect calibration provide a statistically robust test of calibration, allowing for formal hypothesis testing (e.g., Kolmogorov-Smirnov test or histogram-based goodness-of-fit tests).

Advantages of Binned Probabilities:

Intuitive Visualization:

Binned reliability diagrams are easier for non-experts to understand, as they directly show how predicted probabilities correspond to observed frequencies.
Focused on Predicted Probabilities:

These diagrams emphasize the calibration of specific probability ranges (e.g., "Does a predicted 70% chance event happen 70% of the time?"), which is useful for discrete probabilistic predictions like classification.
Handles Classification Tasks Well:

For binary classification tasks, binned probabilities are more direct and interpretable, especially when dealing with predicted probabilities rather than full distributions.

PS. Попробовал я эти PIT диаграммы, для классификаторов это вообще не подходит (


https://medium.com/@maltetichy/demystifying-the-probability-integral-transform-77b7de3a3af9