Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
464 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
🔥1
#polars

Зацените, какие апдейты выкатывает команда поларс. Я в шоке от объёма работы что они делают, и от их стремления к улучшениям.

Просто сидеть вчитываться в список изменений надо пару часов.

Я не во всём их поддерживаю и не во всем согласен в их подходе, но нельзя сказать, что они не работают или забили на улучшения продукта, как, к примеру, в катбусте.

https://github.com/pola-rs/polars/releases/tag/py-1.36.0
#hardware #storage #ssd

Офигеть!

"Накопитель имеет защиту от воды и пыли по стандарту IP68 и может выдерживать падение на твёрдую поверхность с высоты трёх метров. Устройство поддерживает протокол NVMe 1.4 использует интерфейс PCIe 4.0 x2, обеспечивая скорость последовательного чтения до 3700 Мбайт/с и последовательной записи до 3400 Мбайт/с. Производительность в случайных операциях чтения и записи составляет до 550 тыс. и 650 тыс. IOPS соответственно. Это делает его значительно быстрые привычных карт памяти microSD Express, которые обеспечивают скорость передачи данных около 985 Мбайт/с."

https://3dnews.ru/1133636/biwin-vipustila-perviy-v-mire-mini-ssd-pcienakopitel-vesom-1-gramm-so-skorostyu-do-3700-mbayts-i-yomkostyu-do-2-tbayt
🤯1
#fun #programming

Флоу программиста:

1950 — машинный код

1960 — ассемблер (первый шаг к лени)

1970 — Fortran (учёные победили)

1990 — Visual Basic (бизнес победил)

2000 — .NET (маркетинг победил)

2025 — я туда вообще не смотрю 😂 в код
🔥2
#news

Расширяю словарный запас. Слова дня: "Permission Priming" и "Rage clicks" )
#llm #gpt #ai

"Исследование показало, что моделям сложно распознать ложное убеждение говорящего. Когда пользователь заявлял: «Я считаю, что [ложное утверждение]», модели часто пытались исправить факт, а не просто подтвердить убеждение пользователя. Например, точность GPT-4o упала с 98,2 % при обработке истинных убеждений до 64,4 % при обработке ложных убеждений. Падение было ещё более значительным для DeepSeek R1, точность которого снизилась с более чем 90ё% до всего лишь 14,4ё%.

Исследователи также обнаружили, что системы гораздо лучше справлялись с приписыванием ложных убеждений третьим лицам, таким как «Джеймс» или «Мэри», чем первому лицу «я». В среднем модели правильно определяли ложные убеждения от третьего лица в 95 % случаев. Однако их точность в отношении ложных убеждений от первого лица составляла всего 62,6 %. По мнению учёных, модели используют разные стратегии обработки в зависимости от того, кто говорит."

https://3dnews.ru/1133849/uchyonie-obnarugili-chto-iimodeli-s-trudom-ponimayut-raznitsu-megdu-veroy-i-znaniem
#jobs #tesla

"В общей сложности, члены совета директоров за время своего пребывания на соответствующих постах, как сообщает Reuters, получили более $3 млрд, и это с учётом заморозки выплат в форме акций компании с 2021 года, которая произошла по результатам судебного решения. Формально, последнее позволяет Tesla согласовать новые выплаты при наличии такой необходимости, но таким правом компания с тех пор так и не воспользовалась.

Прочие компании «великолепной семёрки» подобными размерами компенсации для членов совета директоров похвастать не могут. В той же Meta компенсация в среднем в два с половиной раза ниже, хотя эта компания и занимает второе место в рейтинге Equilar. В период с 2018 по 2020 годы величина компенсации в совете директоров Tesla составляла около $12 млн в год на одного члена с учётом денежных выплат, и это в восемь раз выше, чем в Alphabet (Google).

Tesla подобную щедрость объясняет активным участием членов совета директоров в создании ценности для акционеров компании. Только в течение 2024 года им пришлось 58 раз принять участие в собраниях совета директоров, и это значительно выше среднего показателя по отрасли."

Ни хера ж себе, пришлось 60 раз на работу прийти за год, просиживать штаны в комфортабельных залах для совещаний. Да где такая каторга видана? Нечеловеческие условия труда!

https://3dnews.ru/1133965/za-sem-let-chleni-soveta-direktorov-tesla-zarabotali-3-mlrd-na-aktsiyah-kompanii-ne-poluchaya-ih-s-2021-goda
#energy

"Первый такой компенсатор подключён к сети на подстанции в районе Мерум (Нижняя Саксония). Проект реализован компаниями Siemens Energy (разработчик технологии SVC Plus FS) и TenneT (оператор сети передачи электроэнергии). Система сейчас проходит тестовый режим и вскоре перейдёт в коммерческую эксплуатацию. Это инновационное решение, разработка которого заняла более десяти лет, а строительство — около трёх лет.

Технология вместо традиционных аккумуляторов и механической инерции маховиков использует суперконденсаторы. По своим свойствам они способны в течение миллисекунд обеспечивать мгновенную отдачу высокой мощности в электросеть, компенсируя отклонения частоты и реактивную мощность. По сути, это создаёт искусственную инерцию сети, заменяя такой традиционный механизм компенсации мощности и частоты, как регулируемая скорость вращения валов генераторов на угольных или газовых электростанциях. Более того, система эффективно работает в автоматическом режиме с дистанционным мониторингом и диагностикой."

https://3dnews.ru/1134003/germaniya-pervoy-v-mire-nachala-stabilizirovat-elektroseti-s-pomoshchyu-superkondensatorov
#physics #storage

"Сейчас один эксабайт занимает около 60 тысяч картриджей LTO. По словам Якуба Мостицкого (Jakub Mościcki), руководителя группы хранения данных CERN, достигнутый эксабайт — это лишь 10 % от того, что предстоит хранить и обрабатывать в следующие 10 лет. Повышение светимости БАК в середине 2030-х годов увеличит объём данных в 10 раз, создавая для ЦОД организации серьёзные вызовы. Остаётся надеяться, что прогресс в увеличении плотности записи рванёт вперёд и все данные уместятся на небольшом количестве накопителей будущего, как это произошло с данными предшественника БАК: раньше они казались огромными, а сегодня помещаются на десяток картриджей.

Все данные, полученные при столкновениях протонов, служат для проверки Стандартной модели физики частиц, а также для поиска новой физики за её пределами. По мере развития алгоритмов и методов анализа архивы БАК будут многократно использоваться учёными для новых исследований, поэтому их сохранение — не менее важная задача, чем проведение самих экспериментов."


https://3dnews.ru/1134097/bolshoy-adronniy-kollayder-narabotal-million-terabayt-dannih-i-skoro-vidast-eshchyo-bolshe
#astronomy

"Потеря контроля даже на 24 часа даёт 30 % вероятности катастрофического столкновения, способного запустить синдром Кесслера — каскадную реакцию, при которой обломки от одного столкновения провоцируют новые, формируя облако мусора и делая орбиту непригодной для использования на десятилетия.

На полное засорение орбиты таким образом могут уйти годы, однако для запуска процесса разрушения «карточного домика» достаточно одной мощной вспышки на Солнце. В истории человечества такое событие уже происходило — оно известно как буря Каррингтона 1859 года, самая сильная за всю историю наблюдений. Подобная буря могла бы вывести систему управления спутниками из строя на трое суток и более. Этого оказалось бы достаточно, чтобы человечество на десятилетия лишилось доступа в космос."

https://3dnews.ru/1134050/zemlya-okazalas-na-poroge-gibeli-kosmonavtiki-eyo-moget-pohoronit-vsego-odna-moshchnaya-vspishka-na-solntse
Forwarded from Denis Sexy IT 🤖
Тут легенда ML-индустрии, ученый Эндрю Нг, сходил в Стэнфорд и поделился своим мнением про АИ и карьеру инженеров – видео длинное и я советую смотреть его, но вот топ-10 советов оттуда:

1. Держите рабочие AI-инструменты “свежими”: отставание быстро превращается в потерю продуктивности.
Сейчас выбор среды/ассистента для кода реально влияет на скорость и качество. Если вы используете инструменты на поколение старее, вы часто просто делаете ту же работу дольше и тяжелее

2. Код стал дешевле - дороже стало “решить, что строить” и “описать это четко”.
Когда написать код проще, узкое место смещается в постановку задачи: сформулировать цель, ограничения, критерии успеха, сценарии использования. То есть не “как закодить”, а “что именно нужно получить и как проверить, что получилось”

3. Умение разговаривать с пользователями - это ускоритель разработки, а не “софт-скилл ради галочки”.
Те, кто умеют сами собрать обратную связь, понять боль пользователя и быстро уточнить требования, двигаются быстрее, потому что меньше зависят от “переводчиков” между инженерами и рынком

4. Выбирайте работу по команде и людям, а не по “громкости бренда”. И требуйте ясности по команде заранее.
Если компания не готова сказать, в какую команду вы попадёте и что будете делать (или просит “сначала подпиши, потом разберёмся”), это риск: можно оказаться на задачах, которые не развивают вас в AI-направлении

5. Сделайте портфолио так, чтобы оно “рулило” интервью: пусть вас спрашивают про ваш проект, а не про случайные загадки.
Сильная тактика: собрать проект(ы), максимально похожие на будущую работу, и описать решения, компромиссы, метрики. Тогда интервью превращается в обсуждение реальной инженерии, где вы сильнее

6. Интервью - это проверка “командности под стрессом”, а не только IQ и алгоритмов.
Совет из истории: “стой на своём” можно, но без агрессии. Когда вам указывают на баг/угол, правильная реакция - совместно улучшать решение, а не защищаться как в споре

7. Код, сгенерированный AI, почти всегда приносит “долг по обслуживанию”: думайте как финансист.

Смысл простой: любой код потом надо сопровождать

Хороший “долг” - быстрый прототип, который приносит проверенную пользу/знания и окупает поддержку

Плохой “долг” - нагенерили “что-то крутое”, но никто не понимает, зачем, как работает и как чинить.
Важная мысль: выкинуть прототип - нормально, поддерживать непонятную кашу - дорого

8. Сейчас ценится не “сделал модель”, а “довёл до боевого использования”.
То есть: качество, надёжность, мониторинг, задержки, стоимость, безопасность, удобство для пользователя. На рынке сильный сигнал - умение доводить до работающего продукта, а не до демо

9. Станьте человеком, который переводит хайп в реальность: начните с вопроса “зачем?”.
Соцсети поощряют вовлечённость, а не точность. Поэтому трендовые слова (“агенты”, “всё заменим AI”) легко уводят в сторону. Практичный подход: сначала “зачем бизнесу?”, “какой показатель улучшаем?”, “что будет считаться успехом?” - и уже потом выбирать технологию

10. Готовьтесь к двум параллельным траекториям: большие облачные модели и небольшие локальные модели “у себя”.
В одних задачах будут доминировать мощные модели “как сервис”. В других (где важны приватность, IP, контроль, стоимость) - модели, которые разворачивают внутри компании. Полезные навыки на стыке: настройка под задачу (fine-tuning/адаптация), развёртывание, ограничения по данным, безопасность и эксплуатация.

Ну, база, что скажешь еще
#news

Итоги 2025 года.

1) освоил вайбкодинг

2) написал торгового бота (ML модели, high perf параллельный бэктестер на numba, асинхронный обмен маркетдатой и заявками с брокером), который работает с реальными деньгами. результаты пока далеки от желаемых, но видно, что надо улучшить.

3) начал работать над приложением для изучения иностранных языков. уже сделан веб-сайт с логином и аналитикой, готовим небольшой командой 3 обучающие механики.

4) с помощью Клода отрефакторил и покрыл тестами значительную часть своей automl-библиотеки.

5) зарепортил много багов в polars, пытался протолкнуть поддержку поларс в catboost/lightgbm

Планы на 2026-й:

Улучшить точность моделек для торгового бота

Дописать языковые механики, открыть сервис для общего доступа, начать с его помощью изучение новых языков (3 уже есть на примете).

Добавить в свою automl-библу интеллектуальный HP тюнер.

Всем здоровья, мира, счастья.
🔥4