Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#polars

Воу!

"After working hard since our Polars Cloud announcement last February, we are pleased to officially launch Polars Cloud. Polars Cloud is now Generally Available on AWS. Beyond that, we also launched our novel Distributed Engine in Open Beta on Polars Cloud.

You can immediately get started at https://cloud.pola.rs/."

import polars_cloud as pc
import polars as pl
from datetime import date

with pc.ComputeContext(
workspace="<my-workspace>",
cpus=2,
memory=8,
cluster_size=8,
) as ctx:
in_progress = (
pl.scan_parquet("s3://polars-cloud-samples-us-east-2-prd/pdsh/sf100/lineitem/",
storage_options={
"aws_request_payer": "true",
})
.filter(pl.col("l_shipdate") <= date(1998, 9, 2))
.group_by("l_returnflag", "l_linestatus")
.agg(
count_order=pl.len()
)
.remote(ctx)
.distributed()
.execute()
)

print(in_progress.await_result().head)


https://pola.rs/posts/polars-cloud-launch/
#basic

Вот бы они ещё vb6/vba открыли!

"Компания Microsoft опубликовала исходный код собственной версии языка программирования BASIC, выпускавшегося с 1976-го по 1978-й годы. Изначально он назывался Altair BASIC, а затем был переименован в Microsoft BASIC. Этот язык программирования был разработан для микропроцессоров MOS Technology 6502, использовавшихся в Apple IIe, Atari 2600, Commodore VIC-20, Commodore 64 и Nintendo Entertainment System (NES) и других системах."

https://github.com/microsoft/BASIC-M6502
https://3dnews.ru/1128741/microsoft-opublikovala-ishodniy-kod-drevnego-yazika-programmirovaniya-microsoft-basic
Feature Selection in Machine Learning by Soledad Galli

Feature selection is the process of selecting a subset of features from the total variables in a data set to train machine learning algorithms. Feature selection is an important aspect of data mining and predictive modelling.

Feature selection is key for developing simpler, faster, and highly performant machine learning models and can help to avoid overfitting. The aim of any feature selection algorithm is to create classifiers or regression models that run faster and whose outputs are easier to understand by their users.

In this book, you will find the most widely used feature selection methods to select the best subsets of predictor variables from your data. You will learn about filter, wrapper, and embedded methods for feature selection. Then, you will discover methods designed by computer science professionals or used in data science competitions that are faster or more scalable.

First, we will discuss the use of statistical and univariate algorithms in the context of artificial intelligence. Next, we will cover methods that select features through optimization of the model performance. We will move on to feature selection algorithms that are baked into the machine learning techniques. And finally, we will discuss additional methods designed by data scientists specifically for applied predictive modeling.
In this book, you will find out how to:
- Remove useless and redundant features by examining variability and correlation.
- Choose features based on statistical tests such as ANOVA, chi-square, and mutual information.
- Select features by using Lasso regularization or decision tree based feature importance, which are embedded in the machine learning modeling process.
- Select features by recursive feature elimination, addition, or value permutation.
Each chapter fleshes out various methods for feature selection that share common characteristics. First, you will learn the fundamentals of the feature selection method, and next you will find a Python implementation.

The book comes with an accompanying Github repository with the full source code that you can download, modify, and use in your own data science projects and case studies.

Feature selection methods differ from dimensionality reduction methods in that feature selection techniques do not alter the original representation of the variables, but merely select a reduced number of features from the training data that produce performant machine learning models.

Using the Python libraries Scikit-learn, MLXtend, and Feature-engine, you’ll learn how to select the best numerical and categorical features for regression and classification models in just a few lines of code. You will also learn how to make feature selection part of your machine learning workflow.

Link:
- Book

Navigational hashtags: #armbooks
General hashtags: #ml #machinelearning #featureselection #fs

@data_science_weekly
#featureselection

Скорее всего, книжка выше будет компиляцией общеизвестных клише без реальной практической пользы, но посмотрим, название притягивает меня.
#openai #jobs

"Как отмечает CNBC, подобная платформа станет конкурентом для социальной сети LinkedIn, которая помогает профессионалам и работодателям взаимодействовать на выгодных условиях. Пока проект носит рабочее название OpenAI Jobs Platform. Реализация данной инициативы позволит OpenAI составить конкуренцию Microsoft ещё на одном направлении деятельности, поскольку LinkedIn принадлежит последней из корпораций.

По замыслу представителей OpenAI, новая платформа для работы с вакансиями поможет решить проблему дефицита кадров не только крупным компаниям, но и малому бизнесу. Кроме того, правительственные организации также смогут найти подходящих специалистов в области ИИ с её помощью. Сервис должен быть введён в строй к середине следующего года.

Попутно OpenAI запустит фирменную программу обучения и сертификации, которая позволит выпускникам корпоративной академии лучше применять ИИ в своей профессиональной деятельности. В OpenAI Academy свою квалификацию смогут повысить представители самого разного уровня. Чат-бот ChatGPT в режиме обучения будет применяться для взаимодействия со слушателями курсов. До 2030 года OpenAI собирается выдать 10 млн фирменных сертификатов гражданам США. Обе инициативы помогут специалистам лучше адаптироваться к меняющимся из-за распространения ИИ условиям на рынке труда."

https://3dnews.ru/1128768/openai-hochet-sozdat-platformu-dlya-poiska-raboti-v-sfere-ii
#python

Не сказал бы, что эти фичи прямо меняют правила игры. Но неплохо. В целом, отладка как была в питоне дерьмовой, так и осталась.

https://medium.com/@huzaifazahoor654/python-3-14-is-here-5-game-changing-features-you-should-know-0a197bac9708
#timeseries

Отличный список, подписываюсь под почти каждым пунктом.

Red Flag #1: “Transformers worked in NLP and vision, so of course they’ll work for time series”
Red Flag #2: Confusing accuracy with business value
Red Flag #3: Believing more data automatically improves forecasts
Red Flag #4: Not stress-testing for regime shifts
Red Flag #5: Ignoring forecast stability
Red Flag #6: Confusing forecasting with generic prediction
Red Flag #7: Treating forecasting as one-size-fits-all
Red Flag #8: Neglecting benchmarking against simple models
Red Flag #9: Underestimating data leakage in time series
Red Flag #10: Overconfidence in black-box models
Red Flag #11: Thinking forecasting is a solo sport
Red Flag #12: Ignoring the forecast horizon

Жирным выделил самые, на мой взгляд, важные.

https://valeman.medium.com/avoiding-forecasting-pitfalls-in-2025-12-red-flags-when-hiring-data-scientists-579fe25c01b3
#hardware #laptops

"Ноутбук ThinkPad P16 Gen 3 может быть оснащён процессорами Core Ultra 200HX, вплоть до 24-ядерных моделей с частотой до 5,5 ГГц. Лэптоп предлагает до 128 Гбайт ОЗУ DDR5-5600 ECC или до 192 Гбайт DDR5-5600 без ECC, профессиональные видеокарты Nvidia, вплоть до модели RTX Pro 5000 Blackwell с 24 Гбайт памяти GDDR7, а также до 12 Тбайт постоянной памяти в виде трёх накопителей PCIe 5.0 объёмом по 4 Тбайт.

ThinkPad P16 Gen 3 оснащён 16-дюймовым экраном. На выбор предлагаются панели с разрешением FHD, UHD+, а также сенсорный OLED-дисплей с разрешением 3.2K. В оснащение ноутбука вошли два порта USB-A (10 Гбит/с), два Thunderbolt 5 (USB-C), один Thunderbolt 4 (USB-C), HDMI 2.1, комбинированный аудиовыход, считыватель карт памяти SD Express 8.0 и 2,5-Гбит сетевой разъём LAN. Ноутбук поддерживает Wi-Fi 7 и Bluetooth 5.4. В качестве опции также предлагается поддержка 5G и NFC."

https://3dnews.ru/1128785/lenovo-predstavila-novie-mobilnih-rabochie-stantsiy-thinkpad-p-s-protsessorami-core-ultra-200-i-grafikoy-nvidia-rtx-blackwell
#law

Фига себе, качнули книжек.

"Группа авторов при этом настаивала на выплате Anthropic компенсации в свой адрес из расчёта в среднем $3000 за каждое использованное литературное произведение, коих набралось не менее 500 000 штук. Таким образом, теперь компании предстоит в течение пяти рабочих дней направить в специальный фонд первые $300 000 компенсации после того, как решение суда вступит в законную силу. При этом сумма в $1,5 млрд является минимальным порогом компенсации. По факту, выплаты могут оказаться выше, поскольку Anthropic должна будет дополнительно перечислить в фонд по $3000 за каждое произведение сверх упомянутых 500 000, если обнаружится, что изначальный список не был исчерпывающим. Сумма компенсации станет крупнейшей в истории судебной практики по делам, связанным с нарушением авторских прав."

https://3dnews.ru/1128814/anthropic-soglasilas-viplatit-15-mlrd-po-isku-ob-avtorskih-pravah