Data notes – Telegram
Data notes
46 subscribers
59 photos
5 videos
2 files
122 links
My data science notes
Download Telegram
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning by Sebastian Raschka

The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.

Link
https://arxiv.org/abs/1811.12808

Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation

@accelerated_learning
Forwarded from Data Secrets
DeepLearning.AI порадовали новым бесплатным курсом на Coursera за 0 рублей

Курс посвящен LLM. Рассказывают про жизненный цикл LLM, про то, как адаптировать их к конкретным задачам, как развернуть такую модель в проде, про возможные проблемы и конечно про то, как LLM устроены внутри. Затрагивают файнтюнинг и даже RLHF (это алгоритм, который сделал Chat-GPT таким крутым, про него мы рассказывали вот тут). Обещают глубокое понимание LLM на выходе и, судя по программе, действительно рассказывают подробно и понятно.

Приблизительно 16 часов, 3 модуля, 48 видео, преподаватели из Amazon с хорошим опытом, а еще на курсе дают сертификат. В общем, отличная возможность прокачаться. Регистрироваться тут.

😻 #advice #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
PandasAI

С появлением ChatGPT многие задачи были автоматизированы в удобных утилитах. Для датасайентистов тоже появился такой лакомый кусочек: PandasAI. Эта библиотека-расширение pandas, в которую добавлена возможность выполнять задачи обработки данных без явного написания кода. Пишешь промпт – и поехали. Можно даже рисовать графики и работать с файлами.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Idea about how to make Random Forest model smaller, faster without performance loss. But can we make sure that it won't lead to overfit?
😱1
A couple weeks ago I started using a new Jupyter notebook 7 that seems much more convenient compared to the previous “classic” version that we all used to. Out of the box it provides ToC and finally a really good dark theme. Besides all exterior changes I noticed less memory and CPU consumption compared to old versions: it doesn’t slow down my Chrome even if ipynb file opened is really long with hundreds of cells. It’s already integrated in Data Science Docker image (for Python 3.11+) and you can set it up and run it as I described in my post earlier.
Forwarded from Data Secrets
Про всякие транформаторы в Sklearn

Поговорили про то, как элегантно обернуть в pipeline любую пользовательскую функцию, как подправить встроенный транформатор, зацепили мега-полезные QuantileTransformer и TransformedTargetRegressor, а на сладкое рассказали про то, как в одну строку визуализировать конвейер.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Pretty often during tech interviews for a DS positions you can hear a question "Which ML models can extrapolate?" After checking this note about linear trees you can answer, that trees can extrapolate as well now.
🔥1
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk
Forwarded from addmeto (Grigory Bakunov)
NYT подает в суд на OpenAI и Microsoft за нарушение авторских прав, утверждая, что миллионы статей их газеты были использованы для обучения ИИ. И я уверен, что конечно использовались. Если не статьи целиком, то как минимум цитаты в других изданиях.

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
Маняна-транкиле или IT-рекрутмент по-Аргентински.

Часть 1: Маленькие галеры - наше всё

Поскольку довелось провести весь 2023 год в Аргентине будучи при этом дважды лейоффнутым, то вел поиски работы в DS/MLE в том числе и здесь. Начать наверное нужно с того, как вообще здесь устроен рынок труда на мой взгляд (на знание абсолютной истины, разумеется, не претендую).

Продуктовых компаний практически нет, есть редкие исключения вроде Mercado Libre и некоторых других, конкурс туда колоссальный, например в том же Меркадо на Линкедина на мидловую позицию DS было больше 1000 заявок (Линкедин тогда еще отображал их реальное количество, а не просто 100+ как сейчас). Есть несколько бигтехов, неожиданно большое офисное здание IBM и небольшой офис Гугла в самом центре, но релевантных вакансий там я не обнаружил. Есть FMCG, например J&J, и неожиданно много консалтинга: Accenture, PWC, Deloitte, EY и что тоже неожиданно, у всех у них немало постоянно открытых DS позиций.

Но подавляющая часть вакансий это конечно же галеры, продающие человекочасы в США и немного в Канаду. Причем большинство из них маленькие и не международные как, например, EPAM. Однако в стране это самые высокооплачиваемые позиции в индустрии, да и там достаточно знать только английский, в то время как в локальных компаниях обязателен испанский.
Одна из основных причин проста - многие международные компании в стране отсутствуют из-за огромных налогов для официального трудоустройства в штат, ну и 9 дефолтов только в 21 веке, мягко говоря, не очень привлекают международные компании открывать здесь представительства. Так что выбор для англоговорящего получается не очень разнообразный.
👍1