NEW BOT Телеграм, страница

42 views19:09

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning by Sebastian Raschka

The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.

Link
https://arxiv.org/abs/1811.12808

Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation

@accelerated_learning

46 views15:29

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#api #architecture #solutions #programming

https://www.youtube.com/watch?v=zvWKqUiovAM

YouTube

Top 7 Ways to 10x Your API Performance

Get a Free System Design PDF with 158 pages by subscribing to our weekly newsletter: https://bytebytego.ck.page/subscribe

Animation tools: Adobe Illustrator and After Effects.

Checkout our bestselling System Design Interview books:
Volume 1: https://amzn.to/3Ou7gkd…

48 views16:19

Data notes

Forwarded from Data Secrets

DeepLearning.AI порадовали новым бесплатным курсом на Coursera за 0 рублей

Курс посвящен LLM. Рассказывают про жизненный цикл LLM, про то, как адаптировать их к конкретным задачам, как развернуть такую модель в проде, про возможные проблемы и конечно про то, как LLM устроены внутри. Затрагивают файнтюнинг и даже RLHF (это алгоритм, который сделал Chat-GPT таким крутым, про него мы рассказывали вот тут). Обещают глубокое понимание LLM на выходе и, судя по программе, действительно рассказывают подробно и понятно.

Приблизительно 16 часов, 3 модуля, 48 видео, преподаватели из Amazon с хорошим опытом, а еще на курсе дают сертификат. В общем, отличная возможность прокачаться. Регистрироваться тут.

😻

#advice #news

Please open Telegram to view this post

VIEW IN TELEGRAM

48 views11:59

Data notes

Forwarded from Data Secrets

PandasAI

С появлением ChatGPT многие задачи были автоматизированы в удобных утилитах. Для датасайентистов тоже появился такой лакомый кусочек: PandasAI. Эта библиотека-расширение pandas, в которую добавлена возможность выполнять задачи обработки данных без явного написания кода. Пишешь промпт – и поехали. Можно даже рисовать графики и работать с файлами.

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

50 views12:02

Data notes

Idea about how to make Random Forest model smaller, faster without performance loss. But can we make sure that it won't lead to overfit?

Dailydoseofds

Your Random Forest Model is Never the Best Random Forest Model You Can Build

The coolest trick to improve random forest models.

😱1

55 viewsedited 18:07

Data notes

Today I failed a job interview due to lack of knowledge about PSI and data drifts for ML models. This article helped me to close this gap pretty well :)

Arize AI

Population Stability Index (PSI): What You Need To Know

Population stability index (PSI) is a statistical measure with a basis in information theory that quantifies the difference between one probability distribution from a reference probability distribution. The advantage of...

👍1

62 views18:23

Data notes

A couple weeks ago I started using a new Jupyter notebook 7 that seems much more convenient compared to the previous “classic” version that we all used to. Out of the box it provides ToC and finally a really good dark theme. Besides all exterior changes I noticed less memory and CPU consumption compared to old versions: it doesn’t slow down my Chrome even if ipynb file opened is really long with hundreds of cells. It’s already integrated in Data Science Docker image (for Python 3.11+) and you can set it up and run it as I described in my post earlier.

54 views00:28

Data notes

Forwarded from Data Secrets

Про всякие транформаторы в Sklearn

Поговорили про то, как элегантно обернуть в pipeline любую пользовательскую функцию, как подправить встроенный транформатор, зацепили мега-полезные QuantileTransformer и TransformedTargetRegressor, а на сладкое рассказали про то, как в одну строку визуализировать конвейер.

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

68 views21:36

Data notes

Pretty often during tech interviews for a DS positions you can hear a question "Which ML models can extrapolate?" After checking this note about linear trees you can answer, that trees can extrapolate as well now.

KakkoKari （仮）

Linear trees in LightGBM: how to use

This was originally written as a “Hello world” kind of program aimed at giving my team at the DataLab some help getting started with less noisy variants of GBDTs.

🔥1

70 views01:39

Data notes

Forwarded from Aspiring Data Science (Anatoly Alekseev)

#conformal #mapie #crepes #timeseries

Конформализированная квантильная регрессия - как тебе такое, Илон Маск?!
Для временных рядов важный вопрос заключается в выборе калибрационного множества.

https://www.youtube.com/watch?v=--WcrDRtrYk

YouTube

Inge van den Ende-Leveraging conformal prediction for calibrated probabilistic time series forecasts

With the increasing amount of volatile renewable energy sources, it becomes more and more challenging to keep the electrical grid in balance. Probabilistic energy price forecasts can help to create this balance. But how do we obtain well-calibrated forecasts?…

61 views20:07

Data notes

Forwarded from addmeto (Grigory Bakunov)

NYT подает в суд на OpenAI и Microsoft за нарушение авторских прав, утверждая, что миллионы статей их газеты были использованы для обучения ИИ. И я уверен, что конечно использовались. Если не статьи целиком, то как минимум цитаты в других изданиях.

https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

NY Times

The Times Sues OpenAI and Microsoft Over A.I. Use of Copyrighted Work (Published 2023)

Millions of articles from The New York Times were used to train chatbots that now compete with it, the lawsuit said.

66 views12:20

Data notes

https://book.thedatascienceinterviewproject.com/

Thedatascienceinterviewproject

About | THE DATA SCIENCE INTERVIEW BOOK

This page tells you what our vision and intention for this book is and how you can help in making it better.

131 views02:48

Data notes

Маняна-транкиле или IT-рекрутмент по-Аргентински.

Часть 1: Маленькие галеры - наше всё

Поскольку довелось провести весь 2023 год в Аргентине будучи при этом дважды лейоффнутым, то вел поиски работы в DS/MLE в том числе и здесь. Начать наверное нужно с того, как вообще здесь устроен рынок труда на мой взгляд (на знание абсолютной истины, разумеется, не претендую).

Продуктовых компаний практически нет, есть редкие исключения вроде Mercado Libre и некоторых других, конкурс туда колоссальный, например в том же Меркадо на Линкедина на мидловую позицию DS было больше 1000 заявок (Линкедин тогда еще отображал их реальное количество, а не просто 100+ как сейчас). Есть несколько бигтехов, неожиданно большое офисное здание IBM и небольшой офис Гугла в самом центре, но релевантных вакансий там я не обнаружил. Есть FMCG, например J&J, и неожиданно много консалтинга: Accenture, PWC, Deloitte, EY и что тоже неожиданно, у всех у них немало постоянно открытых DS позиций.

Но подавляющая часть вакансий это конечно же галеры, продающие человекочасы в США и немного в Канаду. Причем большинство из них маленькие и не международные как, например, EPAM. Однако в стране это самые высокооплачиваемые позиции в индустрии, да и там достаточно знать только английский, в то время как в локальных компаниях обязателен испанский.
Одна из основных причин проста - многие международные компании в стране отсутствуют из-за огромных налогов для официального трудоустройства в штат, ну и 9 дефолтов только в 21 веке, мягко говоря, не очень привлекают международные компании открывать здесь представительства. Так что выбор для англоговорящего получается не очень разнообразный.

👍1

73 viewsedited 00:52

Data notes

Часть 2: Опаздывающие рекрутеры и формализм на собеседованиях.

Сам делал несколько холодных откликов в галеры и Accenture, из них ответ пришел только из последней. Предложили созвониться, я ответил, что по-испански не говорю, на что менеджер ответил, что пойдет уточнить, можно ли на позиции работать только с английским. И пропал. Через пару недель пишет уже другой менеджер и тоже безвозвратно ушел уточнять насчет английского. Из галер ноль ответов. Однако достаточно много сообщений приходило из Линкедина (и продолжает приходить сейчас, что, кстати, сигнализирует, что рынок все еще подает признаки жизни и не умер окончательно, что радует).
Веселье начинается с того, что больше половины рекрутеров либо опаздывают минут на 15, либо просто забывают про встречу, вспоминая на следующий день, что вот мол у нас должен быть звонок, но я вот забыл про него, извини, дружище, давай в другое время назначим. Один товарищ переносил созвон 4 раза(!) и клялся, что он вот-вот улучшит свои процессы и больше так не будет. Когда он не пришел в 4 раз, и я сказал, что вакансия мне больше не интересна, он разозлился, мол, как же так, мы же договаривались? Большинство скринов выглядят довольно глупо: спрашивают, сколько лет опыта в такой-то и такой-то технологии и ноль вопросов про сделанные проекты, желаемую ЗП. Одна дама, которая, кстати, тоже не пришла на созвон и сейчас в процессе назначения нового времени (вот думаю, может мне тоже не придти хоть раз для справедливости:) ), хотела меня сразу режектнуть, якобы минимальный уровень английского для работы - С1 и называла его то “very fluent”, то “very advanced”, при это пишет мое имя из 4 букв (Alex) с ошибками и частенько с маленькой буквы, “уважение” к собеседнику проявляла изо всех сил:).

Дальше, поскольку галеры не хотят кого попало показывать клиентам, а сами тех собес провести не могут, то его проводят сторонние конторки. Например, когда один из скринингов я все же прошел успешно, меня отправили решать литкод под видео запись, которую потом просматривал то ли сам клиент, то ли тот же аутсорсер, тоже было весело: все задачи решил (по кр мере, я и интервьюер были оба удовлетворены результатом), а потом пришел отказ с пометкой “negative feedback”, мол дальше ты, дружок, не проходишь. Попросил по-человечески пояснить, а что именно было не так? (Запрос фидбека со стороны кандидата - абсолютно нормальный этап всех собеседований). Прислали скрин какой-то своей системы с моим именем, названием задач и оценка результата “moderate”. Я пишу, вы уж определитесь со своим мнением, “moderate” или “negative” на что в переписку вклинилась дамочка со стороны клиента и ответила мне, что мы в этих типах ваших фидбеков не разбираемся, сказали проваливай, и точка.
А так 90% скринингов не проходил и никакого ответа не было вообще. Потом от ребят узнал, что, например, в Мексике, где похожий рынок труда, тоже такая история, и дело в том, что галерные рекрутеры очень формально подходят к требованиям заказчика по знанию и опыту с инструментарием. Например, сказано, опыт с Python не менее 5 лет, а если у тебя “только” 4.5 года, и при этом PhD, 3 х Kaggle GM и много чего еще, то ты не пройдешь хоть тресни. Поэтому скрининг и сводится просто к тому, чтобы ты перечислил года опыта с нужными клиенту тулзами и пофиг, как именно ты ими пользовался. При случае проверю эту гипотезу лично, если получится совсем уж нагло не врать.

Я уже не говорю про то, что много спама нерелевантными вакансиями, хотя это проблема есть во многих других странах.

👍1

73 views00:53

Data notes

Часть 3: Местный менталитет решает

Проблема непрофессионализма в Аргентине стоит не только в IT, но и во многих других отраслях и сферах жизни. Достаточно просто посмотреть, а лучше попользоваться местными товарами легкой промышленности, такого трэша я не видел нигде. Подумаешь, мебель или одежда кривая/косая/разваливается через неделю? Ничего страшного, почини сам и будет норм. Сделано тяп-ляп, но ведь сделано же? Люди вообще не понимают, что такого, что ты просто забыл прийти на встречу или опоздал на пару часов? Здесь это нормально, никто никуда не торопится, все на расслабоне. Так что все вышеописанное почти наверняка - одно из следствий местного менталитета и образа жизни, который даже русским, славящимся своим раздолбайством в мире, не понять. Хотя бы врачи, к которым я тут обращался, пока не были замечены в подобном, за что им спасибо.

86 views00:53

About

Blog

Apps

Platform