Data notes – Telegram
Data notes
46 subscribers
59 photos
5 videos
2 files
122 links
My data science notes
Download Telegram
Forwarded from partially unsupervised
Есть классическая картинка для иллюстрации жизненного цикла технологических инноваций - Gartner Hype Cycle. Он, конечно, скорее про adoption компаниями, но почему бы не натянуть эту фигуру и на отдельного индивида? Кажется, что прошло уже достаточно времени, чтобы ChatGPT прошел через этот hype cycle персонально для меня и достиг плато продуктивности: равномерное использование, выжившие юзкейсы, отсутствие восторгов и разочарований.

Так вот, лично у меня сложилось четыре явных паттерна использования:

1) Бюрократ-копирайтер

"Перепиши этот месседж для официального емейла / обращения в службу поддержки / аппликейшена в организацию / маркетингового описания". В общем, для переписывания текста. Например, так пишутся жалобы в банк, заблокировавший транзакцию, или описание биографии для сайта издательства.

2) Поверхностный эрудит

"Опиши состояние дел в какой-то области / объясни с учетом моего уровня (не)знания в соседних областях". Примеры вопросов: какой софт используют 3д художники для работы с текстурами? чем replacement map отличается от height map? какие острова на Азорах выбрать для недельного отпуска, если меня интересуют хайки и природные достопримечательности? какие прикладные применения сверхпроводимости? Дьявол обычно в деталях, и слишком глубоко закапываться с LLM не стоит, но можно быстро получить поверхностное понимание.

3) Junior software engineer

"Напиши прототип такой штуки, используя этот незнакомый мне, но популярный в целом API". Из последнего: делал так ORM на SQLAlchemy и blender-скрипты для headless рендеринга. В обоих случаях хочется, чтобы оно хоть как-то работало, а разбираться в апи не хочется - не предполагаю, что этот код нужно будет долго поддерживать или развивать.

4) Въедливый критик

"Найди недостатки и корнеркейсы в следующей идее/коде/тексте: {{INSERT YOUR STUFF}}". Люди неплохо справляются с поиском подтверждений своей идеи или дизайна (confirmation bias и его друзья), а по-хорошему надо искать опровержения и логические нестыковки. Кстати, отлично сочетается с предыдущим режимом использования: напиши-покритикуй-исправь-вываливай в продакшен.

Это именно персональные примеры использования, а не приложения вокруг API. Хотя я как раз использую не веб-интерфейс, а консольный heygpt: он быстрее, удобнее и даже дешевле, чем обычная подписка на GPT-4.

Расскажите в комментариях про сложившиеся у вас паттерны!
Forwarded from Data Secrets
Тензоры и как с ними работать

Тезнзоры – это главные объекты библиотеки TensorFlow, которая вместе в PyTorch является основным инструментом для обучения нейросетей.

Но как работать с этими тензорами? Мы очень старались и выкатили вам по этой теме коллаб. В нем – подробный гайд с кодом и пояснениями. Разбираем, как создавать тензоры, какие есть важные операции с ними, как изменить их размерность, перемножить их и многое другое.

Сохраняйте на здоровье -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/tensorflow_by_data_secrets.ipynb

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from New Yorko Times (Yury Kashnitsky)
Про бигтех, софт-скиллы и английский
#career

Скоро тут будут кванты, матан и прочие прелести 🤓, а пока начнем с чего-то более попсового.

Сейчас умеренно активно собеседую на ML-инженера в Польше, замысел – помочь именно кому-то пострадавшему от действий РФ, независимо от национальности. К сожалению, топовым вроде бы (чисто по хард-скиллам) кандидатам часто не хватает двух вещей: как вы поняли по названию поста, это софт-скиллы и английский.

То как яндексоиды-олимпиадники, успешно вертящие пресловутые красно-черные деревья даже после 14 пив и двух-трёх шаурм, проваливают behavioral (поведенческое интервью) – это уже притча во языцех. Из недавнего – мой знакомый, бывший коллега по Mail.ru, который сейчас тащит почти весь ML в VK, должен был бы попадать в Meta на E7. Но он вообще ничего не знал про поведенческое интервью (далее – бихейв), думал, там будут только технические вопросы, в итоге – E6. Я успешно прошел собесы в Амазон на applied scientist (но фриз) на L5, по фидбеку это “почти L6”, как узнал потом от знакомых в Амазоне, на L6 ожидают чуть больше историй про проекты на кучу команд, когда прям пошел, убедил и поднял несколько команд на проект.

Поэтому совет про бихейв: прежде всего узнайте про формат и поговорите со знакомыми в конкретной компании, возможны особенности. И относитесь к этому типу интервью серьезно, это не булщит. В частности, у Амазона бихейв – почти половина всего времени, отведенного на собесы, то есть 2-3 часа чистого времени (кстати, свой подход они неплохо поясняют в книге “Working backwards”). Представьте вопрос “Расскажите, как вы поменяли процесс в компании”. Можно оборжать, конечно, закатить глаза, но если подумать, то можно многое узнать о кандидате по ответу на такой вопрос. Одно дело пожаловался на сардельки в столовой, их заменили на сосиски. Другое дело – человек увидел неэффективность в команде/компании и реально поменял, какой-то из процессов, например, предложил те же бихейв-интервью при найме или потащил демо-сессии всех Data-Science команд в компании для обмена знаниями.

Есть явный плюс подготовки к бихейв-интервью: детальный взгляд на свой предыдущий опыт и выжимание сути из своих проектов. Это в любом случае пригодится, независимо от того, с какой компанией собеседуетесь. И как бонус, никогда не придется на собесе говорить “ой, это было давно, деталей не помню” (наличие такого ответа – еще одна фича с отрицательным весом).

Итак, подготовка к бихейв-интервью:
- Посмотрите типовые вопросы, их штук 150. Вот неплохой список для Амазона https://igotanoffer.com/blogs/tech/amazon-behavioral-interview Но вопросы там хорошо общаются и на прочие компании
- Также почитайте “Время Валеры” @cryptovalerii по тегу InterviewPreparation
- Выделите десяток самых популярных вопросов (таких видео полно на ютубе, точно стоит включить: “Tell us about a project you are most proud of”, “Tell me about a time you solved a big problem in your company”, “Tell me about your biggest career failure and what you learned from it” и “Tell me about a time you had a conflict with a coworker or manager and how you approached it”) и по кажому вопросу опишите по 2-3 истории из своей карьеры (работы, учебы, пет-проджектов и т.д.). Это немалая инвестиция времени (от 15 часов точно), но вы точно не пожалеете!
- В ответе можно придерживаться формата STAR – Situation, Task, Action, Result, легко гуглится

Ресурсы, которые помогли мне:

- Хорош бесплатный текстовый курс Яндекс.Практикума про алгоритмические собеседования https://practicum.yandex.ru/profile/algorithms-interview/ там есть часть про поведенческие интервью, это можно считать ликбезом (остальные части – тоже топ)
- видео Jackson Gabbard https://www.youtube.com/watch?v=PJKYqLP6MRE
- много полезного нашел на этом ресурсе https://igotanoffer.com/blogs/tech, условно, как отвечать на вопросы типа “почему компания X?”
- пост про вопросы с подвохом https://leetcode.com/discuss/interview-experience/1532708/tips-for-answering-few-tricky-behavioural-interview-questions
Forwarded from New Yorko Times (Yury Kashnitsky)
Наконец, английский. Зависит от компании, конечно, у нас, например, полно носителей, а уровень языка не-носителей тоже очень высокий. Хочется не тупить в таких вещах как презентации, если надо убедить в своем взгляде. Да и даже во время 2-3-минутных айсбрейкингов с англичанами не хочется выпадать. Для некоторых ролей (PM, менеджеры любого звена) топ-инглиш на входе – просто обязательное условие.

Можно долго обсуждать стратегии изучения иностранных языков. Прозвучит банально, но важна практика, то есть беседы с носителями. Без этого сложно сдвинуться. Я в свое время прокачался в английском через разговорные клубы, но это может быть и SkyEng, см. статью “Как я осилил английский” на Хабре https://habr.com/ru/post/413633/

Сейчас время непростое, конечно, рыночек мёрзлый. Но всяко паузы можно использовать для прокачки. Если после этого поста хотя бы один человек заменит десяток часов литкода на практику бихейв-интервью и английского, значит, я тут не зря строчил.
Forwarded from Data Secrets
Про неочевидные тонкости обучения для несбалансированных классов

В задаче классификации данные называются несбалансированными (Imbalanced Data), если в обучающей выборке доли объектов разных классов существенно различаются, также говорят, что «классы не сбалансированы». Вопрос вот какой: что делать в такой ситуации?

Такой вопрос часто задают на собеседованиях, есть блог-заметки и ютуб-ролики на эту тему, почти все они дают ложное представление о дисбалансе. Обычно рекомендуют давать такой ответ – надо сделать перебалансировку данных. Сейчас поговорим о том, что подобный ответ не учитывает теорию и практику классификации.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Как использовать многоруких бандитов на практике | Гайд для аналитиков, продуктовых менеджеров и ML-специалистов

Помните, мы рассказывали про многоруких бандитов? Так вот недавно ребята из команды аналитической системы MyTracker показали экспертное руководство для использования многоруких бандитов в продуктах. Подробно разобрали все особенности и отлично рассказали про четыре основных алгоритма: жадный, алгоритм UCB, алгоритм сэмплирования Томпсона и контекстуальные многорукие бандиты.

Мастрид и для ML-специалистов, и для аналитиков, и даже для продактов. Советуем!
Скачивать тут.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Secrets
Выкатываем лучший на свете гайд по ИИ-расширениям Chromе для датасайентистов

Объяснить и обобщить статью, написать по ней код, потом ускорить его в 20 раз, за секунду спарсить данные и составить умные заметки? Да не вопрос, с нашим авторским гайдом все по плечу. Забирайте!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Just post it!
job_boards.xlsx
39.3 KB
#immigration
Where to find the job?
Во вложении файл со списком из 212 job boards, в основном для ИТ, но вероятно не только.
С разделением по странам и регионам.
Если вы ищете работу для релокации - начинать советую с тех ресурсов, что в группе Global. Локальные ресурсы по странам часто содержат меньше вариантов, хотя на них может найтись вакансия, которая не встретилась в стандартных LinkedIn/Glassdoor/Indeed.
Внутри географических групп ссылки отсортированы по алфавиту, а не рейтингу/количеству вакансий/чему-то еще.
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning by Sebastian Raschka

The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.

Link
https://arxiv.org/abs/1811.12808

Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation

@accelerated_learning