Дата канальи — про «специалистов» в данных / ML / AI – Telegram
Дата канальи — про «специалистов» в данных / ML / AI
5.52K subscribers
218 photos
7 videos
12 files
202 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#корпжиза

Пригласили как-то на собес в компанию, которую последние пару лет бросает — перетряска топов, плохо с финансами, нет стратегии, огромная текучка.
Думаю — схожу, интересно что спросят, наверняка очередную вариацию про два стула — тк ожидаемо HR компании соответствуют корпкультуре

Не прогадал 😁

Вот вам предновогодняя загадка от HR:

Вы в лодке, лодка тонет, надо выбрать кого выбросить — руководителя или всю команду?
Выбор только из этих двух вариантов, никакие обходнячки не принимались

Зная что контора как на вулкане, говорю — монетку брошу, вообще пофиг — у вас реорг на реорге — то топа снимут, то команду распустят.

Cудя по недовольному лицу HR, не угадал 😃

PS А какой ответ правильный? 😶

Свою версию напишу следующим постом -- "клиент всегда прав"

А заодно, почему считаю такие вопросы на собеседованиях вполне уместными и даже полезными, для кандидата особенно
🤣549🔥6🤪3😁1
#корпжиза

Клиент всегда прав

В тему предыдущего поста про HR.

На картинке два воблера — куплены в один день, использовались почти одинаково.
На какой рыба клюет?
Ответ очевиден — на тот, на котором живого места нет от укусов хищников.

Когда ищут подрядчика, смотрят в первую очередь на цену и опыт выполнения аналогичных проектов, это нетрудно проверить даже по открытым данным — выигранные тендеры, финансовая отчетность, арбитражи позволяют в целом составить картину и о масштабе организации и о качестве работы (если много судов — значит у контрагентов претензии). А если встреча с подрядчиком проходит в директорском кабинете из красного дерева с мраморным столом и золотой пепельницей, то это сыграет в минус. Ведь, по мнению Баффета, показная роскошь менеджмента прямо указывают на то что компания плохо управляетcя:

“At Berkshire, we do not believe in expensive headquarters or executive luxuries. Such costs do not enhance business performance and are paid for by shareholders.” Баффет, Berkshire Hathaway Shareholder Letter, 1985


В найме же все совершенно иначе.

Первый этап зачастую — это HR, перед которой состоит задача фильтрации огромного пула потенциально возможных кандидатов, но которая не может (открытых данных не так много — разве что внешние по отношению к компании ачивки) и не хочет (по каждому кандидату не порасследуешь) проверить их результаты. И внешние ачивки тоже не панацея — они же, как правило, получены в составе команд, нужно еще как-то вычленить вклад именно кандидата.

На что же она ориентируется? У технаря можно хотя бы быстро сделать скрининг знаний (взяв вопросы у инженеров).

А что с наймом руководителей?
«чтоб симпатичненький»
«чтоб производил впечатление успешного»
«чтоб адекватненький»
«чтоб можно было показывать правлению»
«чтоб стрессоустойчивый и не терялся когда слышит чушь»
«чтобы родился в асцендентной деве»
«чтобы лапуся нормис»

Плохо ли это? Ни в коем случае!
Это супер-нормально, вообще «клиент всегда прав» — очень глубокая и верная фраза. Если у компании спрос на тех кто знает как отвечать на вопрос «кого выбросишь — руководителя или всю команду?» — значит ей именно такие и нужны, мб она к сокращениям готовится, или сомневается в текущем руководителе и кандидат должен быть готов его оперативно заменить.

Так что любой контакт с процессом найма — это очень честный сигнал кто именно в компании требуется.

В компании 16 этапов собеседований? — отлично, это не повод ныть, а сигнал что в компании нужны люди, готовые, например, к постоянным переработкам без видимых причин. Или что ваша работа в любой момент может быть помножена на нуль -- и это (нулевую ценность собственнх усилий) надо воспринимать как должное.

Компания оценивает кандидата прежде всего по внешнему виду и болтологии? — супер, значит на этой позиции придется делать много презентаций и демо на разные аудитории и надо уметь всем нравиться — от этого зависит успех компании.

В тексте вакансии одно, на собеседовании другое, в KPI третье? — прекрасно, это сигнал что реальных стейкхолдеров будет несколько, интересы у них разнонаправленные, и нужно уметь в этом жить.

Было бы грустно «проскочить» на место, которое не соответствует вашим ценностям, а потом мучаться от развивающихся неврозов.

PS А если вы покусанный воблер -- вас обязательно воьмут те, кому позарез нужен будет результат
1🔥54😁1713👍9💯6
И снова про недвижку -- выше я рассказывал о том как устроена модель прогноза CashFlow в проектах жилой недвижимости.

Такая мудреная схема рождается не сразу из головы, а после нескольких итераций и обсуждений с экспертами, быстрый пилот не провести (но валидность модели все равно, конечно, проверялась на A/B — просто он шел больше года).

Одним из топовых экспертов, с которым мы валидировали наши промежуточные результаты, данные и файндинги был Дима Волков — мы приходили к нему за экспертизой, и получали ее ведрами, и в отличие от остальных экспертов — его прогнозы по недвижке сбывались.

Что такой человек забыл в корпорации??

В итоге Дима-таки ушел и сделал свое предприятие — помогает находить жилую недвижимость под вложения и выбивать у застройщиков максимальные скидки.

Уверен, что кому-то из подписчиков будет полезно
1👍114❤‍🔥2🔥1
Вместо красивой инфографики tgstat и всяческого подведения итогов и спойлеров.

Просто поздравляю подписчиков с Наступающим! 🎄❄️ 🎆🥂

Пусть у вас в Новом Году будет поменьше кейсов для этого канала и побольше крутых результатов!
Желаю вам чтобы всегда было достаточно времени для собственных проектов и своего же образования. 🤓

А с последним поможет специализация по ML, в которой мы с ребятами делаем максимально полный набор релевантных курсов

Всех крепко обнимаю, спасибо что были со мной! Встретимся уже в Новом Году!

🥂🎆 ❄️🎄 С НОВЫМ ГОДОМ!
2🍾376🎄2😁1
Forwarded from Kantor.AI
Перезапуск специализации по ML: как было на Курсере, только с современной программой

С 2016 по 2022 год более 200 тысяч человек прошло через нашу с коллегами специализацию "Машинное обучение и анализ данных" на Coursera, выпущенную под брендом МФТИ и Яндекса. Курсы специализации практически стандартом в изучении Machine Learning на целых шесть лет, а стоило все это удовольствие всего 4999 рублей в месяц. Но с тех пор набор тем, которые нужно знать начинающему Data Scientist'у или ML-инженеру, существенно изменился. Поэтому мы с командой MLinside переосмыслили специализацию и выпускаем ее новую версию, причем по той же цене, что была четыре года назад.

Список курсов мы подбирали очень внимательно, со всей заботой о том, чтобы изучивший все видеолекции и выполнивший все задания слушатель смог построить карьеру в сфере AI. Начинаем с пререквизитов и классического машинного обучения, далее знакомимся с глубоким обучением и особенно горячей сейчас темой AI-агентов. После переходим уже к суровым будням коммерческого применения AI: A/B тестам, MLOps и ML System Design. А чтобы курсы не устаревали от того, как быстро развивается в наши дни AI, уже вышедшие курсы мы будем продолжать обновлять, а главное - дополнять. Ближайшая аналогия здесь - основной сюжет и побочные квесты в компьютерных играх. Курсы мы выпускаем с тем набором материалов, которые составляют "основной сюжет", но с течением времени будет появляться все больше опциональных лекций и заданий ("побочных квестов").

Наша миссия - дать широкому кругу людей, интересующихся AI, доступ к курсам топового уровня. Материал курсов специализации довольно непростой: в основу всех курсов, кроме вводного, положены материалы занятий в сильнейших российских ВУЗах - МФТИ, МГУ, ВШЭ, ИТМО. Здесь не будет обещаний, что "каждый может стать data scientist". Но тот, кто справится с материалом, сможет.

На специализацию УЖЕ можно оформить подписку: https://mlinside.ru/specializaciya

На текущий момент готовы подготовительный модуль (математика и python) и classic ML, до конца января планируем выпустить DL (значительная часть материала уже готова), до конца февраля - AI агентов. Оставшиеся курсы тоже будут выходить с похожей периодичностью.
2🔥2413🎉6👏4🥴1🤣1
Всем в Новом Году такой же способности адаптироваться под меняющийся мир 😁
1🤣398💯8🎄3
https://www.kommersant.ru/doc/8317535

«Вымпелкома». На бесплатном тарифе доступны инструменты в GPT-5 Nano, Mini (1–5 токенов) и DeepSeek (3 токена)


1-5 токенов и 3 токена это прям сила 😆😅😂

Предложение для конечных пользователей выглядит экономически невыгодным: 300 руб. за 1,5 тыс. токенов — это в 100–200 раз дороже прямой покупки доступа к API тех же моделей
🤣33😁21
Точка синхронизации технологий и тех, кто их использует

T-Sync Conf — офлайн-конференция от Группы «Т-Технологии» для опытных инженеров. 7 февраля в Москве на площадке TAU соберутся платформенные, security и дата-инженеры, аналитики, DevOps, SRE, CI/CD, AI-, ML-, R&D- и DX -специалисты.

Это новый формат инженерного диалога:
— Контуры — тематические зоны, каждая из которых раскрывает отдельный слой инженерной реальности: AI, Data, R&D, Security, Platform и другие направления.
— Вместо классических докладов — круглые столы, стенды, хакатон, воркшопы и мастер-классы.
— Инженерные решения изнутри — возможность посмотреть, как устроены технологии в Т-Банке и других компаниях, и пообщаться напрямую с теми, кто их создает.

А еще много практики, интересных знакомств и живых систем.

Успейте подать заявку
👍112
Снова форсится картинка с мышкой. Значит, стоит присмотреться.

Стратегия мышки в целом очень выигрышная, вот как было дело.
В одной крупной компании после визита руководства в ИТ-гиганты было решено строить хранилище данных — путем репликация в него всего и вся.

Как водится, «всего и вся» ужалась сначала до «самых важных источников данных», потом «самые важные» разделились на «самые-самые важные» и прочие (всего 5 зон приоритетов), а потом оставшиеся самыми-самыми архиважными аж 4 базы покромсали на предмет бизнес-значимости таблиц (это когда про репликацию связочных таблиц «забыли» и толку от таких данных нуль).

Но тк активность была на контроле руководства компании, то каждый срыв сроков и пересмотр скоупа сопровождался кадровым решением. За 3 года сменилось ровно 7 (!) злосчастных руководителей дата-функции (антирекорд составил 25 дней на должности).

А пришедший восьмым (до этого он мудро выжидал будучи руководителем соседнего центра компетенций) — застал задачу примерно в 100 раз меньше первоначальной и на 99% процентов решенной. Что позволило ему в течение пары месяцев отчитаться о решенной многолетней проблеме и круто продвинуться в карьере — вот уже 4 года он продолжает успешно расти и шириться в рамках той же роли (начальник всея дата-инструментов).

Другим примером такой стратегии является «переупаковка».

Например, не летит в компании ML Ops.
Выясняем, какой кусок в целом +- работает без особых нареканий, и заявляем амбициозную инициативу: «за 4 недели будет готово рабочее место DS!»

Все, остается за этот месяц завести пару сотен учеток и нарисовать с дизайнером пару красивых слайдов как с нуля был создан новый продукт — «Рабочее место DS».

Рабочая история, надо пользоваться!
1😁40💯8👍3😢2😭21
Когда пытался выкрутить serendipity на максимум, но не выкрутилось , да еще что-то пошло не так 😁
1😁22
Зато искренне 😂
👍19🤣16🔥3🥱1💯1
Forwarded from Neural Shit
Наткнулся на интересную статью. Это буквально самый тупой (и одновременно гениальный) промпт-хак.

Исследователи из Google Research выяснили, что если нейронка тупит, не надо придумывать сложные цепочки рассуждений или молиться духам машины. Нужно просто повторить промпт два раза подряд. Буквально CTRL+C —> CTRL+V.

Почему? Почти все современные LLM читают слева направо. Токены в начале промпта "не видят" токенов в конце. А когда вы дублируете запрос, вторая копия промпта через механизм внимания может смотреть на первую копию целиком. Получается, что модель сразу видит весь контекст и лучше понимает задачу.

Протестили на Gemini, GPT-4o, Claude 3 и DeepSeek. По цифрам из статьи:

— Метод победил в 47 из 70 тестов (0 поражений, остальные — ничья).
— В задачах на поиск инфы в тексте точность взлетала с убогих 21% до 97%!
— Время генерации не растет

И да, работает это только на моделях с выключенным режимом размышлений, ибо модели в reasoning режиме сами повторяют себе запрос в процессе.

Промпт-инжиниринг, который мы заслужили

тут статья
2🤣6912🔥9👍3🤷1
будем рады всех видеть вечером субботы! Одно из самых классных в Сергее то что он до сих пор активно участвует в соревнованиях и его точно стоит послушать, даже безотносительно Kaggle. А еще он покажет как решать соревы агентами )

PS Сайт тренировок и их чат
1👍102
Тренировки по ML

1️⃣7️⃣ января состоится восьмая встреча в рамках тренировок по машинному обучению ❤️

Что будет:
⚪️разберём черную магию рандома в соревнованиях из области финансов
⚪️обсудим почему мл-щики до сих пор не заработали все деньги мирового рынка
⚪️пробуем использовать kaggle mcp с агентами для проверки гипотез в прямом эфире

📢 Спикер: Сергей Фиронов, Kaggle Competition Grandmaster, ведущий data scientist в Yandex self driving cars

📆 Когда: 17 января с 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R405

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Марии ↩️

#анонсы #студенты #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍134🔥4
#ML

читерам вход воспрещен
1😁652👍2
к этому кейсу)

собеседующий лопух, но аппарат при нем


сам фильм
1😁30
#корпжиза

У подписчиков могло сложиться впечатление что каналья-манагеры сплошь состоят из продактов и вообще «людей бизнеса».
Однако это не так — в конце концов бизнес нам зп платит, в тч и за свои капризы.

Гораздо брутальнее когда канальи пролезают на позиции технических манагеров.

Причем отбор только по техническим знаниям (а-ля leetcode) скорее вредит

Пару мес назад ребята анонимно прислали перлы своего нового AI-лида, прошедшего суровые алгоритмические этапы, наслаждайтесь:


— Какие метрики важны заказчику?
— Хз, не спрашивал



— Что по железу? Какие будут ограничения? Нам надо понимать, с чего начинать
— Хз, не спрашивал



— Наши текущие задачи и KPI как-то учтены в годовых целях?
— Нет
— Ты с руководством согласовал эти цели?
— Ну я им показал, они промолчали, поэтому считаем что да
— ...



— Надо будет сделать инструмент для другого заказчика
— Мы же не продовая команда, мы не занимаемся продуктивизацией MVP
— ...



— Заказчику нужно простое прикладное решение
— У заказчика ресурсов больше чем у нас, если решение простое, он сделает это быстрее нас



здесь перестраховываемся во имя анонимности:
— Заказчику нужен адаптер для XXX
— Что за XXX?
— Ну база эмбеддингов
— А мы тут причем?
— Мы сделаем адаптер
— Что за адаптер?
— Чтобы получить эмбеддинги
— Это картиночная модель чтобы получить эмбеддинги?
— Возможно, я не знаю



— У вас на днях был созвон по этой теме, что выяснил?
— Мы не успели обсудить, разговаривали про XXX
— Это же не наша тема
— Так получилось
1😁359🙉5🫡3👍2🕊2🔥1😱1
В этом году ODS дата-елку 24 января хостит VK, и я уже буду не спикером, а зрителем, что тоже очень приятно)

Темы как всегда следуют за трендами, Елка — это еще и подведение итогов ушедшего года по ключевым направлениям: RecSys, CodeGen, NLP, Open Source, MLOps & DE, PyData и другим.

В Москве:
- Любимые RecSys - расскажет Вова Байкалов из AI VK - интересно, что поменялось (в том году я пропустил елку, а два года назад сам был спикером про RecSys)
- NLP - традиционно Валя Малых об итогах года
- DS/ML Career - не менее традиционно Антон Воронов, Авито
- (!) Robotics от Сбера -- надеюсь тут услышать про успехи RL
- AI4SE / CodeGen - Дима Бабаев, автор CoLES и библиотеки для обучения транзакционных эмбеддингов ptls, он, кстати, когда-то работал у нас в BigData МТС
В Питере будет больше инженерный трэк — MLOps & DE, Open Source, Healthcare, Rust

Обязательно гляну разбор решений соревы VK RecSys Challenge, хоть и не поучаствовал — в отличии от 800 более мотивированных ребят )

Если кто хочет пересечься — буду рад на площадке в Мск, кто не сможет — можно принять участие офлайн в Питере или посмотреть в трансляции (да-да, она будет)

Регистрация до 22 января, увидимся!
👍169👎1
Попросили разобрать пост про аренду жилья через одну из популярных площадок с позиций DS/ML — как сделать так, чтобы все были довольны.
Канал ведет Никита -- классный аналитик и не менее классный коллега)

Вкратце, схема оплаты: платишь 1/3 площадку как комиссию а остаток напрямую арендодателю, кинуть арендатора супер-легко: отказать в заселении за час до приезда или подсунуть убитую халупу без wifi и горячей воды и пр.
У автора мелькает что гораздо понятнее и надежнее было бы если бы все «проводилось через Авито», еще и с холлом денег до выселения.

Прежде чем начать делать модели, DS немного вникнет в домен:

Если принимать такие предложения в лоб, в идеальном мире автора площадка должна:
⁃ Создать продукт который по сути является покрытым аккредитивом
⁃ Но для него нужна банковская лицензий
⁃ Площадка получает банковскую лицензию (от 1 млрд рублей, бюрократически проще — купить какой-н мелкий банк — см график числа неотозванных лицензий)
⁃ Площадка заводит отделы KYC (и теперь паспорт нужно получать, хранить и обрабатывать площадке объявлений а не только арендодателю), комплаенс, рисков, взаимодействия с регулятором (как минимум, обязательной отчетности)
⁃ Чтобы разбирать обращения клиентов, которые теперь, в случае недовольства, могут обращаться с жалобой в ЦБ, нужно нанимать поддержку и юристов, чтобы не получить оборотный штраф
⁃ ….

Итого, «проводить через площадку» — это несколько млрд затрат при непонятном векторе движения прибыли — действительно, аккредитив еще же и на съемщиков накладывает обязательства — мб число заказов вообще упадет.

Все бы ничего, но у той площадки с 2025 таки есть финтех!
Это, конечно, не банк — а «финансовый маркетплейс» — то есть можно легально заворачивать продукты партнеров.

То есть площадка могла бы предоставить аккредитивы от банков-партнеров

Итого, в съем «квартирки в Питере» была бы вшита

⁃ Комиссия агента (самой площадки обявлений) — и здесь бы лежали косты
⁃ Налоги
⁃ Комиссия банка-партнера за аккредитив
⁃ Выручка арендодателя

Какой порядок комиссии аккредитивов для юрлиц?
Ну вот, например, в Сбере для мелких сделок — от 0.3% суммы сделки, но не менее 15 000 рублей

Повлияло бы на цены аренды, как думаете?

Вообще забавно, как бы решали дорогие юристы крупных организаций спор съемщика и арендодателя насчет сломанной полки / неработающего wifi / горячей воды — раскрывать аккредитив частично или вообще не раскрывать.
Или привлекали компанию-оценщика для определения степени ущерба обоям // разбитую тарелку по остаточной стоимости.

К чему это все
Это тот случай когда корректная юридическая обвязка фин инструментами будет слишком дорогой и накладной бюрократически для всех сторон — площадки (Авито), арендодателя, съемщика.

Чтобы я сделал?
Сделал бы модели, конечно:
⁃ Конфликтности арендрдателя
⁃ Конфликтности съемщика
⁃ Проблем этого конкретного съемщика с этим конкретным арендрдателем

Кстати, многие площадки такие модели закупают, например у нас

Собственно, в таких кейсах ML и работает лучше всего — если сравнивать затраты / результат на ML и на 100% надежное юридическое решение

PS: График построил ChatGPT по источнику

PPS: Вот еще пару прикольных постов у Никиты о том что творится на рынке:
- собес в магнит
- собес в Узум
115🥰2