Дата канальи — про «специалистов» в данных / ML / AI – Telegram
Дата канальи — про «специалистов» в данных / ML / AI
4.47K subscribers
195 photos
7 videos
12 files
181 links
Перлы из жизни аналитиков и ds — от безобидных заблуждений до откровенного надувательства. Посвящается AI-евангелистам (любителям интеграций формул в экселе и LLM). Для связи @NikitaZelinskiy
Download Telegram
Мы в Sber AI Lab организуем конференцию Sber Сonf: Open Source & AI Agents  (29 ноября в 11:00 2025 года, Москва, Офис Сбера, Кутузовский проспект, 32, корпус 1) — площадку, где Open Source выступает как один из ключевых факторов инноваций в бизнесе и науке, особенно в эпоху LLM.

Цель — вдохновить участников на сотрудничество, обмен идеями и создание новых проектов, объединяющих академическую открытость и практический опыт бизнеса.

регистрация по ссылке

https://developers.sber.ru/kak-v-sbere/events/sberconf_november_2025
8🔥5👍2
Хинт от Александра Геннадиевича — если хотите зарабатывать в трейдинге , ботайте kNN (k nearest neighbours)
🔥43😁23🤨5👌3😱2
Под впечатлением этого кейса от Оли хотел написать пост мол, далеко еще бездушным сеткам до замены живых худперов. Однако, посколько мои знания в аудио остановились на спетрограммах и CTC-лоссе (2006й год, на секундочку), а про наличие телефонов со встроенным speech2speech между языками не писал только ленивый — я таки решил немного посмотреть куда пришел аудио домен к 2025 году.

И сходу я не понял — современные speech2speech пайплайны уже вывозят такие фортели вроде мондегринов и другой сложной игры слов? Мб кто-то из подписчиков в курсе?

PS Пока я восхищенно гляжу на torchaudio могу вам смело и искренне порекомендовать Олю — она единственный репетитор , кто согласился разработать для меня курс по произношению и полгода его вести, для меня это был прорыв.
❤‍🔥75🔥4👍1
Итак, про "дыни" и рак.

Она тут говорит "Can*, sir?" В смысле предлагает ему банку газировки. Полная версия вопроса звучала бы так: "Would you like a can of soda, sir?" 

*Can - это жестянка, консервная банка или даже мусорный бак.

Он такой весь на автомате, в своих мыслях, а стюардесса предлагает ему банку газировки: Can, sir? Он о чем-то своём думает, и слышит cancer (рак) - и не вырубается, что она ему предлагает банку, а не рак. Переспрашивает. И тогда она чётко произносит, разделяя слова, и жестом ещё усиливает, что имеет в виду, показывая на банку. Это классный пример того, как изучающие язык часто теряются, когда слышат слитную речь.

Перед переводчиком задача: передать игру слов, которая получилась в оригинальном диалоге. Но как? Где у нас рак, и где банка? Правильно - далеко. Дословный перевод не прокатит. Ищем похожее в русском языке: "Воды не желаете?" заметь, слова разные, а ФЕНОНМЕН тот же: слова слились на стыке, и он выделяет слово, не относящееся к этой ситуации и удивляется: "Вы дыни желаете?" - "Дыни?"

Дыни тут так же не в тему как и рак в английском. По-моему, переводчик отлично решил языковую задачу)

Такими вот штуками мы занимаемся на совместных просмотрах и после них. В этот раз одна из участниц задала вопрос и разбудила во мне переводчика 🫶 за что ей огромное спасибо.

А другая участница принесла нам пояснение, что такая ослышка называется мондегрином. Погуглите)) Там забавные примеры.
1🔥206😁5👍3
#корпжиза

В Коммерсанте вышла статья про наш рынок AI/BigData, но фактологию в моем комментарии редакторы обрезали, а там я приводил такой пример с посевными инвестициями:

март 2025: еще один британский стартап ИИ-найма поднял $5М (а до этого $3M)

16 октября 2025 года: аналогичный британский стартап про ИИ-найм поднимает $20М долларов

02 октября 2025 года российский фонд инвестирует в российский же стартап по ИИ-найму аж 5 млн рублей 🤣🤣🤣

Инвестиции в 5 млн рублей и 1.6 млрд рублей в аналогичные продукты -- это все же разница в 300+ раз, да еще и отвественность если взять эти 5 млн рублей, гораздо серьезнее чем за те 1.6 млрд.

Но на рынке зарабатывают разумные оптимисты, так что нам остается только надеяться и ждать пока отечественный венчурный капитал повзрослеет и станет цивилизованным, вижу движения в позттивном направлении, не быстрые, но они есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣13🔥10👍1😁1😢1
со стартапами бывает и так)
#кейсы #ML

Встреча с канальей-манагером (далее просто КМ) в дикой природе.

Одна небольшая организация попросила провести ревью их ML-моделей.
Промотивировали, дали доступы к документации и репозиториям.
Но без контекста все равно сложно, нужна встреча.
Итак, встреча по одной из моделей, DS в отпуске, зато пришла каналья (КМ).

Модель для продаж одной услуги в четырех различных объемах.

— КМ: Она у нас в проде!
— Как строили? Почему ноутбук в названии имеет 2023?
— КМ: Ну так в 2025 мало данных, мы взяли 2023.
— Вы думаете что поведение пользователей не изменилось?
— КМ: Ну так моделька получилась хорошая!
— а вы ее валидировали на 2025?
— КМ: не, мы сразу решили в прод
— давайте посмотрим — валидация все же была, метрики в тесте на 2025 на порядок меньше чем на тесте в 2023
— КМ: зато результаты пилота отличные! Вот презентация
Смотрим презентацию с результатами пилота
— КМ: даааа, не лучше рандома
— КМ: но ведь и не хуже!!!

PS: пост опубликован с разрешения компании
1🤣76😁155👍4
#ML

Раз в год Сбер проводит свою самую теплую и душевную конференцию, куда спикерами приглашает авторов статей, попавших на A* / RecSys конференции.

В этом году наш самый главный и самый первый автор Даша Тихонович смогла наконец презентовать статью c RecSys и более того — рассказать то, что в публикацию не влезло.

Очень рекомендую ее канал по рекомендашкам — она сейчас на переднем крае )

А с теми с кем не успел поболтать сегодня — буду рад увидеться завтра в том же месте на митапе по OpenSource и Агентам

PS и душевный канал душевного организатора Леши Васильева
16🔥13👍3
#кейсы

Про instant карму

На днях надо было сравнить API разных LLM

ChatGPT — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
DeepSeek — залогинился через гугл, закинул денег, получил токен, работает
Grok — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
Groq (инференс провайдер, разные модели) — получил пробный токен, работает
GigaChat — 2 минуты бродил по документации, залогинился через sms, получил пробный токен (и еще 2 каких-то), работает (но не без приколов -- с переполучением токена каждые полчаса)
Qwen — залогинился через гугл, подтвердил телефон, ввел карту, бродил минут 15 — получил бесплатный млн токенов и api-ключ

YandexGPT — 2 часа читал документацию пытаясь понять как просто получить токен не заводя себе клауд. Оставил заявку.
На сл день (вчера) мне выслали ту же ссылку на документацию на почту и позвонили — попросил перезвонить через полчаса.
Через 2 часа звоню сам тому корп продажнику (КП) кто мне писал, происходит примерно такой диалог:

— Добрый день, Максим, подскажите пожалуйста как купить у вас API не покупая клауд?
— КП: читайте документацию, там все написано (без привета без ответа)
— Я бы хотел избежать покупки клауда, мне только токен от API и все
— КП: Вы не понимаете что Яндекс Cloud это платформа?
— А что такое платформа?
— КП: вы что не знаете? Платформа это клауд
— А клауд что такое? Я думал это облако — когда есть железо, которое можно арендовать и накатывать разные конфигурации и платить за использование
— КП: нет, клауд это сервис. Вам надо купить клауд, потом купить AI студию, потом API — читайте документацию, там все написано
— Мы всей командой читали весь вечер — там в контракте требуется Cloud_ID и много всяких штук, плюс не ясно как у вас устроен function calling — например, как вызвать search или web_search?
— КП: в документации все есть, я не буду вам разжевывать — дайте ее почитать тому кто у вас поумнее, разработчику например. Вам не API нужно, это для приложений, вам Алиса нужна.

Алиса:
1🤣89😐10👍4😁32🖕1
Forwarded from Банки, деньги, два офшора
«Алиса» умерла по всей России. «Умные» колонки массово перестали распознавать команды. На все просьбы ассистент либо молчит, либо отвечает фразой: «У меня что-то сломалось внутри». @bankrollo
1😭35😁26🫡2
DSC02321.jpeg
1.3 MB
#оффтоп

Вчера был в панели OpenSource в Сбере, дискуссия с залом получилась максимально живой, настолько, что очень быстро все спикеры и ведущий узнали что они (мы) это ИТ-деды и не понимаем проблем молодых ИТшников — сложно получить работу, много собеседований, не ясно как ориентироваться когда технологии (генерация кода) так быстро все вокруг меняют — во что инвестировать время и силы.

Кек

Мне сегодня стукнуло всего лишь 37 и я еще не решил кем я стану когда вырасту.

А про то что «ит-деды» отстали и чего-то не понимают, предлагаю послушать и найти хоть какие-то отличия (треки с разницей как раз около моего возраста)

2014 без vpn вот

1978 без vpn вот

PS А трек про др вот
4🎉57😁104👍1
AI DevTools Hack — хакатон для тех, кто строит инфраструктуру и разрабатывает инструменты

Если вам близки задачи автоматизации, инфраструктуры, анализа состояний систем и интеграции API — этот хакатон вам точно понравится. Победители получат возможность разделить денежный приз в 1 500 000 рублей

Присоединяйтесь к AI DevTools Hack — онлайн-соревнованию для разработчиков, инженеров и data scientist’ов. Хакатон организует провайдер облачных сервисов и AI-технологий Cloud.ru, который делает доступ к облакам и AI простым и удобным.

Два трека на выбор:
— MCP for Business AI Transformation: разработка сервера, интегрирующего публичные API в MCP- инфраструктуру.
— TestOps Copilot: создание AI-ассистента, который будет автоматизировать рутинные процессы.

Почему стоит участвовать:
— Призовой фонд — 1 500 000 ₽;
— Возможность получить обратную связь от экспертов Cloud.ru;
— Настоящий инженерный вызов, а не просто ML-задача.

Создайте AI-проект и представьте решение в финале. Успейте зарегистрироваться до 5 декабря: https://clck.ru/3QeXW9
7🔥5😁2
Отпуск начался неплохо 🐟🐠 Ваху, от 11 до 23 кг на спиннинг, вкуснее рыбы на свете нет
1🔥73👍1910🤔1
Шел по описанию резидентуры в Open AI и зацепило «We’re open to a wide range of backgrounds from self-taught engineers…»

Видел множество персон кто «я вот сам всему научился». Потом выясняется что базу заложили в физмат лицее, потом была кафедра в вузе где преподавали с матфака или другого вуза, потом была сильная команда на работе и тд

Наверняка есть и исключения, но чаще я наблюдаю другую картину — вокруг тысяча возможностей для обучения, которая никак не используется.

Лет 10 назад когда нас набрали в ЦАД ДИТ / ДЗМ нашим кураторам стало понятно что кроме того чтобы просто задавать вектор надо бы толпу 30 чел молодежи научить как вообще DS-проекты структурируются, какие задачи ставятся и как решаются, как это продается клиентам — ну короче то, сейчас частично входит в ML System Deisgn, частично в проектный менеджменти и всякое такое.

И вот выписали нам классного эксперта с огромным опытом из одной (на тот момент топ-1 в аналитике в мире) западной компании, который дважды в неделю по вечерам приезжал в офис, отвечал на наши вопросы по текущим проектам, рассказывал истории как успешных проектов, так и фейлов. Пользуясь моментом — спасибо, Саша , я многим тебе обязан.

Первую неделю из 30 чел пришло примерно 12
Вторую неделю человек 7
А с четвертой ходило 2-3.

Догадайтесь кто из них спустя время руководил коллективами в 100+ человек.

И так достаточно часто — как правило, больше половины студентов на курсах, которые я веду — руководители, причем скорее среднего звена.

И я сейчас не рекламирую наш очередной курс (рано 😄), но я куда как больше верю в правильный выбор наставников (как Саша для меня в свое время) чем в освоение бокса по самоучителю 😄.

Что не отменяет необходимость курсов — наставник сможет помочь сформировать вектор / стержень и разобрать конкретно ваши кейсы, но ни у одного наставника конечно нет столько деталей и кругозора чтобы охватить всю нашу область в глубину.

Но технику всегда можно добрать, а сформировать целостное видение и иметь поддержку — бесценно.
Так что, про self-taught engineers я бы не обольщался.
119👍7🔥6👏1