Data Дзен с Олегом Дмитриевым – Telegram
Data Дзен с Олегом Дмитриевым
1.6K subscribers
211 photos
34 videos
1 file
63 links
Закулисье IT: как на самом деле работают аналитики и что скрывают дашборды!

Олег Дмитриев - lead-analyst, 5+ лет в IT, пишу о радостях, боли и лайфхаках работы с данными.

BI, аналитика, лайфстайл, саморазвитие !

Сотрудничество :@o_dmitriev1
Download Telegram
Фильтруй нефильтрованное в Excel 🍺

Говорю боярину: «Ты базар-то фильтруй!»
Он удивлённо смотрит и говорит: «Мда уж, не про такую фильтрацию я в отчёте просил!» 😅

Ладно, раз пошла такая пляска - расскажу про фильтры и срезы в Excel и как не тратить время на поиск через Ctrl+F.

Фильтры и срезы - это сито и пульт управления для твоей таблицы. Сито отсеивает лишнее. Пульт переключает картинку одной кнопкой. Без макросов, без VBA.

1️⃣ Автофильтр (Ctrl+Shift+L)
Базовое оружие. Жмёшь хоткей - в шапке таблицы появляются стрелочки. Тыкаешь, выбираешь нужное. Руководитель говорит «покажи только Москву» - тык. Готово. Секунда.

2️⃣ Текстовые фильтры + подстановочные знаки
Вот это знают немногие. В поле фильтра * заменяет сколько угодно символов, а ? - ровно один. Пишешь «бар?н» - ловишь и «барин», и «барон». 500 городов в столбце, а нужны все вариации Петербурга? Пишешь *Петербург* - дело в шляпе.

3️⃣ Топ-10 (числовой фильтр)
Название врёт. Можно хоть 3, хоть 50. Числовые фильтры → Первые 10. Надо вытащить топ-5 клиентов по выручке без формул - 3 клика. Всё.

4️⃣ Срезы (Slicers)
Визуальные кнопки прямо на листе. Как кнопки лифта - нажал нужный этаж, приехал. Вставка → Срез → выбираешь поле. Боярин каждые пять минут просит «а по другому региону покажи» - не ныряешь в выпадашки, а тыкаешь кнопку. Красота.

5️⃣ Временная шкала (Timeline)
Тот же срез, только заточен под даты. Двигаешь ползунок - видишь данные по дням, месяцам, кварталам. Когда период каждый раз разный - спасает.

6️⃣ Лайфхак, ибо грех не рассказать: один срез привязываешь сразу к нескольким сводным. Правый клик → «Подключения к отчётам». Тыкнул кнопку - 3 сводных перестроились разом. Один рубильник на всю диспетчерскую.

7️⃣ В срезе есть кнопка множественного выбора (Alt+S). Выбираешь несколько значений, дабы не зажимать Ctrl каждый раз.

Всё это - чистый Excel. Без макросов и танцев с бубном.

А ты знал про подстановочные знаки * и ? в фильтрах? Или по старинке через Ctrl+F ищешь? 👇

#Excel

@data_dzen🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
423520🎉8👨‍💻87👌3
Одна ячейка в Excel обошлась JPMorgan в $6,5 миллиарда 🤦‍♂️

Не опечатка. В 2012-м сотрудник копировал данные между файлами, и при вставке формула взяла сумму вместо среднего. Ошибку не заметили, модель неделями занижала риск, и банк потерял $6,5 млрд каскадом.

Одна ячейка. Без проверки на входе. Шесть с половиной миллиардов 😡

В Excel есть для этого охранник, Data Validation. Сидит на входе в ячейку, не пускает мусор. Вкладка Data → Data Validation (или Alt+D+L).

Custom-формулы, самое мощное 😎

Тут ты сам пишешь правила. Антидубликаты:
 =COUNTIF($A$2:$A$100,A2)<=1

Только рабочие дни:
 =WEEKDAY(C2,2)<6

Обязательное заполнение:
=LEN(A2)>0

Если бы вначале я знал, как бояре любят изворачиваться в отчётах, изучил бы Data Validation самым первым.

И тут грабли: Ctrl+V обходит валидацию. Копипастой можно запихнуть что угодно мимо правил. Лечение: добавь защиту листа (Sheet Protection). Два замка надёжнее одного.

Базовые ограничения

1️⃣ Выпадающие списки (List). Столбец «Статус задачи», один пишет «Готово», другой «готово», третий «сделал Петров». Ставишь List, задаёшь варианты через запятую или именованный диапазон. Творчество закончилось.

2️⃣ Числа и даты (Whole number, Decimal, Date). В столбце «Скидка» кто-то вбивает 500%. Или в дату ставит 2077 год. Задаёшь диапазон: скидка 0–50, дата от 01.01.2020 до сегодня. Дрянь не пролезет.

Ещё грабли, на которые наступают 🤔

1️⃣ Error Alert в режиме Warning. Пользователь видит предупреждение, жмёт «ОК» и спокойно пишет что попало. Ставь режим Stop. Тогда без вариантов.

2️⃣ Input Message. При настройке правила есть вкладка Input Message: вписываешь подсказку «Вводи только статус из списка, руками не дописывай». Большинство эту вкладку даже не открывают. А зря, сразу меньше «творчества».

3️⃣ Circle Invalid Data. Data → Circle Invalid Data. Обводит красным ячейки, где накосячили с правилами. Кайф для ревизии старых файлов, которые заполняли до тебя.

Открой любую рабочую таблицу. Поставь хотя бы одно правило на ключевой столбец. Через неделю нажми «Обвести неверные данные», увидишь, сколько мусора скопилось.
Спойлер: обычно дофига 🤷‍♀️

#excel

@data_dzen 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
45🎉30👨‍💻2615128
Пятница = скорее хвалим себя 💪

Архитектор посмотрел на мою схему и говорит: «Ты переизобрёл паттерн иерархической памяти». А я просто хотел, чтобы Кеша не забывал, о чём мы вчера говорили 😎

Третья реинкарнация моего ИИ-ассистента. Первые две версии - это была чистая эйфория. Те 7 дней, когда собираешь первый прототип, ни с чем не сравнить. Но руки-то чешутся.

Что было. Postgres для хранения диалогов. Тяжело, избыточно для одного пользователя.
Fine-tuning на 5 000 примеров - первый блин комом. Из 5 000 штук примерно половина содержали действие-экшен. Модель обучилась и начала экшенить везде. 75% тестов прошла нормально, а в 20% случаев, где надо было подумать, переспросить, глянуть на экран, она всё равно лупила экшеном. Классическая ловушка перекоса данных, OpenAI прямо об этом предупреждает 🤷‍♀️

Google Colab дал бесплатно ~5 часов GPU. Обучение модели заняло 2 эпохи за 4,5 часа. Впритирку. Час запаса. Совет: не заливайте огромные датасеты в бесплатный Colab, сессия отвалится, и привет 😠

Что стало. Пересадил всё на SQLite, самую распространённую СУБД в мире, 4 млрд активных установок. Работает в каждом айфоне, каждом андроиде. Серверов не надо, бэкап - просто скопировать файл. Для персонального ассистента - то что надо.

Для векторизации файлов накрутил ChromaDB с обходчиком. Нейронку пересадил на видеокарту, ответ за ~1 секунду. Ляпота 😎

Fine-tuning, решение: разбить набор инструкций на равномерные части и обучить повторно. Выделить равномерные категории, чтобы модель не зубрила одинаковые паттерны.

Мост. А вот с памятью вышло интересно. Выстроил пайплайн иерархической памяти. Строил от боли: как бы я сам хотел, чтобы нагрузка была минимальной, а контекст находился быстро. SQLite для диалогов, личностей, предпочтений, краткосрочной и долгосрочной памяти.
ChromaDB для семантического поиска по файлам. Отправил архитектуру на консультацию.
А мне в ответ:

«Ты переизобрёл паттерн иерархической памяти».
Ни хера себе, да я архитектор получается! 😁


Оказывается, это реальный научный паттерн H-MEM, описанный в 2025 году. Четыре уровня: домен, категория, след памяти, эпизод. Я вслепую, по интуиции, пришёл к тому же.

В который раз убеждаюсь, что сначала лучше выстроить логику и боли «на салфетке», а потом уже накручивать инструменты.

Заходи в комменты и поделись своей победой 👇

@data_dzen 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
1402824👌6🤩4🎉3