Start Career in DS – Telegram
Start Career in DS
11.8K subscribers
93 photos
1 video
10 files
318 links
Тут публикуются материалы для прокачки скиллов в DS и подготовки к собеседованиям.

Пишем про технические тулзы, визуализацию данных, бизнесовые задачи, разбираем ML-алгоритмы и обсуждаем смежные темы :)

Автор: @RAVasiliev

№ 5141779667
Download Telegram
📹 Рекомендуем серию видео от 3Blue1Brown про нейронные сети. Как всегда красивые визуализации и понятное объяснение принципов работы нейронных сетей.

Видео 1: объясняет что такое нейронная сеть на примере решения классической задачи по распознаванию рукописных цифр. Видео показывает что такое скрытые слои, веса и сдвиги.

Видео 2: показывает как обучаются сети. Понятная визуализация градиентного спуска, функции ошибки и того, что происходит с весами при активации нейрона.

Видео 3: как найти отрицательный градиент функции оценки с помощью метода обратного распространения, объяснение с иллюстрациями и без формул.

Видео 4: объяснение механики метода обратного распространения уже с формулами и с точки зрения математического анализа.
🔥27👍6
📊 Обзор инструментов BI - систем для построения дашбордов

Мы уже делали обзор библиотек по визуализации данных. Сегодня хотим рассказать про BI инструменты:

🔘 Power BI
Отличается быстрой интеграцией с Excel и другими продуктами Microsoft, что упрощает построение регулярных отчётов и аналитики. Хорош для средних и крупных компаний, где важна удобная работа с данными внутри Microsoft Office.
Пример: маркетинговый отчёт

🔘 Tableau

Популярен в крупных компаниях, помогает обрабатывать и визуализировать большие массивы данных из разных источников. Доступен функционал сложных интерактивных отчётов. Однако, он ушёл из РФ и для многих компаний России больше недоступен
Пример дашборда: [ENG]Time Series Analyse in Tableau

🔘 DataLens
BI-система от ребят Яндекса, работающая в Yandex Cloud.
Очень быстро развивается, особенно в последние годы (после ухода tableau), т.к. многие компании перешли на него.
Отлично интегрируется с облаком и позволяет быстро собирать практически любые базовые отчёты
Примеры: DataLens Demo Dashboard и Обзор дашборда Yandex DataLens от LeftJoin

🔘 Metabase
Бесплатная и простая платформа с минимальными настройками для небольших команд. Особенность: фокус на SQL-запросах, которые пользователи могут писать прямо в интерфейсе, и лёгкость получения отчётов без сложных технических навыков. Подходит для небольших компаний, которым нужен быстрый анализ данных.
Пример: [ENG] Metabase Tutorials - можно посмотреть как созадавать графики и дашборды

🔘 Redash
Сделан для команд, которые хотят быстро визуализировать данные на основе SQL-запросов. Отличие от Metabase — в фокусе на минималистичном интерфейсе и возможности получать быстрые результаты по запросам в базах данных. Подходит небольшим командам, знакомым с SQL, но не требует глубоких технических знаний.
Пример: Как создать дашборд в Redash?

🔘 Apache Superset
Инструмент с большим потенциалом для настройки, отличающийся гибкостью и мощной поддержкой SQL для опытных аналитиков. В отличие от Metabase и Redash, поддерживает более сложные визуализации и кастомные отчёты, что делает его идеальным для проектов с нестандартными запросами и профессиональных команд.
Пример: Обзор визуализаций в Apache Superset



Что ещё можно почитать про BI-системы:
- Канал Ромы Бунина - гуру визуализаций - @revealthedata
- Вводную статью про datalens тут
- Туториал по tableau тут
- Статью
Как найти сокровища в данных, или Зачем нужна BI-система
❤‍🔥15🔥101
🦜RAG: Классический подход и современные улучшения [Ч.2]

📖 В прошлой статьей мы разбирали для чего нужны и какую задачу решают RAG-системы.
Сегодня мы перейдем к описанию классических подходов и как они строятся, а также поговорим про более продвинутые техники.

🔍 Базовая архитектура RAG:

❗️Пререквизит:
В своей системе RAG использует так называемые векторные представления — способ представления текста в виде вектора (точки в многомерном пространстве). Чем ближе друг к другу в этом пространстве находятся две точки, тем больше их текстовые представления похожи по смыслу. Это позволяет находить релевантные части контекста, даже если они используют другие слова или фразы.

1️⃣ Чанкинг базы знаний
Чанкинг — разбиение больших документов на маленькие части (чанки). Например, длинный текст книги можно разбить на абзацы или предложения. Таким образом, система может искать ответ в средних отрывках текста и получать более конкретные результаты без потери контекста или его избыточности. Ответы по большим или очень маленьким блокам зачастую ухудшают RAG-систему.

2️⃣ Сохранение векторов чанков в векторную БД
После этапа чанкирования необходимо векторизовать все полученные куски и сохранить их в векторную базу данных для дальнейшего семантического поиска и извлечения наиболее релевантных.

3️⃣ Получение пользовательского запроса и его векторизация
Для того, чтобы сравнивать пользовательский запрос с теми частями, которые мы сохранили в базу данных, нам также необходимо его векторизовать.

4️⃣ Отбор релевантных чанков
Здесь начинается процесс семантического поиска. В RAG-системе вектор пользовательского запроса сравнивается со всеми векторами в БД через какую-либо меру сходства. Куски, имеющие наибольшую величину сходства, передаются на следующий этап.

5️⃣ Передача найденных чанков в генеративную модель
После отбора самых релевантных чанков RAG передает их в LLM, которая генерирует ответ на все тот же пользовательский запрос, но уже с использованием полученного контекста.

🔝 Однако, такой классический подход не всегда даёт должного результата, и в таком случае стоит переходить к более продвинутым техникам и улучшениям:

- Подробная статья про Advanced RAG
- Про хитрости и улучшения RAG на ODS
- Совсем недавний подход от Anthropic по построению контекстного поиска в RAG
- Статья с набором придвинутых техник в RAG
- Серия постов на Хабре про RAG

📚 Ещё дополнительной литературы на эту тему:

- Простое и понятное объяснение RAG
Дополнительная статья про векторные БД
- Advanced RAG [ENG]
- Алгоритм BM25, который иногда используется для поиска в RAG

Обязательно ставьте лайки❤️
До скорых встреч👋🏻
17🔥4❤‍🔥2
🔥 Материалы для подготовки к собеседованиям от Start Career in DS и Alfa Advanced Analytics
Добавляем в избранное!

Вместе с Telegram-каналом Центра продвинутой аналитики Альфа-Банка подготовили для вас гайд по собеседованиям для Data Scientist’ов 🔥

В подборке — советы и инсайты от экспертов, а также примеры реальных заданий, которые могут встретиться вам на интервью в Альфа-Банк и не только. Будут полезны как новичкам в DS, так и опытным специалистам!

Сохраняйте подборку и заглядывайте в канал Alfa Advanced Analytics 🙂
А в канале Start Career in DS вы сможете найти много полезных материалов для развития в Data Sceince, а также регулярные квизы с призами!

Материалы для подготовки. Сохраняйте, чтобы не потерять:

🔗 Как вспоминать базовую математику - часть 1, часть 2
🔗 Пет-проекты для начинающего Data Scientist'а - ссылка
🔗 Открытый курс по прикладной статистике от Академии Аналитиков Авито - ссылка
🔗 Deep Learning: теоретический справочник по базовым концепциям - ссылка
🔗 Классический ML – база: справочник основных алгоритмов - ссылка
🔗 Учебник Школы анализа данных — смотреть  
🔗 Семестровый курс DLS — смотреть
🔗 Искусственный интеллект в финтехе — смотреть
🔗 Kaggle — смотреть
🔗 GitHub курса ML-1 в ВШЭ — смотреть
❤‍🔥35🔥126👍4
Привет! На связи создатель канала Рома Васильев и команда канала Start Career in DS 🙂

Мы хотим узнать о вас больше и понять какие материалы вам действительно будет интересно читать, поэтому мы подготовили для вас небольшой опрос. Опрос займет не более минуты, ждем ваших голосов и комментриев👇
8
ℹ️ Всё про токенизацию и токенизаторы в языковых моделях

Токен -
это минимальная единица текста, с которой работают современные языковые модели. В качестве токена могут выступать как полноценные слова, так и части слов, слоги или отдельные символы.
✂️ Например, в некоторых моделях слово «привет» может разбиваться на токены: [«при», «вет»].

Токенизация — процесс предобработки входного текста в список токенов. Обычно далее каждый токен векторизуется и весь этот массив векторов подаётся модели на вход, с чем она начинает работать.

🤯 В моделях Transformer токенизаторы обучаемы. Обучение токенизаторов не схоже с тем, как обучаются ML-модели, наоборот, это статистический процесс, который определяет, какие сочетания символов (подслов, слов) лучше всего выбрать для корпуса текста, с которым мы работаем.

🔝Современные токенизаторы можно разделить по следующим видам:

1. Byte-Pair Encoding (используется в GPT-like моделях, обучается слиянием символов из основного корпуса, выбирая пары по наибольшей частоте встречаемости, подробно про алгоритм и реализацию кода обучения читайте тут)
2. WordPiece (используется преимущественно в BERT-like моделях, также обучается слиянием, но используется не частота встречаемости, а более универсальная формула, также подробно читайте про реализацию и формулу тут)
3. Unigram (не так применим, однако, для полноты картины читайте о нем тут)

❗️Почему это важно:

1️⃣ Фертильность
(мера, показывающая среднее количество токенов на одно слово после токенизации предложения):
Напрямую влияет на стоимость использования любой модели: больше токенов после токенизации предложения -> больше входная последовательность в LLM -> больше стоимость.

2️⃣ Качество работы
:
Правильно токенизированная последовательность также сильно влияет на качество модели из-за появления символов, которых модель не видела или из-за особенностей некоторых языков, где нет, например, пробелов.
Очень грамотно и подробно этот нюанс описан тут.

3️⃣ Скорость работы:
Следствие из первого пункта: чем больше последовательность токенов, тем больше вычислений стоит делать, что также влияет на скорость ответа модели.

🔥 Дополнительная информация по теме:

-
Краткий обзор токенизаторов на Хабре
-
О токенизаторах с NLP-курса на Hugging Face
-
«Насколько хорош Ваш Токенайзер» - статья на arxiv [ENG]
- Статья на английском для начинающих о токенах в LLM [ENG]

Теперь вы знаете, как работают токенизаторы🔥
Ждём ваших лайков и обратной связи❤️
До встречи👋🏻
🔥329❤‍🔥7👍4
▶️ Продолжение серии видео от 3Blue1Brown про нейронные сети!

Ранее мы уже писали про серию их постов, переведённую на русский язык, там были видео про работу нейронных сетей в целом, градиентный спуск и обратное распространение ошибки.

Ребята в комментариях дополнили, что у 3B1B на английском есть ещё 3 видео!
Дополняем свою подборку ими. Кроме того, у этих видео есть весьма качественный русский дубляж 🙂

[ENG + RUS] Transformers (how LLMs work) explained visually | DL5
Объясняет что происходит внутри трансформера в начале и в конце обучения. Показывает геометрическое представаление эмбеддинга слов в многомерном пространстве

[ENG + RUS] Attention in transformers, visually explained | DL6
Иллюстрация работы механизмов внимания на примере простого предложения. Показывает взаимодействие эмбеддингов слов в предложении между собой и разницу между self-attention и cross-attention

[ENG + RUS] How might LLMs store facts | DL7
Как устроены многослойные перцептроны. Понятная иллюстрация того, как модель сохраняет факты

Ждём ваших ❤️ и 🔥!
24🔥10👍1
🥷🏻 ML-System Design: справочник материалов для подготовки

❗️ML System Design - один из важнейших этапов на собеседовании в топовую компанию. Строить грамотные ML-решения хочет каждый, и поэтому мы подготовили для вас общий справочник со всей актуальной информацией по данной теме.

🔥Погнали:

- Пошаговая методичка на GitHub, как правильно дизайнить ML-решения
- Ещё один репозиторий с интересным фреймворком и примерами решений ML System Design кейсов
- Огромная база знаний с описанием +500 реальных ML и LLM кейсов из мировых BigTech компаний, сможете прокачать экспертизу и набраться новых подходов
- Большой набор ТГ-постов от Саши Исакова по каждому этапу DS-собеседований, включая ML System Design
- Курс видеолекций на ODS по ML System Design с нуля
- Научиться писать ML System Design Docs можете тут, а познакомиться с тем, что вообще такое дизайн-документ тут
- Статья на Хабре «Как деплоить и тестировать модели в продакшне» - важный этап в процессе MLSD
- Серия постов для подготовки к DS-собеседованиям, с отдельной частью про System Design, включая большое количество дополнительных материалов и книг
- Статья для новичков «Чтобы я хотел знать про ML System Design раньше»
- Большой плейлист на YouTube с собеседованиями от karpov.courses, включая мок-собеседования по ML System Design с Валерием Бабушкиным

👇🏻Также призываем в комментариях делиться актуальными материалами по данной теме!
Ставьте ❤️ и 🔥 за крутой пост!
До встречи👋
42🔥18👍6
Собрали для вас подборку исследований связанных DS и ключевые инсайты из них👇

💻 Условия работы:
- Исследование рынка аналитиков 2023 года от NEW HR:
▪️ топ компаний для трудоустройства: Яндекс, Авито, Авиасейлс
▪️ всего 3% хотят сменить сферу, большинство хочет развиваться внутри аналитики: расти по грейду, стать экспертом, сменить работодателя и т. д.

- Исследование релокации IT-специалистов 2022-2024 всех, не только аналитиков, тоже от NEW HR:
▪️ каждый 3-й релокант работает в отчасти российских компаниях (связаны с РФ, но работают за рубежом)
▪️ «релокацию оплачиает работодатель» - миф: 2/3 опрошенных, уезжавших из России, перемещались за свой счёт

🎓 Обучение:
- Независимое исследование онлйна курсов по аналитике от Left Join: сравнение популярных и не очень курсов по аналитике
▪️ топ платформы для обучения - Яндекс Практикум и Karpov.Courses

- Портрет специалистов, работающих в DS/ML/AI-направлении от DevCrowd, в исследовании есть большая подборка полезных книг, курсов, подкастов и Telegram-каналов по теме DS
▪️ 47% респондентов хотят улучшить свои знания фундаментальной математики
▪️ каждый третий обучился своей профессии самостоятельно

💭Ещё интересные исследования:
- За кем следят продуктовые и дата-аналитики от NEW HR: список самых часто упоминаемых экспертов. Весь список тут
▪️ топ-3 экспертов: Карпов Анатолий, Бунин Роман, Бабушкин Валерий

- ИТМО провел исследование ML/Data Open Source решений в России: какие компании лидируют, какие проблемы и перспективы есть у инструментов
▪️ лидеры в разработке собственных открытых решений: Яндекс, Сбер, Т-Банк
▪️ почти все компании-разработчики открытых решений в Data/ML находят пользователей не только на внутреннем, но и на международном рынке

Ждем ваших 🔥 и ❤️!
🔥2219