Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение – Telegram
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.4K subscribers
2.44K photos
124 videos
64 files
4.9K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🥳 Как одна летняя тусовка в Дартмуте случайно запустила эру искусственного интеллекта

Лето 1956 года. Тихий кампус Дартмута. Несколько учёных, которые слишком много думают о машинах. И один почти наглый вопрос:
а что если научить компьютер мыслить?


Сегодня это кажется очевидным — у нас есть ChatGPT, нейросети, автономные системы. Но тогда компьютеры были шкафами на колёсах, и сама идея интеллекта в машине звучала как фантазия. Тем не менее, четверо смельчаков — Маккарти, Минский, Шеннон и Рочестер — решили собрать всех энтузиастов в одном месте и разобраться.

Так появился Dartmouth Workshop, событие, которое считается официальным рождением искусственного интеллекта.

▶️ Почему этот воркшоп стал легендой

Не было ни чёткого расписания, ни строгих протоколов. Люди приезжали, уезжали, спорили, рисовали формулы на досках, спорили снова.
Но именно в этом хаосе родилось главное:
🔘 интеллект можно описывать математически.
🔘 и если можно описать — можно реализовать в машине.

А ещё приехала команда Newell–Shaw–Simon и показала Logic Theorist — программу, которая умела доказывать теоремы. Не теоретически, а реально. Это стало маленьким шоком: машины могут думать не хуже студентов.

Кто стоял за началом ИИ:
🔘 Джон Маккарти — придумал слово Artificial Intelligence.
🔘 Марвин Минский — пытался разложить интеллект на части, как сложный механизм.
🔘 Клод Шеннон — человек, который вообще объяснил миру, что такое информация.
🔘 Натаниел Рочестер — заставлял всё это работать на ранних компьютерах IBM.

▶️ Что нам осталось в наследство от Дартмута

Практически всё, с чего начинается современный курс по ИИ:
🔘 символьные модели,
🔘 поиск и эвристики,
🔘 первые шаги машинного обучения,
🔘 идеи компьютерного зрения,
🔘 формализация знаний и рассуждений.

Они не создали разумную машину — но задали путь, по которому идём до сих пор.

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#междусобойчик
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍5
📱 Хотите понять, как работает LLM изнутри? Есть отличный репозиторий

Если вы когда-нибудь ловили себя на мысли:
«А как вообще устроены GPT-подобные модели? Можно ли собрать свою — пусть маленькую, но настоящую?»


То вот подарок.

Есть репозиторий Build a Large Language Model (From Scratch) — это официальный код к одноимённой книге, где вы буквально шаг за шагом пишете свой собственный LLM. Не магия, не «всё слишком сложно», а нормальный, понятный разбор: архитектура, обучение, токенизация, внимание — всё по полочкам.

Плюс бонус: есть код для загрузки весов крупных моделей, чтобы вы могли потренироваться в финетюнинге.

➡️ GitHub: https://clc.to/_17mAg

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72👏1🙏1
👍 Классный IDE для Data Science — Positron

Коллеги, хотим поделиться находкой. Мы тут попробовали Positron — новый IDE — и оказались приятно удивлены.

Positron ощущается как инструмент, сделанный людьми, которые сами каждый день пишут код и работают с данными:
• поддерживает несколько языков (Python, R, SQL и другие),
• удобно исследовать данные и сразу документировать результаты,
• интерфейс современный, но при этом интуитивный — будто всегда был под рукой,
• расширяемость позволяет адаптировать среду под свои задачи.

В целом, Positron оставляет очень «домашнее» ощущение: ничего не мешает, всё под рукой, можно спокойно концентрироваться на работе.

📱 Если вы ищете удобный и гибкий IDE для дата-сайенса — попробуйте: https://clc.to/T4rD3g

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍4👏2🎉1
Back to Basics: Линейная алгебра и МНК

Можно бесконечно обучать трансформеры, но если вы «плаваете» в базе, словить оверфиттинг или неверно интерпретировать веса — проще простого.

Мы перезапустили курс «Математика для разработки AI-моделей». Теперь с живыми вебинарами и упором на хард-скиллы.

Deep Dive ближайших лекций:

1. Linear Algebra:
— Матричные операции, определители, ранги.
— Решение СЛАУ и обратимость матриц.
2. Linear Regression:
— Реализация МНК (OLS) на чистом NumPy vs scikit-learn.
— Допущения модели и интерпретация коэффициентов.
3. Matrix Decomposition:
— Собственные векторы и значения.
— SVD для RecSys и снижения размерности.

Дедлайн входа в поток — 9 декабря.
https://clc.to/LojFzw
🎉42🙏1
🆕 Свежие новости для дата‑сайентистов

Microsoft представила Fara-7B — open-weight агент для управления компьютером
Вместо fragile-скриптов модель просто смотрит на экран и кликает, как человек. Звучит очевидно, но для веб-автоматизации это большой шаг вперёд: сайты меняются, а UI гораздо терпимее к «людям», чем к ботам. Заодно хороший пример того, как агентные модели начинают выходить из теории в практику.

Как на самом деле работает prompt caching
Кешируется контент на уровне токенов, а не запросы или диалоги целиком. Любое изменение в префиксе — и весь кеш обнуляется. Отличное объяснение для тех случаев, когда кеш «почему-то» не сработал.

NVIDIA выпустила Alpamayo-R1 — vision-language action модель для автономного вождения
Модель объединяет восприятие и текстовое рассуждение и нацелена уже не на распознавание, а на принятие решений в физическом мире. VLM всё меньше выглядят как демо и всё больше — как фундамент для real-world AI.

Mistral анонсировала семейство Mistral 3
Open-weight MoE без сюрпризов: упор на производительность, понятные лицензии и удобство для разработчиков. Очень характерный шаг для команды, которая делает ставку на практичность.

Google Research представили Titans — модель с памятью на миллионы токенов
Вместо полного attention используется внешняя память, что снижает стоимость работы с длинными контекстами. Похоже на ещё один шаг к моделям, которые не просто «читают много», а действительно что-то помнят.

Работа с NLP на Python
Cпокойный и прикладной обзор инструментов и подходов. Хорошо подойдёт для освежения базы.

Визуально-языковые модели: следующий шаг эволюции LLM
Bнятно о том, зачем LLM зрение и куда это всё движется.

Как сжимать языковые модели без дообучения
Про квантование и другие способы уложить модель в прод-ограничения.

🔸 Курс «Специалист по ИИ»
🔸 Получить консультацию менеджера
🔸 Сайт Академии 🔸 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👍2🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Как выбрать между ClickHouse и Greenplum, если оба считаются индустриальными стандартами для аналитики? Ошибка в выборе СУБД может стоить скорости, бюджета и точности данных.

На открытом уроке вы увидите различия этих систем без теории в вакууме:
🔹 Разбор архитектуры MPP и column-oriented хранения
🔹 Реальные запросы, кейсы и схемы проектирования быстрых витрин
🔹 Как в продакшене работает связка Greenplum как ODS и ClickHouse как слой скоростной аналитики

Урок даст вам конкретные критерии выбора СУБД под тип нагрузки, объём данных и частоту обновления. Вы поймёте, на каком стеке лучше строить аналитическую инфраструктуру в вашей компании и как избежать ошибок, на которых горят DWH-проекты.

🔗 Регистрируйтесь на открытый урок в преддверие старта курса «Data Warehouse Analyst. Advanced». Это отличный способ усилить архитектурное мышление и перейти на новый уровень Data Engineering. Регистрация открыта: https://clc.to/8U5VGQ

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
👍1
😸 Мы тоже не верили, что Haskell подходит для data science

Мы тут наткнулись на текст с громким названием «Haskell IS a Great Language for Data Science» — и, честно говоря, сначала отнеслись скептически. Haskell? Для data science? Серьёзно?

А потом начали читать. И поняли, что автор не просто хайпит, а довольно внятно показывает, зачем строгая типизация, иммутабельность и умный компилятор могут быть не академической экзотикой, а реальным плюсом для работы с данными.

😏 Особенно если вы устали от сюрпризов в рантайме и бесконечных NA / None / NaN.

Это не «срочно переписываем всё с Python и R», но как минимум — хороший повод расширить кругозор и посмотреть, как вообще может выглядеть data science в мире строгих типов.

Делимся оригинальной статьёй тут 👉 https://clc.to/kXZhwA
А вы бы попробовали Haskell для аналитики или это уже too much?

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🥰1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Не просто строить мультимодальные модели, а создавать мир завтрашнего дня.
//От модели данных до будущего — ближе, чем кажется.

В VK уже работают над этим. Узнайте, как команды создают технологии, которые определяют завтрашний день. Заходите по ссылке — смотрите, читайте, вдохновляйтесь.
👍1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Claude стал новым тренером для LLM

Если вы думали, что настройка языковых моделей — это сложная и скучная рутина, встречайте Claude.

С помощью Hugging Face Skills Claude теперь умеет:
〰️ запускать задачи на облачных GPU;
〰️ следить за прогрессом;
〰️ загружать готовые модели на Hugging Face Hub;
〰️ работать с моделями от 0.5B до 70B параметров;
〰️ конвертировать модели в GGUF для локального использования;
〰️ собирать многоступенчатые пайплайны.

😎 То есть вместо долгих часов настройки можно спокойно наблюдать, как модель учится и совершенствуется.

Полный гайд здесь: https://clc.to/j-81ZA

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🙏1
👀 Инструмент, без которого в 2025 LLM-продукты выпускать уже немного страшно

Opik от Comet — open source инструмент для оценки LLM-приложений.

Если вы собираете:
✔️ RAG-чаты,
✔️ многоагентные пайплайны,
✔️ корпоративных copilot’ов,

то Opik закрывает боль отладки, тестирования и мониторинга сразу на всех уровнях LLM-стека.

Что внутри:
✔️ End-to-end трассировка — логирование и визуализация каждого LLM-вызова в dev и prod
✔️ Evaluation suite — эксперименты с промптами, бенчмарки и LLM-as-a-judge метрики (галлюцинации, фактуальность, RAG-релевантность, модерация и не только)
✔️ Встроенные guardrails — PII, небезопасный контент, упоминание конкурентов, офф-топ
✔️ CI/CD-ready — интеграция с pytest, unit-тесты для моделей буквально в одну строку
✔️ Дашборды — фидбэк, количество трэйсов, токены, всё на масштабе
✔️ Работает с любыми LLM: OpenAI, open source или кастомные агенты

Плюс — можно использовать свои метрики, датасеты и прямо в интерфейсе аннотировать ответы моделей.

Короче, если у вас LLM-продукт перестал быть игрушкой и стал системой — посмотреть точно стоит.

📱 Репозиторий: https://clc.to/9Mb0zQ

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#буст
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍1
Хватит использовать `fit()` иватит использвслепую

Можно долго делать вид, что математика в Data Science не нужна, и полагаться на готовые реализации в sklearn. Но на первом же серьезном собеседовании или при попытке оптимизировать кастомную лосс-функцию этот миф рушится.

Мы обновили курс «Математика для разработки AI-моделей». Теперь это не просто лекции, а полноценный интерактив.

Что изменилось:

— мы добавили живые вебинары;

— первый уже прошел, но второй стартует сегодня (9 декабря);

— вы ещё успеваете влиться в поток и закрыть пробелы в фундаменте.

В программе:

— линейная алгебра и матанализ в контексте ML;

— теория вероятностей и статистика без воды;

— практика на реальных кейсах.

Перестаньте бояться формул и начните их применять.

Ссылка на регистрацию
👍1🥱1
🆕 CUDA 13.1 переворачивает GPU-программирование

Наконец-то NVIDIA выпустила CUDA 13.1, и это не просто очередное обновление — это настоящий сдвиг парадигмы. Если вы когда-то пытались объяснить GPU, что делать с тысячами маленьких потоков (да-да, тот самый SIMT-модель), то знаете, что это сродни попытке управлять тысячью муравьёв одновременно.

💡 Что нового

CUDA 13.1 вводит tile-based programming. Вместо того чтобы двигать песчинку за песчинкой, теперь можно управлять целыми плитками данных. Представьте: вместо того чтобы таскать каждую песчинку в отдельности, вы берёте целый холм и переносите его за один раз. Магия, правда?

Что это значит для нас, Python-разработчиков и исследователей AI:
✔️ Прощай, C++ барьер: с CuTile можно писать высокопроизводительные ядра на чистом Python. Не нужен диплом магистра по C++.
✔️ Синхронизация с железом: современные тензорные ядра уже «думают» блоками данных, а софт теперь догнал железо.
✔️ Будущее уже здесь: поддержка Blackwell архитектуры и новых FP4/FP6 форматов ускоряет и делает эффективнее LLM.

Иными словами, программировать ускорители стало логичнее, чище и мощнее.

🔗 Ссылка на новость

🔹 Курс «Специалист по ИИ»
🔹 Получить консультацию менеджера
🔹 Сайт Академии 🔹 Сайт Proglib

🐸 Библиотека дата-сайентиста

#свежак
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥4👍2