DATApedia | Data science – Telegram
DATApedia | Data science
3.41K subscribers
209 photos
91 videos
2 files
847 links
Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи.

Сотрудничество: @Seyfme
Download Telegram
Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

Читать | DATApedia
👍3
Как большие языковые модели планируют свои ответы еще до их генерации

Привет, Хабр! Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?

Читать | DATApedia
Путешествие токена: что конкретно происходит внутри трансформера

Из этой статьи вы узнаете о том, как трансформеры преобразуют входные данные в контекстно-зависимые представления и, в итоге, выдают вероятности, влияющие на выбор слов, которые генерируют большие языковые модели.

Читать | DATApedia
Как системному аналитику перейти в дата-аналитику: советы из личного опыта

Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.

Читать | DATApedia
2
Проверяем качество ИИ без сложной математики

Представьте, что ваша команда только что получила доступ к новейшей AI-модели или внедрила умный чат-бот. Коллеги в восторге от точности, скорости и функциональности инструмента. Но как понять, насколько он действительно хорош?

Читать | DATApedia
👍1
Книги, видео и курсы для изучения ML

Собрали бесплатные ресурсы, которые позволят погрузиться в работу с искусственным интеллектом — как для новичков, так и для тех, кто уже работает с ML и хочет углубить знания.

Читать | DATApedia
Метрики для задач NLP. Часть 1. Классификация, NER, Кластеризация

В этой статье будет рассказано о популярных метриках для NLP-задач: классификации текста, NER и кластеризации. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.

Читать | DATApedia
Создаем простую систему RAG на Python

Представьте, что вы предоставляете своему ИИ конкретные релевантные документы (или фрагменты), которые он может быстро просмотреть, чтобы найти необходимую информацию, прежде чем ответить на ваши вопросы. То есть, вместо поиска по всей базе данных (которая может не поместиться в контекстное окно модели LLM, или даже если поместится, это потребует много токенов для ответов), мы предоставляем LLM только релевантные документы (фрагменты), которые ему необходимо найти, чтобы ответить на вопрос пользователя.

Читать | DATApedia
Claude Opus 4.5 и конец привычной разработки

Статья о том, почему Claude Opus 4.5 стал переломным моментом в ИИ-разработке. Автор на реальных проектах показывает, как ИИ-агенты уже сегодня способны собирать полноценные приложения — от UI до бэкенда — за считанные часы, и рассуждает о том, зачем человеку вообще читать код в мире AI-first разработки.

Читать | DATApedia
👍1
Функция потерь: как алгоритм понимает, что он ошибся

Представьте, что вы играете в дартс. Сначала ваши дротики разлетаются по всей мишени, но с каждой попыткой вы постепенно приближаетесь к заветному центру. Человек интуитивно понимает, что нужно скорректировать бросок: сильнее, выше, левее или правее. Примерно так же работает и алгоритм машинного обучения. Только вместо интуиции там есть функция потерь.

Читать | DATApedia
🔥 Твоя статья может принести 1 миллион рублей!

ВТБ и Институт ИИ МГУ открыли прием заявок на конкурс Data Fusion Awards для data scientists и ML-исследователей. Ищут лучшие научные статьи 2025 года по ИИ.

Зачем участвовать:
🔵 Продемонстрировать прорыв в математике ИИ, оптимизации или глубоком обучении
🔵Получить признание от лидеров отрасли
🔵 Забрать до 1 млн рублей из призового фонда 3 млн
🔵 Усилить резюме аффилиацией с топ-конкурсом

👉 Подавать заявку до конца января
на сайте
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
«Галлюцинации LLM — это не баг»: профессор математики объясняет, почему ИИ не перестанет врать

Владимир Крылов, профессор математики, научный консультант Artezio и один из самых глубоких русскоязычных экспертов по применению ИИ в разработке, дал интервью по итогам года. Мы поговорили о том, почему reasoning-модели галлюцинируют вдвое чаще обычных (и это математически неизбежно), почему OpenAI объявил «код красный» и отстаёт от Google, и правда ли, что программисты, умеющие писать код только руками, скоро вымрут как вид. Спойлер: Паваротти не умел читать ноты, и это кое-что говорит о будущем vibe-coding.

Читать | DATApedia
Анатомия трансформеров: почему обычный Self-Attention больше не используют

В этой статье я постараюсь рассказать, как механизм внимания помогает языковым моделям обрабатывать тысячи слов контекста и почему с этим не справлялись в свое время обычные RNN. В конце статьи я расскажу про проблемы классического attention и современные адаптации.

Читать | DATApedia
Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи

Сказ о том, как после долгого перерыва я "взял в руки шашки" (поучаствовал в ML-соревновании) и дотащил задачу на "таблички" до первого места на финальном "приватном" лидерборде с помощью простейшей подготовки фич и классической линейной регрессии с регуляризацией, внезапно обогнав при этом всех модных катбустеров, банально переобучившихся на "паблике".

Читать | DATApedia
👍3
Топ нейросетей и ИИ-сервисов 2026 года: лучшие ИИ-инструменты

В этом обзоре вы найдёте не только известных гигантов вроде ChatGPT 5.2 или Gemini 3, но и другие решения: ChatPDF для документов, SlidesAI для слайдов, Suno для музыки и отечественного “Кандинского” для изображений.

Читать | DATApedia
Как оптимизация промптов превратилась из шаманства в инженерную дисциплину

Ещё пару лет назад промпт-инжиниринг выглядел как подбор удачного заклинания: "а давай добавим think step by step, "а давай попросим быть аккуратнее" и о приправим xml-тегами".
Сегодня это типовая задача оптимизации в условиях чёрного ящика.
Промпт -> это не текст, а параметр модели, и оптимизировать его нужно алгоритмически, а не интуитивно.

Читать | DATApedia
На что потратить 3 000 000 рублей?

Именно столько всего заработают победители Data Fusion Contest 2026 — ежегодного соревнования по машинному обучению!

Организаторы соревнования — ИТ-холдинг Т1 и ВТБ.

Формат — онлайн: участвовать можно из любой точки мира.

В этом году участникам предстоит выполнить три задачи:

☑️ «Страж» — про вычисление подозрительных операций в банке;
☑️ «Киберполка» — про подбор нужных финансовых продуктов из 41 варианта. 
☑️ «Герои» — про создание идеальных маршрутов с учетом времени.

📣 Даты проведения соревнования: с 9 февраля по 30 марта 2026 года. Финалисты смогут презентовать свои решения на конференции Data Fusion 2026 в Москве 8-9 апреля. Там же состоится торжественная церемония награждения победителей. 

Data Fusion Contest 2026:

🔵 прокачай себя и стань частью комьюнити DS в России;
🔵 попробуй силы в уникальных кейсах, которые выходят за рамки ежедневной рутины;
🔵 получи внушительное денежное вознаграждение.

Ну что, хватит читать — пора действовать жми на ссылку!

Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Anthropic создала монстра: как самая безопасная компания выпустила самую безрассудную модель

В этой короткой статье вы узнаете и о реальной опасности, которой подвергают нас эти новые, мощные ИИ, и о вполне обыденном, не-фантастическом объяснении того, почему ИИ лгут, шантажируют или действуют безрассудно — всё простыми словами, чтобы вы поняли.

Читать | DATApedia