DATApedia | Data science – Telegram
DATApedia | Data science
3.45K subscribers
195 photos
91 videos
2 files
834 links
Тут вы найдете всё, что связано с Data Science, AI и Machine Learning, как для начинающих, так и для бывалых специалистов. Также, для вас, мы переводим зарубежные статьи.

Сотрудничество: @Seyfme
Download Telegram
Большое сравнение архитектур LLM

В статье приведён подробный сравнительный анализ современных архитектур главных опенсорсных больших языковых моделей (LLM) 2024–2025 годов: DeepSeek, OLMo, Gemma, Mistral, Llama, Qwen, SmolLM, Kimi K2, GPT-OSS, Grok и других. Автор разбирает их ключевые архитектурные отличия — такие как способы организации внимания, использование смеси экспертов (Mixture-of-Experts), методы нормализации, подходы к экономии памяти и вычислений, а также особенности современных трендов, влияющих на производительность и эффективность LLM.

Статья | DATApedia | #DS_AI
Тестирование движков массивно-параллельных вычислений: StarRocks, Trino, Spark. Spark – с DataFusion Comet и Impala

В статье проведено сравнение производительности и масштабируемости современных вычислительных движков для Lakehouse-платформы: StarRocks, Trino, Spark (также с DataFusion Comet), и Impala. Материал полезен для специалистов по большим данным и архитекторов платформ, выбирающих оптимальные технологии для аналитических задач.

Статья | DATApedia | #DS_AI
Плюсы и минусы платформы автоматизации рабочих процессов n8n

В статье подробно рассматриваются достоинства и недостатки платформы n8n. Материал поможет понять, подходит ли n8n для ваших задач, и сравнивает её с конкурентами — Zapier и Make.

Статья | DATApedia | #DS_AI
Cursor 2.0: многоагентная AI‑IDE и собственная модель Composer — что это меняет для разработчиков

Cursor 2.0 перестраивает процесс разработки: вместо ручного набора кода — постановка целей и параллельная оркестрация до восьми агентов, интегрированных с безопасными терминалами и ревью‑UI. Собственная модель Composer (MoE + RL) ускоряет генерацию и лучше ориентируется в больших кодовых базах, хотя качество топ‑моделей всё ещё выше; основной фокус — скорость, интерактивность и масштаб для крупных репозиториев.

Статья | DATApedia | #DS_AI
👍1
Data Dojo | Москва | 27 ноября

Это мероприятие Яндекса для сообщества ML-специалистов с обсуждением трендов, прикладных кейсов и разбором реальных задач из соревнований.
Зачем участвовать:
💬 послушать выступления экспертов
💬 разобрать задачи вместе с сообществом
💬 узнать, как попасть на стажировку и начать карьеру ML’щика в Яндексе
💬 завести новые знакомства и зажечь на afterparty

👉 Заполняй форму до 16 ноября.

Data-самураи действуют поодиночке, но учатся вместе. Присоединяйся.
Please open Telegram to view this post
VIEW IN TELEGRAM
ТОП-10 малоизвестных AI-сервисов, которые удивляют возможностями

2025 год щедро раздаёт нейросети всем желающим. Кажется, уже невозможно открыть браузер, чтобы на тебя не посмотрела очередной умник, обещающий сгенерировать гениальный текст, как у Толстого, но быстрее.
Одни модели сочиняют музыку, другие красят фотографии, третьи уверяют, что понимают людей лучше психологов. Но за громкими именами вроде ChatGPT, Midjourney и Runway скрывается подлесок маленьких, но интересных проектов.
Мы собрали десятку инструментов, на которые стоит обратить внимание.

Статья | DATApedia
2👍1
Что такое маршрутизатор LLM?

Маршрутизатор LLM — это система, которая автоматически направляет запросы пользователей к наиболее подходящей большой языковой модели (LLM) в зависимости от типа задачи, сложности и ожиданий по скорости и стоимости. Статья объясняет, зачем нужен такой подход: он позволяет оптимизировать производительность, снизить затраты и повысить надёжность ИИ-систем, особенно при мультимодельных архитектурах.

Статья | DATApedia | #DS_AI
Мы научили ИИ-агента думать как программист, и теперь мы не знаем, что у него на уме

Помните ту сцену в «Матрице», где в мозг Нео мгновенно загружают навыки джиу-джитсу?
Как только загрузка завершается, он начинает драться так, будто тренировался десять лет. Именно так я и представляла себе работу ИИ-агентов с инструментами. Дайте им доступ ко всему, и они просто будут знать, как всем этим пользоваться.
Но теперь, немного разобравшись в том, как всё это устроено, я поняла, что мои наивные представления были в корне неверны. Конечно, тогда я была ребёнком :)

Читать | DATApedia
2
Как подключить LLM в n8n без иностранной карты и протестировать сервис бесплатно

Подключить LLM к n8n вроде бы просто, но на практике большинство зарубежных сервисов ломают весь процесс. Чтобы получить ключ, приходится использовать карту иностранного банка и заходить с иностранного IP-адреса. Для российских разработчиков и вайбкодеров это превращается в отдельный квест.

Читать | DATApedia
От пет-проекта до продажи бизнеса: мой опыт внедрения ИИ агентов и автоматизации на n8n

Сегодня решил впервые поделиться своей историей, как я набивал шишки на коммерческих проектах по автоматизации, а потом решил запустить интенсив на Stepik по автоматизациям, который в итоге стал хитом. Набрал больше 700 студентов и получил среднюю оценку 5/5 за раскрытие «своей кухни».

Читать | DATApedia
👍2
Cryfish: Как научить большую языковую модель слышать и понимать звуки?

Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

Читать | DATApedia
👍3
Как большие языковые модели планируют свои ответы еще до их генерации

Привет, Хабр! Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?

Читать | DATApedia
Путешествие токена: что конкретно происходит внутри трансформера

Из этой статьи вы узнаете о том, как трансформеры преобразуют входные данные в контекстно-зависимые представления и, в итоге, выдают вероятности, влияющие на выбор слов, которые генерируют большие языковые модели.

Читать | DATApedia
Как системному аналитику перейти в дата-аналитику: советы из личного опыта

Расскажу, что в профессии системного аналитика остается неизменным, какие есть ключевые концепции и инструменты Data-направления и что на самом деле нужно знать для перехода.

Читать | DATApedia
2
Проверяем качество ИИ без сложной математики

Представьте, что ваша команда только что получила доступ к новейшей AI-модели или внедрила умный чат-бот. Коллеги в восторге от точности, скорости и функциональности инструмента. Но как понять, насколько он действительно хорош?

Читать | DATApedia