NEW BOT Телеграм, страница

Data Place

Как стать дата-инженером?
Вот подборка любопытных статей на тему, а также список вопросов и ответов для прохождения интервью.
1. Data Engineer Learning Path, Career Track & Roadmap for 2023: https://www.projectpro.io/article/data-engineer-learning-path/550
2. The Complete Data Engineering Study Roadmap: https://www.kdnuggets.com/2022/11/complete-data-engineering-study-roadmap.html
3. The Top 21 Data Engineering Interview Questions and Answers: https://www.datacamp.com/blog/top-21-data-engineering-interview-questions-and-answers
4. Roadmap to becoming a data engineer in 2021 (немного устаревшее, но пока актуальное): https://github.com/datastacktv/data-engineer-roadmap

www.projectpro.io

Data Engineering Roadmap, Learning Path,& Career Track | ProjectPro

The Only step-by-step Data Engineer Learning Path with a completely hands-on and project-driven approach to make you job-ready | ProjectPro

709 viewsIrina, edited 10:49

Data Place

Forwarded from HABR FEED + OPENNET

Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark #habr
https://habr.com/ru/post/715678/
Tags: Блог компании Сбер, Машинное обучение, Big Data, Python, python, bigdata, big data, машинное+обучение, машинное обучение, программирование
Author: NewTechAudit

Хабр

Библиотека ML Tuning: как подобрать гиперпараметры модели GBTRegressor в PySpark

Привет, Хабр! Меня зовут Никита Морозов, я Data Scientist в Сбере. Сегодня поговорим о том, как при помощи библиотеки ML Tuning осуществить подбор гиперпараметров модели...

👍1

785 viewsIrina, 14:35

Data Place

Про схему звезды в РБД
1. Star Schema in Data Warehouse modeling: https://www.geeksforgeeks.org/star-schema-in-data-warehouse-modeling/
2. star schema (с примерами, видео, за и против): https://www.techtarget.com/searchdatamanagement/definition/star-schema

Рекомендую также ознакомиться со статьей на Хабре, написанную понятным языком: Архитектура хранилищ данных: традиционная и облачная: https://habr.com/ru/post/441538/

GeeksforGeeks

Star Schema in Data Warehouse modeling - GeeksforGeeks

Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.

👍1

893 viewsIrina, 10:44

Data Place

Неплохой список инструментов MLOps с открытым программным кодом.
The Best Open-Source MLOps Tools You Should Know: https://neptune.ai/blog/best-open-source-mlops-tools
#MLOps #OpenSource

neptune.ai

Open Source MLOps: Platforms, Frameworks and Tools

Overview of essential open-source MLOps tools, focusing on their functionality and integration within the machine learning landscape.

819 viewsIrina, 11:43

Data Place

Самая модная метапоисковая система теневых библиотек Anna's Archive:
annas-archive.org
Запустилась 7 месяцев назад, и стала самой актуальной точкой входа для поиска научной информации, книг, журналов и тд

🔥4👍3❤1🤩1

873 viewsIrina, 14:38

Data Place

История ИИ

https://en.wikipedia.org/wiki/Timeline_of_artificial_intelligence

803 viewsIrina, 10:04

Data Place

Claude обгоняет ChatGPT.
Есть сильные подозрения, что скоро мы увидим "гонки интеллектов":
https://www.kdnuggets.com/2023/07/chatgpt-dethroned-claude-became-new-ai-leader.html

KDnuggets

ChatGPT Dethroned: How Claude Became the New AI Leader

Putting the world to shame.

917 viewsIrina, 12:13

Data Place

Планирую писать посты с использованием подсказок от ChatGPT-4.
Такие посты буду помечать тегом #ChatGPTprocessed.
Во-первых, чтобы Вы были в курсе того, что за основу брались ответы бота, которые затем подверглись проверке и обработке, во-вторых, чтобы собрать статистику таких постов.

👍4😱1

883 viewsIrina, 10:15

Data Place

Любопытная статья про Claude

https://www.kdnuggets.com/2023/07/chatgpt-dethroned-claude-became-new-ai-leader.html

830 viewsIrina, 10:16

Data Place

Интересный обзор стартапов YC этого года

696 viewsIrina, 13:08

Data Place

Forwarded from kyrillic

Вчера смотрел YC Alumni Demo Day - питчи всех 200+ стартапов S23 батча главного в мире акселератора. Для выпускников прошлых лет demo day проходит на несколько дней раньше, чем для инвесторов!

Писал ранее, зачем следить за YC стартапами (не только фаундерам), а также есть наблюдения после демо дня S22 (пост) и W23 (раз, два)

Выводы-статистика будут попозже, сейчас хочу поделится просто впечатлениями.

1️⃣ В шоке от бэкграунда команд! И раньше было очень много Стэнфорда-MIT-Йеля-FAANG и тд, а также фаундеров с миллионными экзитами. Но в этот раз почти нет других! Четверть фаундеров - из топовых американских университетов. А если считать по стартапам то думаю почти у половины (!!) есть хотя бы один человек из Ivy Leauge, Стэнфорда, MIT и др.

На это наверняка повлияли увольнения прошлого года - в фаундеры пошли невероятно квалифицированные люди.

2️⃣ Прикольно наблюдение, что если фаундер питчит что-то очень размытое вроде "платформа для автоматизации цепочек поставок", то у него наверняка многомилионных экзит. "Вот я - крутой фаундер, вот рынок, где будет стартап, остальное пока непонятно. Рейзю $3m seed!" Ну что, имеет право! Уже доказал предыдущим бизнесом, что умеет-могет.

3️⃣ Жесткий фокус на американский рынок - такого в стартапах не было! Почти полность отвалились ЛатАм, ЮВА, даже Африка. С маркоэкономикой не поспоришь: инвесторы всех типов стали осторожнее относиться к развивающимся рынкам.

Поэтому значительно меньше international founders. Да и те, в большинстве своем учились и работали в США.

Можно много говорить, как плохо американской экономике, но по факту из рецессии она выходит с наименьшими потерями.

4️⃣ "Занимался узкой задачей страхования здоровья в Амазоне, теперь делаю b2b для больших страховых, решая те же проблемы" - так выглядит самый популярный подход к поиску идеи для стартапа.

То есть свою экспертизу конкретных процессов из большой компании фаундеры оборачивают в стартап. Конечно нужно знать и проблему, и контекст рынка, и американский культурный код!

Я пытался сделать упражнение: среди 200+ стартапов найти идеи, которые может делать человек без глубокой экспертизы. Например талантливый амбизиозный айтишник из Европы, без специфических знаний какой-то американской индустрии, хочет запилить MVP, получить трекшн и пройти в YC.

Таких идей почти нет (!!!)

Мы скоро будем разбирать "нормальные" для нашего ru-бэкграунда идеи YC компаний (и не только) в kyrillic is doing.

5️⃣ 3/4 стартапов - b2b! Ушло много "романтики" - почти нет web3, mental health, productivity tools, edtech, горизонтальных b2c, hrtech и т.д. Финтех просел ожидаемо - из за макроэкономики и ставок. Любопытно, что стало сильно меньше real estate стартапов.

Даже вечно популярные devtools просели! Много open source - хвалятся количеством звезд на github. Забавно, что происходит "инфляция github-звезд" - когда-то 500 - было круто, а сейчас уже нужны тысячи!

6️⃣ Интересно с ML/AI: стартапов, употребляющих термины LLM, AI, ML - очень много, также много ML-инженеров среди CTO. А значит есть реальное использование ML.

Но часть стартапов могла бы решать проблему на рынке и без AI (то есть он там скорее для маркетинга).

Другая часть - реально использует например LLM. Иногда с простыми сценариями: "вот есть куча данных, мы суммируем/приведем к нужному виду" - в лучших традициях бутстраперов из Твиттера. Но есть нюанс... Делают YC-стартапы такое в очень конкретном бизнес-процессе, где у фаундеров очевидная экспертиза. Например часть процесса закупок в какой-то индустрии.

7️⃣ Подытожу, для нашего ru-контекста: лучший способ попасть в следующие батчи YC - ехать в США. Учиться в университете (пост) или несколько лет поработать в большой компании, чтобы найти там интересную задачу/проблему, которую можно выделить в отдельный стартап!

Самое главное: тренды YC demo days - это тренды всего венчурного рынка. Они задаются в YC, а потом расходятся по другим индустриям и странам. Полезно видеть старт движения идей сверху вниз. Про это я как-то писал в одном из постов про YC, с примерами из фешна! 🙂

@kyrillic

👍4❤2🔥2

1.05K viewsIrina, 13:08

Data Place

26 принципов построения промптов для LLaMA-1/2, GPT-3.5/4:
https://github.com/VILA-Lab/ATLAS/blob/main/data/README.md
Статья: https://arxiv.org/abs/2312.16171
Данные: https://github.com/VILA-Lab/ATLAS?tab=readme-ov-file

GitHub

ATLAS/data/README.md at main · VILA-Lab/ATLAS

A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 - VILA-Lab/ATLAS

👍1

1.01K viewsIrina, 17:38

Data Place

Полезная статья про MLOps со ссылками на платформы, связанные статьи и всякие полезные ML-сервисы

MLOps Landscape in 2024: Top Tools and Platforms
https://neptune.ai/blog/mlops-tools-platforms-landscape

neptune.ai

MLOps Landscape in 2025: Top Tools and Platforms

Check the key players in the MLOps and FMOps (or LLMOps) ecosystems of 2025, encompassing both open-source and closed-source tools.

864 viewsIrina, 19:09

Data Place

Источник: https://www.facebook.com/devist.xyz/posts/pfbid03wiUukfQGzVnmKBKukkSsw8nc6AoNcbagqojjnQKVpM4dhDy2aUkYgTakET1WxjDl

👍2❤1😁1

798 viewsIrina, 09:41

Data Place

Forwarded from AI Mindset (Gleb Kalinin)

Субъективный хит-парад ИИ-инструментов и сервисов, выпуск 01

В новой рубрике коротким списком делимся инструментами, которыми пользуемся каждый или почти каждый день. Добавляйте ваши варианты в комментариях.

Whispr Flow. Голосовой ввод done right. Умеет качественно расшифровывать аудио на нескольких языках, сам пополняет словарь, умеет выполнять ии-команды над выбранным текстом. Простая штука, но пользуюсь есть сотни раз в день. Есть версии для Windows и Mac, iOS дают тестировать платным пользователям.

Sesame conversational voice. Голосовой интерфейс будущего. Диалоги, которые хочется продолжить сразу же, как он закончится. Увы, пока что не продукт, а технологическое демо. Их отрытая модель

ChatGPT4.5. Интересные изменения произошли в работе с языком. Скармливаю ему несколько своих текстов, текст на английском, прошу перевести, и получаю результат, в котором впервые за всю нашу историю не хочется исправить почти ничего. Если текст не художественный — оптимально.

Grok. Я вынужден признать, что ЛЛМ Маска сейчас on par или лучше и OpenAI, из «коробки» умеет быстро искать в интернете, дает щедрые лимиты на deep research — благодаря нему, для меня deep research стал почти таким же привычным, как простой поиск. Когда это быстро и бесплатно, начинаешь пользоваться. Важное уточнение: свежее исследование показывает, что ни один deep research не может заменить ручной поиск — принимать решение на основании таких не стоит, во всяком не из одного рисерча).

Manus. Взорвавший интернет китайский ии-агент, который автономно решает задачи по поиску и обработке информации, написанию кода, создания презентаций, конвертации данных и даже тренировке простеньких нейросетей, как когда-то Devin. У агента есть изолированная виртуальная машина с ОС Ubuntu и правами на запуск написанного софта. Внутри агента, как выяснилось, Claude 3.7 с доступом к 29 инструментам, и работает он совсем не так безукоризненно, как хотелось бы (например, зависает, вероятно, из-за высокой нагрузки, или галлюцинирует), но всё это не важно. Совершенно очевидно, что манусоподобные агенты станут еще более способными (например, простое сочетание агента + MCP открывает почти бесконечные возможности для этих самых агентов). Пока что тормозить прогресс будут цены. Постоянно работающий агент — это не просто футуристично, но и требует энергии и серверных мощностей, но соприкоснуться.

Goose. Джек Дорси, основатель Твиттера, делает новый продукт с открытым кодом — локального ии-агента. Он тоже умеет пользоваться инструментами (например, на Маке может делать скриншоты или управлять календарем), писать и выполнять код, интегрироваться с MCP-серверами. Похож на OpenInterpreter и Aider.

Генерация картинок с Gemini 2.0. Cовершенно новый опыт. Новая мультимодальная нейросеть Гугла умеет то, что раньше было невозможно. Отмечу работу с текстом — прогресс и по сравнению с Flux, можно добавлять длинные тексты. Кажется, не так далеко до качественного генеративного дизайна. Доступно через AI Studio.

Windsurf. ИИ-редактор кода, ставший для меня вторым домом после Obsidian. Подключил к нему MCP, и теперь, например, я ставлю задачу на исследование, а MCP-сервер сам её решает, и закрывает по завершении. Когда в первый раз понял, что софт тебе не только помогает задачки декомпозировать, а реально их решить и сразу же закрыть — осознал, насколько это будет частью нашей реальности уже в ближайшие годы. Самовыполняющаяся работа? Будем еще от этого отбиваться. Windsurf рекомендую, больше чем Cursor, хотя и оба хороши. Для работы со знаниями и кодом — в этой среде особенно легко к нему переходить. За мои несколько месяцев с Windsurf, он стал значительно автономнее, и чаще без моего вмешательства справляется с ошибками.

Claude 3.7. Новая версия по-прежнему любимой по стилю и эстетике коммуникации модель. Вместе с MCP Claude из чат-бота превращается в мощного агента — легко и быстро можно загружать контент из внешних источников, управлять файловой системой и внешним софтом вроде blender, искать в интернете и по локальным файлам.

🤖

Глеб | AI Tools

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

555 viewsIrina, 13:54

Data Place

Список AI-сервисов.pdf

116.4 KB

Разные люди меня спрашивают на тему того, как составлять эффективные промпты для AI-сервисов.
Я сгенерировала файл со списком AI-сервисов и составила несколько шпаргалок на эту тему для четырех популярных сервисов:
1. Для Qwen25-Max: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-Qwen25-Max-03-29
2. Для Perplexity.AI: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-Perplexity-AI-03-29
3. Для DeepSeek: https://telegra.ph/Kak-sozdat-ehffektivnyj-prompt-dlya-DeepSeek-03-29
4. Для ChatGPT: https://chatgpt.com/share/67e86d58-31a0-8011-850b-59c32bde8901

978 viewsIrina, 09:46

Data Place

Для работы с данными и разработки ПО вайб-кодинг активно используется через специализированные платформы и интеграции с ИИ, которые позволяют быстро генерировать прототипы, веб-приложения и автоматизировать рутинные задачи анализа данных. Основные инструменты, которые подходят именно для этих направлений:

Для веб-разработки
Cursor — продвинутый форк VS Code, заточенный под диалог с ИИ. Можно описывать фичи, компоненты, API, и Cursor генерирует код, рефакторит проекты, помогает с отладкой и тестами. Отлично подходит для React, Next.js, Node.js и других популярных фреймворков.

Lovable — платформа для быстрого создания веб-приложений по описанию. Пользователь пишет идею, а Lovable генерирует адаптивный сайт с уникальным дизайном и логикой. Доступен режим редактирования через промпты.

v0.dev — генерация UI-компонентов и целых страниц для React/Next.js по текстовому описанию. После генерации можно дорабатывать проект через промпты, не выходя из интерфейса.

Bolt.new — быстрый запуск веб-приложений и прототипов “из чата”, с автоматической генерацией структуры проекта и интеграцией с популярными бэкендами.

Replit Ghostwriter — облачная IDE с интеграцией ИИ, позволяет описывать задачи и получать готовый код, а также запускать и тестировать проекты онлайн.

Windsurf — агент для VS Code, умеет генерировать и рефакторить код, автоматически сканирует проект и помогает с развертыванием.

n8n – визуальная платформа автоматизации и интеграций, которую теперь можно использовать через AI Workflow Builder: пользователь описывает какой пайплайн нужен (триггеры, шаги, обработки данных), а n8n сам подбирает и настраивает ноды, связывает их и даёт доработать визуально или кодом (JS/Python‑ноды). Хорошо ложится на web + data‑стек для оркестрации API, ETL‑пайплайнов, уведомлений и AI‑агентов поверх сервисов и БД.

Для анализа данных и data science
Powerdrill Bloom — платформа для анализа данных через диалог с ИИ. Можно задавать вопросы на естественном языке, а Powerdrill генерирует код, строит визуализации и помогает с интерпретацией результатов.

ChatGPT Code Interpreter — интеграция ChatGPT с возможностью загрузки данных, анализа и генерации кода для Python, R, SQL и других языков. Подходит для быстрого прототипирования и автоматизации рутинных задач.

Claude Code — диалог с Claude для генерации и рефакторинга кода, особенно удобен для работы с большими репозиториями и сложными data-проектами.

Data Button — инструмент для создания аналитических приложений и автоматизации обработки данных через промпты. Поддерживает Python, SQL, визуализации и интеграцию с популярными базами данных.

GitHub Copilot — автодополнение и генерация кода для Python, R, SQL, Jupyter Notebook и других data-инструментов. Можно использовать для быстрой генерации скриптов, анализа данных и автоматизации рутинных задач.

Base44 – вайб‑кодинг платформа, ориентированная на web‑приложения с упором на простую настройку безопасности (правила доступа к данным, приватность/публичность приложения) и базовые аналитические метрики. Хорошо подходит для CRUD‑/eCommerce‑сценариев и быстрого старта без сложных настроек.

Memex – локальный вайб‑кодинг инструмент, который разворачивает виртуальные окружения на локальной машине и может генерировать как web‑сервисы, так и data‑/ML‑проекты и утилиты. Удобен именно для связки “код + данные”, когда нужен больший контроль над окружением и зависимостями.

#vibecoding #вайбкодинг

Cursor

Built to make you extraordinarily productive, Cursor is the best way to code with AI.

👍3

488 viewsIrina, edited 13:40

Data Place

Поздравляю с Наступающим!

❤3

353 viewsIrina, 12:33

Data Place

Подсмотрела классную картинку у Гриши Сапунова в фб.
Далее см: https://news.1rj.ru/str/gonzo_ML/4500

❤1

228 viewsIrina, edited 17:57

Data Place

Gemini 3: как Google предлагает по-новому разговаривать с ИИ

Умение работать с языковыми моделями всё меньше похоже на искусство и всё больше — на нормальную инженерную практику. Это особенно хорошо видно на примере Gemini 3, новой модели Google, и официальных рекомендаций по работе с ней.

Видео, о котором идёт речь: https://youtu.be/_ctHSSJ-WqE
И это видео — не столько про "очередную LLM", сколько про смену парадигмы: от длинных, перегруженных промптов к ясным, коротким и целенаправленным запросам.

Что вообще изменилось в Gemini 3
Gemini 3 проектировался с расчётом на то, что пользователь:
1. формулирует цель, а не алгоритм;
2. задаёт формат результата, а не цепочку рассуждений;
3. не перегружает запрос лишними пояснениями.

Google прямо пишет об этом в своем официальном гайде: https://cloud.google.com/vertex-ai/generative-ai/docs/start/gemini-3-prompting-guide

Если коротко: модель лучше понимает намерение и хуже реагирует на "словесный шум".

Ключевая идея: меньше слов — выше точность

Одна из центральных мыслей — сначала цель, потом формат, и только потом (если нужно) контекст.

Пример разницы подходов:

Переусложнённый запрос

Пожалуйста, внимательно проанализируй этот финансовый отчет, найди показатели за третий квартал, аккуратно оформи результат, используй JSON и не добавляй лишний текст…

Рабочий запрос

Extract Q3 revenue, profit, and margin from this report. Return JSON.

Gemini 3 сам: найдёт нужные данные,
поймёт, что считать, приведёт результат к нужной структуре.
Формат — это якорь для ответа

В гайде Google отдельно подчёркивается важность явного указания формата вывода (JSON, таблица, список).

Резюме
Формат работает как контракт: он удерживает модель в рамках задачи и резко снижает количество "воды".
Для аналитиков и инженеров данных это особенно близко по духу — промпт начинает напоминать API-контракт или спецификацию, а не диалог в чате.

Контекст: полезен, но не всегда
Интересный момент из документации Gemini 3: контекст не обязателен, если задача понятна.
Добавлять его стоит только если он меняет интерпретацию данных или задаёт ограничения, или влияет на стиль ответа.
Контекст "на всякий случай" чаще мешает, чем помогает. Модель начинает учитывать второстепенные детали и теряет фокус.

Мультимодальность как нормальный режим работы
Gemini 3 изначально рассчитан на мультимодальные запросы: текст, изображения, PDF, видео. И здесь рекомендация Google простая:
явно указывайте, что именно нужно сделать с каждым типом данных, и формулируйте единый ожидаемый результат.
Например:

Analyze this video and slide deck. Summarize key metrics and risks.

Без дробления на десятки мелких инструкций.

Почему это важно именно для специалистов по данным
Если смотреть шире, то Gemini 3 хорошо иллюстрирует общий тренд: мы постепенно уходим от "prompt engineering как искусства" к "prompt engineering как часть системного мышления".

#LLM #Gemini3

YouTube

The ULTIMATE Gemini 3 Prompting Guide – Master Google's Formula!

#sponsored Try Merlin AI here - https://www.getmerlin.in/pricing and USE my code "AIM5" for discount

🚀 Become an AI Master – And create best Prompts - https://aimaster.me/
📹 Get a Custom Promo Video From AI Master https://collab.aimaster.me/

Most people…

🔥2

213 viewsIrina, 11:19

About

Blog

Apps

Platform