NEW BOT Телеграм, страница - 516964241

Data Science | Machinelearning [ru]

20.2K subscribers

673 photos

41 videos

29 files

3.56K links

Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD

Download Telegram

About

Blog

Apps

Platform

Data Science | Machinelearning [ru]

20.2K subscribers

Data Science | Machinelearning [ru]

📝

Подборка вакансий для мидлов

Data-аналитик
• Python, SQL, Apache Hadoop, Kubernetes, Docker
• Уровень дохода не указан | 1–3 года

Data-инженер
• Python, Greenplum, Apache Airflow, Apache Spark, ETL, Apache Hadoop, Linux, PostgreSQL, Kubernetes, SQL
• Уровень дохода не указан | 1–3 года

Data Scientist
• Python, pandas, NumPy, scikit-learn, matplotlib, SQL, Hadoop, PySpark, BitBucket, Jira, Agile
• Уровень дохода не указан | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.27K views18:07

Data Science | Machinelearning [ru]

➡️

Google представила ИИ-генератор видео Veo 2.0: лучше ли, чем Sora и как получить доступ

Google выпустила Veo 2.0 — ИИ-модель для генерации видео с улучшенным разрешением 4K, контролем камеры и лучшим качеством. Вопрос: лучше ли она, чем Sora от OpenAI?

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

3.21K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Конвертер CSV в JSON

Напишите скрипт, который принимает путь к файлу CSV, конвертирует его содержимое в формат JSON и сохраняет результат в новый файл с тем же именем, но с расширением .json.

Пример:

id,name,age
1,Alice,30
2,Bob,25
3,Charlie,35

python csv_to_json.py data.csv

[
  {"id": "1", "name": "Alice", "age": "30"},
  {"id": "2", "name": "Bob", "age": "25"},
  {"id": "3", "name": "Charlie", "age": "35"}
]

Решение задачи🔽

import csv
import json
import sys
import os

def csv_to_json(csv_file_path):
try:
json_file_path = os.path.splitext(csv_file_path)[0] + ".json"

with open(csv_file_path, 'r', encoding='utf-8') as csv_file:
reader = csv.DictReader(csv_file)
data = [row for row in reader]

with open(json_file_path, 'w', encoding='utf-8') as json_file:
json.dump(data, json_file, indent=4, ensure_ascii=False)

print(f"Файл успешно конвертирован: {json_file_path}")
except FileNotFoundError:
print(f"Ошибка: Файл {csv_file_path} не найден.")
except Exception as e:
print(f"Ошибка: {e}")

# Пример использования:
if __name__ == "__main__":
if len(sys.argv) < 2:
print("Использование: python csv_to_json.py <путь_к_csv>")
else:
csv_to_json(sys.argv[1])

Please open Telegram to view this post

VIEW IN TELEGRAM

3.23K views14:07

Data Science | Machinelearning [ru]

🤖

Возможности LLM и RAG на примере реализации бота для поддержки клиентов

Техподдержка — важный контакт с клиентами, но небольшие отделы не всегда справляются с нагрузкой. В статье обсуждаются чат-боты и нейросети (LLM и RAG) для автоматизации процессов и улучшения работы поддержки.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.53K views18:37

Data Science | Machinelearning [ru]

Как FELIX экономит время на подготовке фич? И при чём здесь LLM?

Об этом рассказали ребята из финтеха Точка в своём канале .ml

Если вам интересны разборы инструментов, обзоры фреймворков и выжимки из статей — то вот вам ссылка на канал 🙂

Реклама, АО «Точка», ИНН 9705120864, 2Vtzqw3ihJ1, 18 +

3.1K viewsedited 10:07

Data Science | Machinelearning [ru]

Forwarded from .ml

Как LLM могут помочь в классическом ML?

По статистике, специалисты по Data Science тратят до 70% рабочего времени на этап Feature Engineering, то есть отбирают наиболее важные признаки в данных и формируют новые, более информативные, датасеты. Кажется, с этой рутинной задачей отлично справится LLM. Но нет — в итоге 64% времени уйдёт на подготовку промптов.

Исследователи предлагают новые решения проблемы, одно из них — FELIX (Feature Engineering with LLMs for Interpretability and Explainability). Всё, что нужно для получения готовых фич — сам датасет и его короткий контекст. Дальше FELIX делает следующее:

✏️ Из случайных групп сэмплов датасета LLM генерирует численных и категориальных кандидатов в новые признаки.
✏️ С помощью кластеризации эмбеддингов похожие признаки отбрасываются.
✏️ Из полученных признаков отбрасываются те, что дают наименьшую объяснимость.

Метод эффективен для текстовых данных и сильно превосходит TF-IDF и трансформерные эмбеддинги от RoBERT. Если вам интересно, расскажем и о преобразовании других типов данных в новых постах!

3.4K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для сеньоров

Senior Data Engineer (MedTech)
🟢Python, SQL, Java, ETL, Docker, Kubernetes, Redshift, BigQuery
🟢до 350 000 ₽ на руки | 3–6 лет

Data Architect (MedTech)
🟢SQL, ETL, PostgreSQL, Docker, Kubernetes, Data Warehousing, BI, Agile
🟢до 450 000 ₽ на руки | Более 6 лет

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Senior Python Dev (AI, Big Data, LLM)
🟢Python, Big Data, ClickHouse, Time Series Analysis, Golang, AI, LLM, WebSocket
🟢от 3 000 $ до вычета налогов | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.19K views14:07

Data Science | Machinelearning [ru]

📈

Подборка статей для вашей карьеры

• Вся правда о еженедельных созвонах, или Зачем переливать из пустого в порожнее?

• Тяжела и неказиста жизнь простого RnD. Часть первая: как работают с новыми технологиями в крупных компаниях

• Прийти на внедренный проект на этапе развития системы: как аналитику быстро погрузиться в процессы

• Как гуманитарию подойти к IT: из переводчика в технические писатели

• Поздравляем, вы DevOps-инженер. Как найти себя в необъятном мире ИТ

Please open Telegram to view this post

VIEW IN TELEGRAM

3.24K views18:07

Data Science | Machinelearning [ru]

🔧 ТОП-10 опенсорсных инструментов для работы с ИИ в 2025 году

Детальный разбор 10 самых перспективных инструментов для работы с ИИ в 2025 году. От создания умных ассистентов до построения мощных RAG-систем — разбираем возможности, сравниваем производительность, безопасность и простоту интеграции каждого решения.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.72K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое PCA (Principal Component Analysis) в машинном обучении и зачем он используется?

PCA — это метод снижения размерности, который преобразует исходные переменные в новый набор переменных (компонент), сохраняя как можно больше информации. Он помогает ускорить обучение моделей и уменьшить переобучение.

➡️

Пример:

import numpy as np
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

# Загрузка данных
data = load_iris()
X = data.data

# Применение PCA для снижения размерности до 2 компонент
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

print(X_pca[:5])  # Преобразованные данные

🗣️ В этом примере PCA снижает размерность данных Iris с 4 до 2 компонент. Это позволяет визуализировать данные и ускорить работу моделей, сохраняя основную информацию.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

3.57K views14:07

Data Science | Machinelearning [ru]

Большая языковая модель от MTS AI выйдет уже в первом квартале 2025 года. О завершении бета-теста нейронки упомянул председатель совета директоров МТС Вячеслав Николаев на Дне инвестора.

Это будет LLM для корпоративного использования. В лидерборде бенчмарка MERA она заняла второе место, однако по многим параметрам обошла GPT4o и OpenAI. Например, Cotype лучше связывает факты из предоставленного текста и обладает более глубокими знаниями о мире. Также она помогает сократить до четырех часов рабочего времени, избавляя сотрудников от рутинных задач.

В открытом доступе модель появится в начале 2025 года.

3.57K views17:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для лидов

AI Data Group Lead
🟢Python, TensorFlow, PyTorch, Scikit-learn, Oracle DWH, Hadoop, SQL, Jupyter, Pandas, Matplotlib
🟢Уровень дохода не указан | 1–3 года

Team Lead Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢Уровень дохода не указан | Более 6 лет

Team Lead Data Analyst
🟢SQL, Python, ClickHouse, Power BI, Redash, Superset, Metabase, dbt, Airflow
🟢от 300 000 до 450 000 ₽ на руки | 3–6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.51K views20:07

Data Science | Machinelearning [ru]

🤔

Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

В статье предлагается протестировать новую модель o1 в режиме pro, сравнить её с ChatGPT o1 и ChatGPT 4o. Разберёмся, насколько она оправдывает свою стоимость и как показывает себя на практике.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.77K views10:07

Data Science | Machinelearning [ru]

🔎

Подборка зарубежных вакансий

Data Scientist | Data Analyst
🟢Python, SQL, Power BI, AI (GPT, AutoGPT, Langchain), DWH, BigQuery, Snowflake, Redshift
🟢от 2 000 $ на руки | 1–3 года

Marketing Analyst
🟢SQL, Power BI, Marketing Analysis, Google Analytics, Business English, API
🟢от 2 500 до 4 000 $ до вычета налогов | 1–3 года

Senior Data Scientist
🟢Python, SQL, RecSys, Uplift Modeling, Churn Prediction, LTV Prediction, Forecasting, MLOps
🟢от 4 500 до 6 500 $ до вычета налогов | Более 6 лет

Please open Telegram to view this post

VIEW IN TELEGRAM

3.64K views18:07

Data Science | Machinelearning [ru]

🤖

Обзор 4 новых инструментов AI для программирования: v0, Bolt.new, Cursor, Windsurf

Обзор четырёх инструментов для разработчиков: v0, Bolt.new, Cursor и Windsurf. Сравнение функций, сценариев использования и цен поможет выбрать подходящее решение для повышения продуктивности и оптимизации процессов.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.53K views14:07

Data Science | Machinelearning [ru]

🔥

Самые интересные статьи за последние дни:

• Что читали на Хабре в 2024 году: анализ статей с Node.js, Google Sheets и каплей ChatGPT

• Поднимаем в облаке расшифровку речи в текст с помощью нейросетей. VPS на пределе возможностей

• Стоит ли ChatGPT о1 Pro своих денег? Небольшой тест-драйв модели

• Возможности LLM и RAG на примере реализации бота для поддержки клиентов

• Гетерогенные вычисления: проектирование и разработка вычислительной системы для нейросетей

Please open Telegram to view this post

VIEW IN TELEGRAM

3.57K views18:07

Data Science | Machinelearning [ru]

🧠

Как нейросети, RL и байесовскую оптимизацию стали использовать на ускорителях заряженных частиц

Как машинное обучение помогает управлять ускорителями частиц? В статье раскрываются примеры применения нейронных сетей, обучения с подкреплением и байесовской оптимизации для стабилизации и настройки пучков частиц.

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

3.67K views10:07

Data Science | Machinelearning [ru]

👩‍💻

Парсинг и подсчёт количества слов в текстовом файле

Напишите функцию на Python, которая принимает путь к текстовому файлу и возвращает словарь с подсчётом количества уникальных слов. Слова должны сравниваться без учёта регистра, а знаки препинания должны быть удалены.

Пример:

# Содержимое файла example.txt:
# "Hello, world! This is a test. Hello again."

result = count_words_in_file("example.txt")
print(result)
# Ожидаемый результат:
# {'hello': 2, 'world': 1, 'this': 1, 'is': 1, 'a': 1, 'test': 1, 'again': 1}

Решение задачи🔽

import string
from collections import Counter

def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read().lower()
text = text.translate(str.maketrans('', '', string.punctuation))
words = text.split()
return dict(Counter(words))

# Пример использования
result = count_words_in_file("example.txt")
print(result)

Please open Telegram to view this post

VIEW IN TELEGRAM

4.16K views14:07

Data Science | Machinelearning [ru]

🔎

Подборка вакансий для джунов

Junior Аналитик данных
🟢MySQL, Metabase, Python (pandas, NumPy)
🟢от 30 000 до 50 000 ₽ | 1–3 года опыта

Junior Data Engineer (Analyst)
🟢SQL, Qlik Sense, Grafana, Python, PostgreSQL
🟢от 250 000 ₸ до вычета налогов | Без опыта

Junior Python Backend разработчик
🟢Python, FastAPI, PostgreSQL, SQLAlchemy
🟢от 40 000 ₽ | Без опыта

Please open Telegram to view this post

VIEW IN TELEGRAM

3.92K views18:07

Data Science | Machinelearning [ru]

👩‍💻

Пишем свой PyTorch на NumPy. Часть 1

PyTorch — это мощный и гибкий фреймворк для машинного обучения, широко используемый для создания нейронных сетей. Он особенно популярен благодаря простоте использования, динамическим вычислительным графам и богатой экосистеме инструментов для обучения моделей.

В этой статье мы реализуем собственную библиотеку машинного обучения на NumPy!

Читать...

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

4.17K views10:07

Data Science | Machinelearning [ru]

⚙️

Что такое logging в Python?

logging — это встроенный модуль Python для создания логов, которые помогают отлаживать и мониторить работу приложений.

➡️

Пример:

import logging

# Настройка базового уровня логирования
logging.basicConfig(level=logging.INFO)

# Создание лога
logging.info("Приложение запущено")
logging.warning("Это предупреждение!")
logging.error("Произошла ошибка")

🗣️ В этом примере модуль logging создаёт сообщения разного уровня важности. Логирование позволяет отслеживать работу приложений и находить проблемы в коде.

🖥

Подробнее тут

Please open Telegram to view this post

VIEW IN TELEGRAM

4.06K views14:07