Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
633 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​👍Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

В этой статье мы рассмотрим пошаговое руководство по дообучению Whisper для многоязычного ASR с использованием Datasets, Transformers и Hugging Face Hub.

Читать...
​​🤔ML SAST. Часть 1: как работают инструменты SAST и какие проблемы может решить применение машинного обучения?

В этой статье мы рассмотрим основные принципы и методики, применяемые в инструментах статического анализа безопасности, обозначим существующие проблемы и рассмотрим потенциал внедрения машинного обучения.

Читать...
​​🧠«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

В этой статье вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков.

Читать...
​​🐬Python + MySQL: как подключиться к СУБД MySQL и работать с ней с помощью Python

Из этой статьи вы узнаете, как подключиться к MySQL с помощью Python и выполнить основные команды для работы с данными в таблице: установка необходимых библиотек, подключение к базе данных, создание и удаление таблицы, добавление, извлечение и удаление данных из таблицы.

Читать...
​​🐘Функции и хранимые процедуры в SQL: зачем нужны и как применять в реальных примерах

В этой статье вы узнаете, как устроены функции и хранимые процедуры и как их применять для повторного использования запросов.

Читать...
​​💪Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

В данной статье мы расскажем, как сократить размер данных в рамках формата Apache Parquet за счет удаления не использующихся колонок большого размера.

Читать...
​​🧠MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии

В этой статье хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом.

Читать...
​​😉Вредные советы по подготовке датасета

В этой статье автор поделиться вредными советами по подготовке датасета для сервисов видеоаналитики.

Читать...
​​👨‍💻Как с помощью ChatGPT писать SQL-запросы. Несколько кейсов

В статье расскажу о том, как ChatGPT может сэкономить время и усилия начинающего специалиста по SQL.

Читать...
​​😻Вестник Midjourney: новая документация, генерация фрагментов и тюнер стилей

В этой статье рассказываю о нововведениях и различиях между релиз- и альфа-версией.

Читать...
​​🦾Сильный ИИ. Элира1. Увеличение памяти ChatGPT

В этой статье я расскажу о том, как можно увеличить размер запроса к ChatGPT до почти полутора миллионов символов.

Читать...
​​👥Как мы создавали сервис для хостинга ML-моделей на базе Kubernetes и AIOHTTP: опыт Контура

В этой стать расскажу, как наша команда справляется с сервингом сотни моделей и какие решения мы для этого разработали.

Читать...
​​😈LLMClone: как клонировать себя в Telegram

В статье рассматривается простая идея, состоящая в том, чтобы зафайнтюнить языковую модель на личных сообщениях, выгруженных из Telegram-чатов.

Читать...
​​👍Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

В этой статье я расскажу о том, зачем вообще разработчику машинного обучения разбираться в аннотации данных, сложностях и подводных камнях, сопровождающих процесс, и о способах сократить количество ручной разметки в проекте.

Читать...
​​👉Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

В этой статье я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

Читать...
​​⭐️Автоматическое исправление ошибок ASR с помощью sequence-to-sequence моделей

В этой статье представлены несколько разных и интересных способов корректировки ошибок ASR-моделей.

Читать...
​​🌚Edge AI чипы от Kneron. Что это такое и как оно работает

В этой статье я расскажу об опыте погружения в технологию Edge AI, про то, как устроен чип с нейроускорителем, а также про то, с какими трудностями пришлось столкнуться, чтоб заставить все это работать.

Читать...
​​🐧Edge AI чипы от Kneron. Ныряем в прошивку

В этой статье я расскажу о прошивке чипов, из чего она состоит, как собирается, как вообще устроен софт такой навороченной многоядерной системы на кристалле, как KL520.

Читать...
Всем привет! На связи Валерия Басова, Системный аналитик, группа разработки машинного обучения Embedika, хочу поделиться своей подборкой полезных книг для разработчиков, исследователей и просто интересующихся.

Дисклеймер: считаю важным обращаться к фундаменталистам, которые не просто дают проблему и решение, а объясняют философию.