Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​🦉FineBI-g brother is still watching: как мы усовершенствовали мониторинг

В этой статье мы разработали дашборд, содержащий интересующие нас и владельцев дашбордов показатели, графики, детализированные таблицы.

Читать...
​​100 вопросов для подготовки к собесу Data Science

Доброго времени суток!

Представляю вашему вниманию чек-лист из 100 вопросов по Data Science. Вопросы покрывают 5 областей: SQL, Python, Machine Learning, статистику и собственно саму DS.

Кому это вообще может быть полезно:
желающему получить оффер в сфере DS
тому, кто уже давно дата-сайнтист, но хочется освежить какие-то алгоритмы/темы
кто хочет поменять стек на что-то в области анализа и присматривается к DS

Собрал здесь самые частые вопросы с собесов на позицию джуна Data Science, получился так сказать 95% доверительный интервал всех возможных вопросов. Так что если разобраться в этих вопросах, с большой вероятностью Авито, Тинькофф и что у нас там ещё делает DS примет вас к себе на борт.

Читать...
​​🗣Сказки про ИБ в машинном обучении

В этой статье мы рассмотрим, как злоумышленники атакуют модели машинного обучения, что они для этого делают и как от этого можно защищаться.

Читать...
​​🧑‍💻Как систематизировать работу с входящими документами в компании с помощью OCR-инструментов. Часть 1

В этой статье мы расскажем, какие задачи решали на этом проекте, рассмотрим предложения со схожим функционалом, существующие на рынке, и покажем архитектуру предобученного классификатора документооборота.

Читать...
​​👍Тонкая настройка Whisper для многоязычного ASR с помощью Hugging Face Transformers

В этой статье мы рассмотрим пошаговое руководство по дообучению Whisper для многоязычного ASR с использованием Datasets, Transformers и Hugging Face Hub.

Читать...
​​🤔ML SAST. Часть 1: как работают инструменты SAST и какие проблемы может решить применение машинного обучения?

В этой статье мы рассмотрим основные принципы и методики, применяемые в инструментах статического анализа безопасности, обозначим существующие проблемы и рассмотрим потенциал внедрения машинного обучения.

Читать...
​​🧠«Возрождение» больших данных, оптимизация инференса LLM и новинки от AMD

В этой статье вы узнаете, какие Ops-практики входят в систему MLOps, как выбрать СУБД для анализа данных и как построить платформу для DS/ML-разработчиков.

Читать...
​​🐬Python + MySQL: как подключиться к СУБД MySQL и работать с ней с помощью Python

Из этой статьи вы узнаете, как подключиться к MySQL с помощью Python и выполнить основные команды для работы с данными в таблице: установка необходимых библиотек, подключение к базе данных, создание и удаление таблицы, добавление, извлечение и удаление данных из таблицы.

Читать...
​​🐘Функции и хранимые процедуры в SQL: зачем нужны и как применять в реальных примерах

В этой статье вы узнаете, как устроены функции и хранимые процедуры и как их применять для повторного использования запросов.

Читать...
​​💪Выборочное удаление столбцов для повышения эффективности хранения в озерах данных

В данной статье мы расскажем, как сократить размер данных в рамках формата Apache Parquet за счет удаления не использующихся колонок большого размера.

Читать...
​​🧠MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии

В этой статье хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом.

Читать...
​​😉Вредные советы по подготовке датасета

В этой статье автор поделиться вредными советами по подготовке датасета для сервисов видеоаналитики.

Читать...
​​👨‍💻Как с помощью ChatGPT писать SQL-запросы. Несколько кейсов

В статье расскажу о том, как ChatGPT может сэкономить время и усилия начинающего специалиста по SQL.

Читать...
​​😻Вестник Midjourney: новая документация, генерация фрагментов и тюнер стилей

В этой статье рассказываю о нововведениях и различиях между релиз- и альфа-версией.

Читать...
​​🦾Сильный ИИ. Элира1. Увеличение памяти ChatGPT

В этой статье я расскажу о том, как можно увеличить размер запроса к ChatGPT до почти полутора миллионов символов.

Читать...
​​👥Как мы создавали сервис для хостинга ML-моделей на базе Kubernetes и AIOHTTP: опыт Контура

В этой стать расскажу, как наша команда справляется с сервингом сотни моделей и какие решения мы для этого разработали.

Читать...
​​😈LLMClone: как клонировать себя в Telegram

В статье рассматривается простая идея, состоящая в том, чтобы зафайнтюнить языковую модель на личных сообщениях, выгруженных из Telegram-чатов.

Читать...
​​👍Bag of tricks для разметки текстовых данных: Часть 1. Четыре способа размечать меньше

В этой статье я расскажу о том, зачем вообще разработчику машинного обучения разбираться в аннотации данных, сложностях и подводных камнях, сопровождающих процесс, и о способах сократить количество ручной разметки в проекте.

Читать...
​​👉Bag of tricks для разметки текстовых данных: Часть 2. Удаление дубликатов

В этой статье я расскажу об ещё одном способе собирать данные более качественно и экономить на разметке — фильтрации похожих друг на друга текстов.

Читать...
​​⭐️Автоматическое исправление ошибок ASR с помощью sequence-to-sequence моделей

В этой статье представлены несколько разных и интересных способов корректировки ошибок ASR-моделей.

Читать...
​​🌚Edge AI чипы от Kneron. Что это такое и как оно работает

В этой статье я расскажу об опыте погружения в технологию Edge AI, про то, как устроен чип с нейроускорителем, а также про то, с какими трудностями пришлось столкнуться, чтоб заставить все это работать.

Читать...