ᴢɪᴘ ʟᴏɢ – Telegram
ᴢɪᴘ ʟᴏɢ
150 subscribers
97 photos
49 videos
6 files
102 links
IT, AI, Robots
Download Telegram
Forwarded from Arcphoenix
Вот моя модель сейсмометра.
Во время афтершока, грузик бьётся о сковородку и издаёт звук, чтобы я сразу обратил внимание, особенно в случае сильных толчков. Также установку можно выключить, убрав грузик в шкафчик, чтобы не мешала готовить.

Также для валидации качества модели, я сравнивал свои прогнозы с репортами о землятресениях в Алматы: https://earthquaketrack.com/p/kazakhstan/recent

Моя модель почти не ошибается и не даёт false positives. Из минусов - она не уверена в предсказаниях, поскольку не всегда раскачивается достаточно сильно, чтобы хорошо ударить по сковороде. Future work: нужно будет придумать как увеличить массу груза.
11
Прошла вводный курс ML in production от deeplearning.ai
Вообще я люблю курсы от Andrew Ng. Конкретно этот курс весьма доступный - в нём в основном только лекции и тесты, а лабы не обязательные, поэтому он в принципе всем понятен, даже если вы в ML не разбираетесь.
Рассмотрены базовые основы продуктовой разработки:
🔣общие стадии разработки ML-продукта
🔣важность data-driven подхода
🔣HLP-бейзлайн и хитрости с интерпретацией результатов
🔣выбор направления для улучшения результата
🔣соотношение бизнес и ML метрик
🔣разница работы со структурированными и неструктурированными данными

Рекомендую курс всем студентам, которые пока ещё не поработали в компаниях, поскольку он хорошо расставляет акценты на различиях между исследованием и разработкой в ML.

Первая неделя курса бесплатна ( но он проходится за день 🙂).

В конце курса даётся список ссылок на внешние ресурсы, привожу его.
Week 1: Overview of the ML Lifecycle and Deployment
Concept and Data Drift
Monitoring ML Models
A Chat with Andrew on MLOps: From Model-centric to Data-centric AI
Статьи на архив:
1. Towards ML Engineering: A brief history of TensorFlow Extended (TFX)
2. Challenges in deploying machine learning: A survey of case studies.
3. Hidden technical debt in machine learning systems.

Week 2: Select and Train Model
Establishing a baseline
Error analysis
Experiment tracking
1. Toward trustworthy AI development: Mechanisms for supporting verifiable claims
2. Deep double descent: Where bigger models and more data hurt

Week 3: Data Definition and Baseline
Label ambiguity
Data pipelines
Data lineage
MLops
Статья: Comparing deep neural networks against humans: object recognition when the signal gets weaker

PS Мой сертификат
Please open Telegram to view this post
VIEW IN TELEGRAM
8
6
I2VGen-XL - двухстадийный метод генерации видео, использующий каскад из двух кодировщиков, использует статическое изображение в качестве guidance, а текстовое описание при апскейле до 1280×720.

Демонстрирует мощь динамических эффектов,
одновременно увеличивая риск артефактов, по сравнению с другими методами, типа Pika Labs.

Код, колабы, проект, демоспейс. Также доступен в Replicate и Basedlabs.

И действительно, хвост у птички стабильно обрезается, а луна синеет, хотя в Video Stable Diffusion такого не происходит.
Качественные примеры генерации этим методом на вдохновляющем меня канале.
🔣🔣🔣 Мои примеры в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Возможно, некоторые из вас задаются вопросом, куда я пропала. Я участвую в соревновании на Kaggle. Соревнование длится уже почти 3 месяца, но я посвятила ему всего несколько дней, да и то не с целью победить, а с целью набить руку на обучении разных сеточек и анализе возникающих ошибок.

Задача состоит в сегментации сосудов на трёхмерных сканах почек. Для обучения выданы сканы трёх почек, для одной из них доступен дополнительный скан высокого разрешения. Проверка происходит на скрытом тестовом наборе.
Подходить к решению задачи можно как минимум тремя способами:
1. Использовать покадровую 2D сегментацию.
2. Использовать сегментацию 2.5D - положить в цветовые каналы изображения 3 ч\б картинки с разной глубины.
3. Использовать трёхмерную сегментацию на воксельном объёме.
Я попробовала все подходы, к тому же несколько вариантов нормализации данных, метрик, способа инференса, трейн и тест аугментации. В итоге оказалось, что обычная двухмерная покадровая сегментация показывает в этой задаче наилучший результат.

Топовые решения пока никто не раскрывает. Очень интересно, какое решение будет у победителя. Возможно, напишу об этом, когда конкурс закончится. 🙂

А пока выкладываю трёхмерную реконструкцию эталонных разметок сосудов почек, сгенерированную с помощью маршрующих кубов по воксельному объёму и визуализированную библиотекой open3d.
Поразительно, насколько сосуды похожи на деревья!
🔣🔣🔣
Напишите в комментариях о вашем опыте участия в конкурсах и об интересных открытиях, которые вас ждали на этом пути.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
154
Forwarded from Derp Learning
Обнаружена серьезная проблема в VAE StableDiffusion 1.x, 2.x и других, использовавших его латентное пространство.

Суть такова: в идеале, латентное представление должно быть пространственно связано с кодируемой картинкой. То есть пиксели в углу картинки влияют только на тот же угловой кусок латентного вектора.
Но из-за ошибки при обучении KL-F8 VAE, информация обо всей картинке протекает через некоторые локальные пиксели.
То есть если вы измените пару латентных "пикселей" в том самом неудачном месте, вся картинка изменится - например, станет ярче или менее контрастнее. (рис.1) При этом если вы захотите привести картинку по яркости и контрасту к исходной, получите те самые артефакты VAE с "прожогами".
Поэтому уже сама диффузионная модель при обучении в латентном пространстве бракованного VAE учится обходить эту проблему, что приводит этим самым прожогам, и, вероятно, к менее эффективному использованию параметров.

SDXL этой проблеме не подвержен, так как там VAE учили уже нормально, а вот DALLE3, опенсорснутый VAE которого совместим с SD 1.x, страдает теми же прожогами.
Так что если будете учить свою foundation model, учите с нуля вместе с VAE, либо берите SDXL :D

подробнее

@derplearning
32
Media is too big
VIEW IN TELEGRAM
Люблю канал ActionLabs на ютьюб. Сделала нарезку из очередного видео с бионическим роботом. Рекомендую посмотреть полную версию, доступно объясняют разницу между тягой и подъёмной силой и отличие механики полёта птицы от полёта самолёта путём взвешивания потока воздуха.
Для не знающих английский напоминаю, что в Я.Браузере доступен синхронный автоперевод ютьюба.
Эта птичка радиоуправляемая, обойдётся на озон в 20к.
6
О дороге времён и поиске истины
Media is too big
VIEW IN TELEGRAM
Русская нейронная сказка "Колобок" 😉
Смотреть на Ютуб
5
This media is not supported in your browser
VIEW IN TELEGRAM
В видео заменила Анджелину Джоли на Алису Селезнёву с помощью банального roop. А скулы-то не спрячешь 🙃.

В последнее время обсуждаются (тут и тут) случаи использования дипфейков в мошеннических целях.

Вот некоторые последние события:
1. Использование фейковой видеоконференции. Имитировался рабочий созвон. Все участники, кроме жертвы, были ненастоящие.
2. Распространение фейкового порно с Тейлор Свифт в Твиттер.
3. Фейковые звонки в мессенджерах.
4. Использование для видеоидентификации в банковском приложении (позже выяснилось, что там использовалась комбинация с классическими методами обмана).

Страница содержит список статей о различных недавних дипфейк-инцидентах. Каждая статья содержит краткое описание инцидента, его последствий и способов борьбы с дипфейками.
Кроме того, каждые несколько дней на хабре появляется новая статья по этой проблеме.
Лично сталкиваюсь с чувством недоверия незнакомцу на другом конце видеоконференции. По отношению ко мне в обратную сторону такое тоже случалось.
Также меня беспокоит, что в сети достаточно моих изображений и видео, чтобы обчистить любой мой банковский счёт.

Конечно, для борьбы с дипфейками принимаются встречные шаги: проводятся соревнования, собираются бенчмарки, публикуются работы. Тем не менее, осознание, что где-то там герои невидимого фронта трудятся на благо Родины нубов, никак не поможет мне обезопасить себя при следующем видеосозвоне.
Please open Telegram to view this post
VIEW IN TELEGRAM
10
ᴢɪᴘ ʟᴏɢ
В видео заменила Анджелину Джоли на Алису Селезнёву с помощью банального roop. А скулы-то не спрячешь 🙃. В последнее время обсуждаются (тут и тут) случаи использования дипфейков в мошеннических целях. Вот некоторые последние события: 1. Использование фейковой…
Какие я вижу решения, применимые к своей жизни? Если кратко, то защититься от фейков с помощью фейков.
1. Не переводить деньги незнакомцам.
2. Использовать синтетический голос \ модуляцию голоса + аватар или хотя бы маски во время видеосозвонов, чтобы препятствовать сбору данных о себе (маски и замена фона доступны в Zoom и Google Meets). Для модификации голоса нашла статью на английском с подборкой средств и браузерных расширений.
3. Отключить идентификацию по биометрическим данным в банковских приложениях.

С учётом развития технологии цифровых аватаров, было бы закономерно использовать для рабочих созвонов именно их потоковую генерацию, как думаете?
🔣🔣🔣
Задумываетесь ли вы об анонимизации при звонках? Пробовали ли вы уже менять голос или внешность?
Please open Telegram to view this post
VIEW IN TELEGRAM
72
Присоединяюсь к флешмобу "Я в 21". Спасибо VK, хранившему память.
111
Подключила GigaCode в качестве плагина к PyCharm. К сожалению, официальная инструкция по подключению не вполне соответствовала моему GUI, но всё равно это оказалось не сложно.
Попробовала его на двух задачах.
1️⃣ Создать классификатор на MNIST
GigaCode хорошо умеет дополнять строки, но иногда ошибается с константами и длинами списков
Благодушно пытался загрузить мне MNIST из gradio 😧 Но при первом же намёке исправился на torchvision.dataset 🫡
Сам сделал мне работающий классификатор, написал функцию обучения одного шага и корректный forward 👏
Допустил рекурсию в функции установке режима нейросети - train (bool) 👎

2️⃣Создать приложение gradio для гамма-коррекции
gr.Interface знает хорошо, детали вызова неизбежно приходится задавать самостоятельно.

Все такие системы по-прежнему требуют изначальных ожиданий о способе решения задачи. То есть в простых случаях человек уже может выступать не в роли автора, а в роли корректора.
В целом меня он, конечно, потряс. Надеюсь, поможет в будущих проектах!
Please open Telegram to view this post
VIEW IN TELEGRAM
7
vigen.ai - сервис для замены фона на фотографии продуктового изображения. Помещает объект в сцену. Не всегда корректным образом. Если нужно что-то представить в презентации, либо выставить на продажу на Авито - хороший способ получить более "продающую" картинку.
4