Возможно, некоторые из вас задаются вопросом, куда я пропала. Я участвую в соревновании на Kaggle. Соревнование длится уже почти 3 месяца, но я посвятила ему всего несколько дней, да и то не с целью победить, а с целью набить руку на обучении разных сеточек и анализе возникающих ошибок.
Задача состоит в сегментации сосудов на трёхмерных сканах почек. Для обучения выданы сканы трёх почек, для одной из них доступен дополнительный скан высокого разрешения. Проверка происходит на скрытом тестовом наборе.
Подходить к решению задачи можно как минимум тремя способами:
1. Использовать покадровую 2D сегментацию.
2. Использовать сегментацию 2.5D - положить в цветовые каналы изображения 3 ч\б картинки с разной глубины.
3. Использовать трёхмерную сегментацию на воксельном объёме.
Я попробовала все подходы, к тому же несколько вариантов нормализации данных, метрик, способа инференса, трейн и тест аугментации. В итоге оказалось, что обычная двухмерная покадровая сегментация показывает в этой задаче наилучший результат.
Топовые решения пока никто не раскрывает. Очень интересно, какое решение будет у победителя. Возможно, напишу об этом, когда конкурс закончится.🙂
А пока выкладываю трёхмерную реконструкцию эталонных разметок сосудов почек, сгенерированную с помощью маршрующих кубов по воксельному объёму и визуализированную библиотекой open3d.
Поразительно, насколько сосуды похожи на деревья!
🔣 🔣 🔣
Напишите в комментариях о вашем опыте участия в конкурсах и об интересных открытиях, которые вас ждали на этом пути.
Задача состоит в сегментации сосудов на трёхмерных сканах почек. Для обучения выданы сканы трёх почек, для одной из них доступен дополнительный скан высокого разрешения. Проверка происходит на скрытом тестовом наборе.
Подходить к решению задачи можно как минимум тремя способами:
1. Использовать покадровую 2D сегментацию.
2. Использовать сегментацию 2.5D - положить в цветовые каналы изображения 3 ч\б картинки с разной глубины.
3. Использовать трёхмерную сегментацию на воксельном объёме.
Я попробовала все подходы, к тому же несколько вариантов нормализации данных, метрик, способа инференса, трейн и тест аугментации. В итоге оказалось, что обычная двухмерная покадровая сегментация показывает в этой задаче наилучший результат.
Топовые решения пока никто не раскрывает. Очень интересно, какое решение будет у победителя. Возможно, напишу об этом, когда конкурс закончится.
А пока выкладываю трёхмерную реконструкцию эталонных разметок сосудов почек, сгенерированную с помощью маршрующих кубов по воксельному объёму и визуализированную библиотекой open3d.
Поразительно, насколько сосуды похожи на деревья!
Напишите в комментариях о вашем опыте участия в конкурсах и об интересных открытиях, которые вас ждали на этом пути.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Derp Learning
Обнаружена серьезная проблема в VAE StableDiffusion 1.x, 2.x и других, использовавших его латентное пространство.
Суть такова: в идеале, латентное представление должно быть пространственно связано с кодируемой картинкой. То есть пиксели в углу картинки влияют только на тот же угловой кусок латентного вектора.
Но из-за ошибки при обучении KL-F8 VAE, информация обо всей картинке протекает через некоторые локальные пиксели.
То есть если вы измените пару латентных "пикселей" в том самом неудачном месте, вся картинка изменится - например, станет ярче или менее контрастнее. (рис.1) При этом если вы захотите привести картинку по яркости и контрасту к исходной, получите те самые артефакты VAE с "прожогами".
Поэтому уже сама диффузионная модель при обучении в латентном пространстве бракованного VAE учится обходить эту проблему, что приводит этим самым прожогам, и, вероятно, к менее эффективному использованию параметров.
SDXL этой проблеме не подвержен, так как там VAE учили уже нормально, а вот DALLE3, опенсорснутый VAE которого совместим с SD 1.x, страдает теми же прожогами.
Так что если будете учить свою foundation model, учите с нуля вместе с VAE, либо берите SDXL :D
подробнее
@derplearning
Суть такова: в идеале, латентное представление должно быть пространственно связано с кодируемой картинкой. То есть пиксели в углу картинки влияют только на тот же угловой кусок латентного вектора.
Но из-за ошибки при обучении KL-F8 VAE, информация обо всей картинке протекает через некоторые локальные пиксели.
То есть если вы измените пару латентных "пикселей" в том самом неудачном месте, вся картинка изменится - например, станет ярче или менее контрастнее. (рис.1) При этом если вы захотите привести картинку по яркости и контрасту к исходной, получите те самые артефакты VAE с "прожогами".
Поэтому уже сама диффузионная модель при обучении в латентном пространстве бракованного VAE учится обходить эту проблему, что приводит этим самым прожогам, и, вероятно, к менее эффективному использованию параметров.
SDXL этой проблеме не подвержен, так как там VAE учили уже нормально, а вот DALLE3, опенсорснутый VAE которого совместим с SD 1.x, страдает теми же прожогами.
Так что если будете учить свою foundation model, учите с нуля вместе с VAE, либо берите SDXL :D
подробнее
@derplearning
Media is too big
VIEW IN TELEGRAM
Люблю канал ActionLabs на ютьюб. Сделала нарезку из очередного видео с бионическим роботом. Рекомендую посмотреть полную версию, доступно объясняют разницу между тягой и подъёмной силой и отличие механики полёта птицы от полёта самолёта путём взвешивания потока воздуха.
Для не знающих английский напоминаю, что в Я.Браузере доступен синхронный автоперевод ютьюба.
Эта птичка радиоуправляемая, обойдётся на озон в 20к.
Для не знающих английский напоминаю, что в Я.Браузере доступен синхронный автоперевод ютьюба.
Эта птичка радиоуправляемая, обойдётся на озон в 20к.
Forwarded from AIMADE | Нейрокино
Media is too big
VIEW IN TELEGRAM
Русская нейронная сказка "Колобок" 😉
Смотреть на Ютуб
Смотреть на Ютуб
This media is not supported in your browser
VIEW IN TELEGRAM
В видео заменила Анджелину Джоли на Алису Селезнёву с помощью банального roop. А скулы-то не спрячешь 🙃 .
В последнее время обсуждаются (тут и тут) случаи использования дипфейков в мошеннических целях.
Вот некоторые последние события:
1. Использование фейковой видеоконференции. Имитировался рабочий созвон. Все участники, кроме жертвы, были ненастоящие.
2. Распространение фейкового порно с Тейлор Свифт в Твиттер.
3. Фейковые звонки в мессенджерах.
4. Использование для видеоидентификации в банковском приложении (позже выяснилось, что там использовалась комбинация с классическими методами обмана).
Страница содержит список статей о различных недавних дипфейк-инцидентах. Каждая статья содержит краткое описание инцидента, его последствий и способов борьбы с дипфейками.
Кроме того, каждые несколько дней на хабре появляется новая статья по этой проблеме.
➗ Лично сталкиваюсь с чувством недоверия незнакомцу на другом конце видеоконференции. По отношению ко мне в обратную сторону такое тоже случалось.
➗ Также меня беспокоит, что в сети достаточно моих изображений и видео, чтобы обчистить любой мой банковский счёт.
Конечно, для борьбы с дипфейками принимаются встречные шаги: проводятся соревнования, собираются бенчмарки, публикуются работы. Тем не менее, осознание, что где-то там герои невидимого фронта трудятся на благоРодины нубов, никак не поможет мне обезопасить себя при следующем видеосозвоне.
В последнее время обсуждаются (тут и тут) случаи использования дипфейков в мошеннических целях.
Вот некоторые последние события:
1. Использование фейковой видеоконференции. Имитировался рабочий созвон. Все участники, кроме жертвы, были ненастоящие.
2. Распространение фейкового порно с Тейлор Свифт в Твиттер.
3. Фейковые звонки в мессенджерах.
4. Использование для видеоидентификации в банковском приложении (позже выяснилось, что там использовалась комбинация с классическими методами обмана).
Страница содержит список статей о различных недавних дипфейк-инцидентах. Каждая статья содержит краткое описание инцидента, его последствий и способов борьбы с дипфейками.
Кроме того, каждые несколько дней на хабре появляется новая статья по этой проблеме.
Конечно, для борьбы с дипфейками принимаются встречные шаги: проводятся соревнования, собираются бенчмарки, публикуются работы. Тем не менее, осознание, что где-то там герои невидимого фронта трудятся на благо
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
В видео заменила Анджелину Джоли на Алису Селезнёву с помощью банального roop. А скулы-то не спрячешь 🙃 . В последнее время обсуждаются (тут и тут) случаи использования дипфейков в мошеннических целях. Вот некоторые последние события: 1. Использование фейковой…
Какие я вижу решения, применимые к своей жизни? Если кратко, то защититься от фейков с помощью фейков.
1. Не переводить деньги незнакомцам.
2. Использовать синтетический голос \ модуляцию голоса + аватар или хотя бы маски во время видеосозвонов, чтобы препятствовать сбору данных о себе (маски и замена фона доступны в Zoom и Google Meets). Для модификации голоса нашла статью на английском с подборкой средств и браузерных расширений.
3. Отключить идентификацию по биометрическим данным в банковских приложениях.
С учётом развития технологии цифровых аватаров, было бы закономерно использовать для рабочих созвонов именно их потоковую генерацию, как думаете?
🔣 🔣 🔣
Задумываетесь ли вы об анонимизации при звонках? Пробовали ли вы уже менять голос или внешность?
1. Не переводить деньги незнакомцам.
2. Использовать синтетический голос \ модуляцию голоса + аватар или хотя бы маски во время видеосозвонов, чтобы препятствовать сбору данных о себе (маски и замена фона доступны в Zoom и Google Meets). Для модификации голоса нашла статью на английском с подборкой средств и браузерных расширений.
3. Отключить идентификацию по биометрическим данным в банковских приложениях.
С учётом развития технологии цифровых аватаров, было бы закономерно использовать для рабочих созвонов именно их потоковую генерацию, как думаете?
Задумываетесь ли вы об анонимизации при звонках? Пробовали ли вы уже менять голос или внешность?
Please open Telegram to view this post
VIEW IN TELEGRAM
murf.ai
Top 5 Best Voice Changer for Google Meet in 2025
Discover the top 10 best voice changer software for Google Meet in 2025. Enhance your Google Meet experience with these powerful voice changer tools.
Присоединяюсь к флешмобу "Я в 21". Спасибо VK, хранившему память.
Подключила GigaCode в качестве плагина к PyCharm. К сожалению, официальная инструкция по подключению не вполне соответствовала моему GUI, но всё равно это оказалось не сложно.
Попробовала его на двух задачах.
1️⃣ Создать классификатор на MNIST
➗ GigaCode хорошо умеет дополнять строки, но иногда ошибается с константами и длинами списков
➗ Благодушно пытался загрузить мне MNIST из gradio 😧 Но при первом же намёке исправился на torchvision.dataset 🫡
➗ Сам сделал мне работающий классификатор, написал функцию обучения одного шага и корректный forward 👏
➗ Допустил рекурсию в функции установке режима нейросети - train (bool) 👎
2️⃣ Создать приложение gradio для гамма-коррекции
gr.Interface знает хорошо, детали вызова неизбежно приходится задавать самостоятельно.
Все такие системы по-прежнему требуют изначальных ожиданий о способе решения задачи. То есть в простых случаях человек уже может выступать не в роли автора, а в роли корректора.
В целом меня он, конечно, потряс. Надеюсь, поможет в будущих проектах!
Попробовала его на двух задачах.
gr.Interface знает хорошо, детали вызова неизбежно приходится задавать самостоятельно.
Все такие системы по-прежнему требуют изначальных ожиданий о способе решения задачи. То есть в простых случаях человек уже может выступать не в роли автора, а в роли корректора.
В целом меня он, конечно, потряс. Надеюсь, поможет в будущих проектах!
Please open Telegram to view this post
VIEW IN TELEGRAM
Goody https://www.goody2.ai/chat - нейросеть, которая гарантированно не сможет сгенеририть негативный контент. Получить от неё полезный ответ ещё нужно постараться. Всё как у людей - невозможно быть хорошим для всех и иметь собственное мнение по какому-либо вопросу.
Forwarded from Техножрица 👩💻👩🏫👩🔧
Нередко, буквально спустя несколько минут после начала чтения очередной научной статьи, я начинаю сталкиваться с проблемой концентрации внимания. Я продолжаю смотреть на текст, двигать глазами, прокручивать страницу с pdf-кой, но самого процесса чтения как такового больше не происходит - мысли улетают куда-то в космос. Так уж устроен мозг - не любит он напрягаться. Но как же быть с этой проблемой?
Основной способ, который я использую для борьбы с улетанием мыслей куда-то не туда - постоянно вспоминать, с какой целью я начала читать статью, задавать себе вопросы, которые соответствуют приближению к этой цели, а потом искать в статье ответы на эти вопросы.
Примеры целей, к которым можно стремиться при чтении статьи:
1️⃣ Понять, можно ли применить вычислительный алгоритм, описанный в статье, в своей работе, как это сделать и нужно ли его для этого как-то модифицировать.
Вопросы, которые можно себе задавать в таком сценарии:
➡️ Что подается на вход алгоритма и что получается на выходе? Т.е. какие входные данные мне нужны, чтобы получить результат, как конкретно будет выглядеть этот результат? Вопросы выглядят как что-то простое и очевидное, но если постоянно отвлекаться, то даже такие простые вещи можно упустить из виду.
➡️ Какими экспериментами (и, возможно, теоретическими соображениями) авторы обосновывают то, что их алгоритм действительно делает то, что задумано? Верю ли я в то, что их эксперименты действительно доказывают их заявления?
➡️ Есть ли у представленных экспериментов какие-то нюансы, которые могут помешать перенести алгоритм из статьи на мой сценарий?
➡️ Сколько компьюта авторы затратили на свои эксперименты?
➡️ И т.д., и т.п.
Критерий успеха: вы поняли, нужно применять алгоритм или нет. Если да, то вы понимаете в общих чертах, как к этому приступить.
2️⃣ Разобраться, каково текущее состояние какой-то области или задачи (например, детекции искусственных текстов). Такая цель часто заявляется при чтении статей-обзоров. Однако, на самом деле это нельзя назвать целью в полном смысле, поскольку непонятно, каков будет критерий достижения. Так что лучше задать себе уточняющий вопрос: Как конкретно я хочу применить знания о состоянии области или задачи впоследствии?
Возможные варианты ответа:
🔡 🔣 Я хочу убедиться, что в этой области еще не реализовали новую идею, которая пришла мне в голову.
В этом случае можно задать вопросы:
➡️ Что сделали самого похожего на то, что я придумал(а)? Это в точности то же самое или есть отличия?
➡️ Можно ли из этого похожего извлечь информацию, полезную для реализации моей идеи?
➡️ Есть ли методы заведомо настолько лучше моего, что мой реализовывать нет смысла?
➡️ С какими методами из прочитанных в статьях я буду сравнивать свой метод?
Критерий успеха: вы поняли, реализовал ли кто-то идею или нет, есть ли в принципе смысл ее реализовывать и если да, то как.
🔡 🔣 Я хочу найти новую тему для исследования. В принципе, в этом случае можно устраивать мозговой штурм, навскидку придумывая всякие разные варианты, что вы можете сделать и проверять разумность этого как в предыдущем пункте.
🔡 🔣 Продвинулись ли люди в решении задачи в достаточной степени, чтобы я мог(ла) использовать их результаты в своей работе? В этом случае вопросы будут похожи на пункт 1, только с акцентом на целесообразности использования предложенных алгоритмов.
Критерий успеха: как в пункте 1.
3️⃣ Подготовить по статье доклад на семинаре. В этом случае можно задать себе следующие вопросы:
➡️ Кто будет присутствовать на семинаре? Какой у них бэкграунд? С какой целью они пришли слушать про эту статью, что хотят для себя вынести?
➡️ Исходя из ответа на предыдущий вопрос: какие конкретно аспекты статьи будут интересны слушателем с данным бэкграундом? В соответствии с этим, какие вопросы они будут задавать?
➡️ Далее можно задавать себе те вопросы, которые ожидаются от слушателей и искать в тексте ответы на них.
Критерий успеха: вы сделали доклад и слушатели семинара показали признаки понимания того, что им рассказали.
#учеба #наука
Основной способ, который я использую для борьбы с улетанием мыслей куда-то не туда - постоянно вспоминать, с какой целью я начала читать статью, задавать себе вопросы, которые соответствуют приближению к этой цели, а потом искать в статье ответы на эти вопросы.
Примеры целей, к которым можно стремиться при чтении статьи:
Вопросы, которые можно себе задавать в таком сценарии:
Критерий успеха: вы поняли, нужно применять алгоритм или нет. Если да, то вы понимаете в общих чертах, как к этому приступить.
Возможные варианты ответа:
В этом случае можно задать вопросы:
Критерий успеха: вы поняли, реализовал ли кто-то идею или нет, есть ли в принципе смысл ее реализовывать и если да, то как.
Критерий успеха: как в пункте 1.
Критерий успеха: вы сделали доклад и слушатели семинара показали признаки понимания того, что им рассказали.
#учеба #наука
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Техножрица 👩💻👩🏫👩🔧
Конечно, существует и множество других причин, по которым можно читать статьи. Например:
4️⃣ Чтобы написать рецензию;
5️⃣ Чтобы понять, как авторы смогли догадаться до изобретения какого-то метода, каков был ход их мыслей (в этом случае вы, скорее всего, захотите посмотреть, на какую литературу они ссылаются и что самое важное выделяют в этой литературе);
и т.д., и т.п.
—
Впрочем, иногда, даже если я держу в голове, на какой конкретно вопрос я пытаюсь себе ответить в данный момент, внимание все равно рассеивается. Обычно это служит индикатором того, что я просто чего-то не понимаю. В этом случае, я задаю себе дополнительные вопросы:
➡️ Чего именно я не понимаю?
➡️ Что прочитать, чтобы начать понимать тот кусок, который я не понимаю?
Плюс кроме всего перечисленного, важным кажется поймать момент, когда более подробный разбор статьи уже не целесообразен, и пора перейти к другим делам.
А вы как читаете статьи, что считаете при этом важным и как боретесь с рассеянным вниманием?
#учеба #наука
и т.д., и т.п.
—
Впрочем, иногда, даже если я держу в голове, на какой конкретно вопрос я пытаюсь себе ответить в данный момент, внимание все равно рассеивается. Обычно это служит индикатором того, что я просто чего-то не понимаю. В этом случае, я задаю себе дополнительные вопросы:
Плюс кроме всего перечисленного, важным кажется поймать момент, когда более подробный разбор статьи уже не целесообразен, и пора перейти к другим делам.
А вы как читаете статьи, что считаете при этом важным и как боретесь с рассеянным вниманием?
#учеба #наука
Please open Telegram to view this post
VIEW IN TELEGRAM
Быстрей, компактней, Rust!
🔠 🔠 🔠 🔠
Compressed GS for accelerating synthesis Project, Paper, Code
🔣 Известный недостаток алгоритма Gaussian Splatting - большой объём памяти для описания сплатов.
🔣 В статье предлагается модификация базового алгоритма, позволяющая сжать цветовое представление и параметры Гауссиан за счёт использования кодовых книг и Z-кривой.
➕ Это позволяет в 30 уменьшить потребление памяти и в 4 раза ускорить рендеринг.
❓ Использование языка RUST и WebGPU может быть как плюсом, так и минусом, в зависимости от ваших целей.
🔣 Главный объём в хранении гауссовых сплатов уходит на анизотропные коэффициенты поверхности, представленные сферическими гармониками и матрицой ковариации гауссиан.
Пайплайн сжатия состоит из трёх шагов:
1. Кластеризация на основе меры чувствительности. Для каждого параметра вычисляется вклад в обучающие изображения. Цвет и параметры Гауссиан кодируются в компактные codebooks путём векторной квантизации на основе чувствительности. Квантизация цвета и геометрических параметров Гауссиан происходит немного отличным друг от друга образом, но везде в основе лежит алгоритм k-средних.
2. Файнтьюнинг квантизованного представления.
3. Энтропийное и LRE-кодирование. 3D-Gaussian-ы закодированы вдоль Z-curve для сохранения пространственной связности параметров сцены.
🔣 При рендеринге каждая гауссиана описывается двумя треугольниками. Вершинный шейдер вычисляет позиции вершин в экранном пространстве исходя из матрицы ковариации. Размер сплата выбирается для покрытия 99% процентов спроецированной Гауссианы. Вершинный шейдер передаёт цвета в пиксельный, а пиксельный уже выбрасывает пиксели вне интервала с 99% надёжности.
🔣 Рендерер (репозиторий) написан на Rust с помощью графического API WebGPU, поэтому работает в браузере. Сравнение производилось на стандартном NeRF датасете на 13 реальных сценах.
Флаги для запуска рендера на WebGPU в гугл-хроме из консоли:
Compressed GS for accelerating synthesis Project, Paper, Code
Если сумеете заставить его работать в вашем браузере, дайте знать!
Пайплайн сжатия состоит из трёх шагов:
1. Кластеризация на основе меры чувствительности. Для каждого параметра вычисляется вклад в обучающие изображения. Цвет и параметры Гауссиан кодируются в компактные codebooks путём векторной квантизации на основе чувствительности. Квантизация цвета и геометрических параметров Гауссиан происходит немного отличным друг от друга образом, но везде в основе лежит алгоритм k-средних.
2. Файнтьюнинг квантизованного представления.
3. Энтропийное и LRE-кодирование. 3D-Gaussian-ы закодированы вдоль Z-curve для сохранения пространственной связности параметров сцены.
Флаги для запуска рендера на WebGPU в гугл-хроме из консоли:
google-chrome-stable --enable-unsafe-webgpu --enable-features=Vulkan
Please open Telegram to view this post
VIEW IN TELEGRAM
ᴢɪᴘ ʟᴏɢ
Быстрей, компактней, Rust! 🔠 🔠 🔠 🔠 Compressed GS for accelerating synthesis Project, Paper, Code 🔣 Известный недостаток алгоритма Gaussian Splatting - большой объём памяти для описания сплатов. 🔣 В статье предлагается модификация базового алгоритма, позволяющая…
Media is too big
VIEW IN TELEGRAM
После выхода SORA даже на видео-доказательства теперь нельзя полагаться. Возрастает потребность в новых подходах к информационной безопасности. Нужны камеры, которые не взломать, сертификаты на эти камеры. Нужны протоколы передачи от этих камер в центр обработки. Нужны средства поиска различий между реальным и сгенерированным.
Для решения проблемы подлинности контента была сформирована группа CAI, включающая медиа-компании, технологические платформы и неправительственные организации. Модель CAI использует хеширование криптографических активов для вставки идентифицируемых подписей в метаданные изображения, что позволяет проверить их подлинность. Если изображения, обработанные CAI, изменяются в цифровом виде помощью Photoshop или другого пакета редактирования, то система также записывает историю изменений.
Камера M11-P компании Leica создаёт изображения с уже зашифрованными метаданными. Пример проверки подлинности данных.
Другие компании также завершили тестирования своих камер с цифровой подписью.
🔣 🔣 🔣
Создание подобной отечественной системы потребовало бы полного технологического стека: камера - редактор контента - сертифицирующий центр. Можно было бы проверять подлинность фотографий на Госуслугах.🤔
Для решения проблемы подлинности контента была сформирована группа CAI, включающая медиа-компании, технологические платформы и неправительственные организации. Модель CAI использует хеширование криптографических активов для вставки идентифицируемых подписей в метаданные изображения, что позволяет проверить их подлинность. Если изображения, обработанные CAI, изменяются в цифровом виде помощью Photoshop или другого пакета редактирования, то система также записывает историю изменений.
Камера M11-P компании Leica создаёт изображения с уже зашифрованными метаданными. Пример проверки подлинности данных.
Другие компании также завершили тестирования своих камер с цифровой подписью.
Создание подобной отечественной системы потребовало бы полного технологического стека: камера - редактор контента - сертифицирующий центр. Можно было бы проверять подлинность фотографий на Госуслугах.🤔
Please open Telegram to view this post
VIEW IN TELEGRAM