Немного лет тому назад,
Там, где, сливаяся, шумят,
Обнявшись, будто две сестры,
Струи Арагвы и Куры,
Был монастырь. Из-за горы
И нынче видит пешеход
Столбы обрушенных ворот,
И башни, и церковный свод;
Но не курится уж под ним
Кадильниц благовонный дым,
Не слышно пенье в поздний час
Молящих иноков за нас.
Теперь один старик седой,
Развалин страж полуживой,
Людьми и смертию забыт,
Сметает пыль с могильных плит,
Которых надпись говорит
О славе прошлой — и о том,
Как, удручен своим венцом,
Такой-то царь, в такой-то год,
Вручал России свой народ.
И божья благодать сошла
На Грузию! Она цвела
С тех пор в тени своих садов,
Не опасаяся врагов,
3а гранью дружеских штыков.
Мцыри
М.Ю.Лермонтов
❤25🕊9👍6
Forwarded from DLStories
Полчаса назад в подмосковье стартовал первый тур отбора школьников на IOAI. Отбор будет идти три дня, каждый тур по 6 часов. В первый и второй день будут по три задачи (таблички, CV, NLP), в третий день две (CV и NLP). Задачи мы старались придумать подобные тем, что были на прошлогоднем межнаре: то есть, очень интересными, где надо подумать и сделать что-то с фичами/моделями, а не просто Kaggle-style вида "вот датасет, обучите как-нибудь, чтобы было хорошо"
И вот что: отбор сделан как открытая олимпиада Northern Eurasia OAI 2025 (NEOAI) на Kaggle, и участвовать могут все желающие. Если хотите, присоединяйтесь) Сейчас открыты три задачи текущего тура (на них остается 5.5 часа), завтра и послезавтра в 10 утра по Москве откроются второй и третий туры. Leaderboard открытый, ваши посылки и посылки школьников с отбора будут одинаково видны. А в конце олимпиады (после трех туров) будет финальный лидерборд с рейтингом по всем задачам.
Разбор задач после олимпиады тоже будет, решения будут открыты.
Ссылка на соревнование: https://www.kaggle.com/competitions/neoai-2025/overview
Приходите, мы классные задачи придумали, правда)
P.S. Откройте бейзлайн сегодняшней задачи по NLP. Мы с Егором (который делал эту задачу) получили огромное удовольствие, когда придумали легенду🤣
И вот что: отбор сделан как открытая олимпиада Northern Eurasia OAI 2025 (NEOAI) на Kaggle, и участвовать могут все желающие. Если хотите, присоединяйтесь) Сейчас открыты три задачи текущего тура (на них остается 5.5 часа), завтра и послезавтра в 10 утра по Москве откроются второй и третий туры. Leaderboard открытый, ваши посылки и посылки школьников с отбора будут одинаково видны. А в конце олимпиады (после трех туров) будет финальный лидерборд с рейтингом по всем задачам.
Разбор задач после олимпиады тоже будет, решения будут открыты.
Ссылка на соревнование: https://www.kaggle.com/competitions/neoai-2025/overview
Приходите, мы классные задачи придумали, правда)
P.S. Откройте бейзлайн сегодняшней задачи по NLP. Мы с Егором (который делал эту задачу) получили огромное удовольствие, когда придумали легенду
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12✍7👍3🕊1
Сегодня завершился отбор на межнар по ИИ, в котором я принял участие в роли организатора и автора задачи. По итогу мы отобрали 8 школьников, которые в августе полетят в Пекин представлять сборную России
Задачи межнара не похожи ни на хакатоны, ни на каггл соревнования, ни на академический ресерч. Они нацелены на нахождение неочевидных решений в сжатые сроки (2-3 часа на задачу), часто связаны с конкретной архитектурой и их решение подразумевает глубокое понимание процессов проходящих внутри нейросети. Брутфорс, файнтюн, хак метрики - не про олимпиады. Ниже дана формулировка моей задачи:
с кодом бейзлайна, полной формулировкой, а также забавной драматичной легендой, которую мы с Таней придумали накануне контеста, можно ознакомиться по ссылке
Организовывать мероприятие, готовить задачи, оценивать решения - очень тяжёлый и выматывающий процесс, огромное спасибо выражаю команде организаторов из ЦУ и в частности Александру Гущину. Мне приятно находиться у истоков развития олимпиадной культуры в сфере ИИ. Форматы и рамки задач не прошли испытание временем. Тренировочный процесс не установлен, нет методичек или учебников. А значит что у нас есть возможность применить лучшие практики и внести весомый вклад в зарождающееся движение
Задачи межнара не похожи ни на хакатоны, ни на каггл соревнования, ни на академический ресерч. Они нацелены на нахождение неочевидных решений в сжатые сроки (2-3 часа на задачу), часто связаны с конкретной архитектурой и их решение подразумевает глубокое понимание процессов проходящих внутри нейросети. Брутфорс, файнтюн, хак метрики - не про олимпиады. Ниже дана формулировка моей задачи:
Your goal is to modify the generation process of the gemma2-2b model so that generated texts belong to the distribution of fake text detector scores corresponding to humans (i.e. fake text detector thinks that generated texts are actually real), while not changing the text generated by gemma2-2b much. You are given only test set of prompts, and you can't use it for training.
с кодом бейзлайна, полной формулировкой, а также забавной драматичной легендой, которую мы с Таней придумали накануне контеста, можно ознакомиться по ссылке
Организовывать мероприятие, готовить задачи, оценивать решения - очень тяжёлый и выматывающий процесс, огромное спасибо выражаю команде организаторов из ЦУ и в частности Александру Гущину. Мне приятно находиться у истоков развития олимпиадной культуры в сфере ИИ. Форматы и рамки задач не прошли испытание временем. Тренировочный процесс не установлен, нет методичек или учебников. А значит что у нас есть возможность применить лучшие практики и внести весомый вклад в зарождающееся движение
❤30👍19 11
Aparin
Viva La Victoria! это было долго и сложно
guess who's back
back again
запущено соревнование по восстановлению распределения спектра фотонов различных длин волн из шумного сигнала кривой светимости спектрометра, наблюдающего экзопланеты в момент их транзита перед звездой. как и год назад, соревнование проводится как часть competition трека на NIPS, при прочих равных можно получить публикацию на воркшопе (в прошлом году все нейросетевые методы провалились и публикации не было). метрика, данные и контекст такие же, подробнее можете почитать в моём прошлогоднем разборе. несмотря на то чточувство долга стокгольмский синдром зовёт меня учавствовать, не уверен что в итоге решусь, уж неприлично много сил было потрачено годом ранее
back again
запущено соревнование по восстановлению распределения спектра фотонов различных длин волн из шумного сигнала кривой светимости спектрометра, наблюдающего экзопланеты в момент их транзита перед звездой. как и год назад, соревнование проводится как часть competition трека на NIPS, при прочих равных можно получить публикацию на воркшопе (в прошлом году все нейросетевые методы провалились и публикации не было). метрика, данные и контекст такие же, подробнее можете почитать в моём прошлогоднем разборе. несмотря на то что
❤20👍11 7
Завершилось геофизическое соревнование, посвященное восстановлению карты скорости распространения волны в породе из амплитуды отразившихся и вернувшихся сигналов на поверхность (рис. 2). Если объяснять подробнее, то на интересующем земляном секторе в линию расставляют считывающие волны датчики. Рядом ставят аппарат, который ударяет по земле и создаёт волну. Отразившись от различных пород, она возвращается на поверхность и её амплитуда фиксируется. Так как датчики расположены на некотором расстоянии друг от друга, переотразившаяся волна приходит к ним в разный момент времени. Наблюдения повторяют пять раз с разным положением аппарата. Таким образом получается сейсмограмма (рис. 3 справа), с размерностью [5, 70, 1000], где 5 - количество наблюдений, 70 - количество датчиков (каждый на расстоянии 10м друг от друга, всего - 700м) и 1000 - временная шкала в миллисекундах. Из этой картинки нужно восстановить карту скорости (рис. 3 слева) - таргет размерности [70, 70], где по первой оси отложено расстояние на поверхности, а по второй - глубина, в десятках метров. Проблема в том, что если из таргета с помощью диффура можно получить сейсмограмму (инпут), то решить обратную задачу аналитически нельзя (рис. 4). Эта задача и стояла перед участниками
Особенностью соревнования было огромное количество тренировочных данных (800гб) и доступный изначально тест сет. То есть файл сабмита нужно было формировать локально. Так как трейн и тест датасеты были в достаточной степени гомогенны, валидация сильно коррелировала с лидербордом и в последствии шейкапа не было. Ключом к победе были генерация синтетики и псевдолейблинг с итеративным дообучением на тесте. Новые данные генерировались с помощью Full Waveform Inversion (FWI), это тот самый диффур, с помощью которого можно из карты скорости сделать сейсмограмму (рис. 3), а карту скорости можно брать как рандом кроп + интерполяция к исходным размерам из существующих таргетов. Так участник, взявший первое место, расширил датасет в 10 раз, до ~9Тб. Ещё помогали переход к одноканальной картинке, когда из каждого замера оставляли лишь те наблюдения, что фиксировались вблизи аппарата (рис. 5) и аугментации, объединяющие существующие таргеты, с последующей генерацией сейсмограммы с помощью FWI (рис. 6)
Что касается архитектур моделей - большинство использовали UNet с сегментационной головой, но это контр-интуитивно, так как задача ставится как перевод [метр; секунда] в [метр; метр] и пиксели инпута напрямую не связаны с пикселями таргета. В наших экспериментах мы хотели придумать что-то лучше unet, я пробовал seq2seq подход, где время и глубина сопоставлены друг другу, но сдался, когда понял, что при предсказании n+1 вектора декодер предсказывает текущий, так как по L1 он близок к следующему. Впрочем решение с первого место имеет за собой ту же логику отказа от unet сегментации и переход к регрессии на vision transformer (рис. 7). Интересное решение добавить единый линейный слой для энкодера и декодера, при этом объединяя только веса, не делая резидуал соединение
В итоге мы заняли 28 место, взяли серебро, каждая идея из топа витала где-то рядом, но многое не докрутили. Соревнование, как мне кажется, вышло продуктивным и в академическом плане. Датасет OpenFWI - общепринятый, в статьях все меряются на нём. Соты побиты, новые архитектуры и методы предложены. Учёным из области остаётся собрать сливки и оформить статьи
Особенностью соревнования было огромное количество тренировочных данных (800гб) и доступный изначально тест сет. То есть файл сабмита нужно было формировать локально. Так как трейн и тест датасеты были в достаточной степени гомогенны, валидация сильно коррелировала с лидербордом и в последствии шейкапа не было. Ключом к победе были генерация синтетики и псевдолейблинг с итеративным дообучением на тесте. Новые данные генерировались с помощью Full Waveform Inversion (FWI), это тот самый диффур, с помощью которого можно из карты скорости сделать сейсмограмму (рис. 3), а карту скорости можно брать как рандом кроп + интерполяция к исходным размерам из существующих таргетов. Так участник, взявший первое место, расширил датасет в 10 раз, до ~9Тб. Ещё помогали переход к одноканальной картинке, когда из каждого замера оставляли лишь те наблюдения, что фиксировались вблизи аппарата (рис. 5) и аугментации, объединяющие существующие таргеты, с последующей генерацией сейсмограммы с помощью FWI (рис. 6)
Что касается архитектур моделей - большинство использовали UNet с сегментационной головой, но это контр-интуитивно, так как задача ставится как перевод [метр; секунда] в [метр; метр] и пиксели инпута напрямую не связаны с пикселями таргета. В наших экспериментах мы хотели придумать что-то лучше unet, я пробовал seq2seq подход, где время и глубина сопоставлены друг другу, но сдался, когда понял, что при предсказании n+1 вектора декодер предсказывает текущий, так как по L1 он близок к следующему. Впрочем решение с первого место имеет за собой ту же логику отказа от unet сегментации и переход к регрессии на vision transformer (рис. 7). Интересное решение добавить единый линейный слой для энкодера и декодера, при этом объединяя только веса, не делая резидуал соединение
В итоге мы заняли 28 место, взяли серебро, каждая идея из топа витала где-то рядом, но многое не докрутили. Соревнование, как мне кажется, вышло продуктивным и в академическом плане. Датасет OpenFWI - общепринятый, в статьях все меряются на нём. Соты побиты, новые архитектуры и методы предложены. Учёным из области остаётся собрать сливки и оформить статьи
❤28✍9👍4
итак, я в Китае, до конца июля поработаю из Сучжоу, в августе поеду на межнар в Пекин, пока план такой. Месяц обещает быть богатым на посты, в этот раз я здесь один, разговаривать особенно не с кем, буду значит писать. Плюс остались истории с предыдущих поездок, хочу чтобы и до них руки дошли. Если кто в ближайшие три недели будет в Шанхае - пишите, можем встретиться, съездить куда-нибудь
❤22 9👍7