Тем временем на другом конце глобуса: https://www.whitehouse.gov/wp-content/uploads/2025/07/Americas-AI-Action-Plan.pdf
😢3🥴1
Занимались датасайнсом до того, как это стало мейнстримом. :)))))
https://en-m-wikipedia-org.translate.goog/wiki/Babylonian_astronomical_diaries
На картинке: Астрономический дневник, описывающий смерть Александра Македонского (Британский музей)
Вавилонские астрономические дневники представляют собой собрание вавилонских клинописных текстов, написанных на аккадском языке , которые содержат систематические записи астрономических наблюдений и политических событий, прогнозы, основанные на астрономических наблюдениях, сводки погоды и цены на товары, которые хранились на протяжении около 600 лет, примерно с 652 г. до н. э. по 61 г. до н. э.
Цены на товары включены для шести позиций (ячмень, финики, горчица ( cuscuta ), кресс-салат ( кардамон ), кунжут и шерсть) на определенные даты.
авилонские астрономы использовали свои наблюдения для составления прогнозов, в том числе предсказаний о погоде и будущих событиях.
В текстах можно обнаружить элементы математической астрономии, такие как использование сложных моделей для описания движения небесных тел
https://en-m-wikipedia-org.translate.goog/wiki/Babylonian_astronomical_diaries
На картинке: Астрономический дневник, описывающий смерть Александра Македонского (Британский музей)
Вавилонские астрономические дневники представляют собой собрание вавилонских клинописных текстов, написанных на аккадском языке , которые содержат систематические записи астрономических наблюдений и политических событий, прогнозы, основанные на астрономических наблюдениях, сводки погоды и цены на товары, которые хранились на протяжении около 600 лет, примерно с 652 г. до н. э. по 61 г. до н. э.
Цены на товары включены для шести позиций (ячмень, финики, горчица ( cuscuta ), кресс-салат ( кардамон ), кунжут и шерсть) на определенные даты.
авилонские астрономы использовали свои наблюдения для составления прогнозов, в том числе предсказаний о погоде и будущих событиях.
В текстах можно обнаружить элементы математической астрономии, такие как использование сложных моделей для описания движения небесных тел
👍5😁2🔥1
В процессе поиска литературы для своей статьи наткнулся на статью аж 2015-ого года https://arxiv.org/pdf/1412.6544 с более чем 600 цитированиями, где на примере MNIST и SGD на очень маленькой скорости показывалось, что локальных минимумов возможно и нет вдоль всей траектории обучения. "А мужики то и не знают!" (с)
И если я ношусь кругами как ужаленная Кассандра, то представляете, как себя чувствует товарищ, по фамилии "Хороший парень" - Goodfellow. Возможно уже убил себя фейспалмом...
Шучу, конечно, всё у него хорошо, работает в дипмайнде и регулярно публикуется, является первым автором статьи про состязательные генеративные сети у которой 100448 цитирований. Я раньше даже не знал, что так может быть...
И если я ношусь кругами как ужаленная Кассандра, то представляете, как себя чувствует товарищ, по фамилии "Хороший парень" - Goodfellow. Возможно уже убил себя фейспалмом...
Шучу, конечно, всё у него хорошо, работает в дипмайнде и регулярно публикуется, является первым автором статьи про состязательные генеративные сети у которой 100448 цитирований. Я раньше даже не знал, что так может быть...
😁6👍4🤣2
Forwarded from Data Secrets
👾Самое время собрать свою команду из IT-акул: Открыта регистрация на самый масштабный онлайн-хакатон в мире!
💸 40 млн рублей призового фонда:
— 1 млн рублей — для тех, кто займёт первое место
— 600 тысяч — второе
— 400 тысяч — третье
💼 20 актуальных задач от ведущих компаний страны: Газпромбанк.Тех, VK Tech, Kaspersky, АФЛТ-Системс (Группа «Аэрофлот»), Союзмультфильм, Avito, Итэлма.
⏳ 14 дней на разработку решений
Принять участие могут:
✔️ граждане РФ и других стран от 18 лет
✔️ специализация: Front / Back / FullStack, Web-разработчика, UX / UI дизайнеры, Product / Project-менеджеры, Data Scientists, Data Engineers, аналитики и другие специалисты
✔️ местоположение — неважно, всё проходит онлайн
Других ограничений нет!
📅 Успейте зарегистрироваться до 18 сентября!
Регистрация по ссылке 👉🏻 https://i.moscow/lct?utm_source=sp&utm_medium=social&utm_campaign=data_secrets/?erid=2VtzquwvRUn
📲 А больше новостей и подробностей — на нашем канале, подписывайтесь: https://news.1rj.ru/str/leaders_hack
💸 40 млн рублей призового фонда:
— 1 млн рублей — для тех, кто займёт первое место
— 600 тысяч — второе
— 400 тысяч — третье
💼 20 актуальных задач от ведущих компаний страны: Газпромбанк.Тех, VK Tech, Kaspersky, АФЛТ-Системс (Группа «Аэрофлот»), Союзмультфильм, Avito, Итэлма.
⏳ 14 дней на разработку решений
Принять участие могут:
✔️ граждане РФ и других стран от 18 лет
✔️ специализация: Front / Back / FullStack, Web-разработчика, UX / UI дизайнеры, Product / Project-менеджеры, Data Scientists, Data Engineers, аналитики и другие специалисты
✔️ местоположение — неважно, всё проходит онлайн
Других ограничений нет!
📅 Успейте зарегистрироваться до 18 сентября!
Регистрация по ссылке 👉🏻 https://i.moscow/lct?utm_source=sp&utm_medium=social&utm_campaign=data_secrets/?erid=2VtzquwvRUn
📲 А больше новостей и подробностей — на нашем канале, подписывайтесь: https://news.1rj.ru/str/leaders_hack
img4764.png
249.5 KB
Ну наконец-то: accuracy tensor(1.)
И вместе с тем исчезает последняя отмазка почему бы можно было что-то ещё откладывать...
И вместе с тем исчезает последняя отмазка почему бы можно было что-то ещё откладывать...
🔥6👏1
В той задачке, на которой я так люблю гонять гроккинг чтобы каждой входной паре соответствовало одно выходное значение база должна быть простым числом, потому что если нет, картинка получается не такой, как на первой картинке, а такой как на второй. и одной и той же паре входных значений могут соответствовать совсем разные выходные значения, а некоторые пары во входных данных никогда не встречаются. Кажется это на много больше похоже на реальные задачи, и когда будет время обязательно надо будет попробовать посмотреть что все эти хвалёные алгоритмы гроккинга смогут сделать в такой ситуации.
🤔3👀1
Так вот откуда ноги растут, оказывается!!!!
Изучая внимательнее уже ранее упоминаdшуюся статью https://arxiv.org/abs/1412.6544 про отсутствие локальных минимумов,, по ссылкам наткнулся на статью того же самого Яна Гудфелоу https://arxiv.org/abs/1302.4389 В которой он вводит функцию активации maxout, в которой из нескольких функций выьирается только одна максимальная. Чуете, softmax-ом повеяло? Так вот в своей статье про несуществование локальных максимумов, которую он упоминал до этого, он пишет, что только в сети с этой функцией активации он встретил ситуацию, которую он описывает буквально следующими словами:
Естественно я тригернулся. Интересно, что две разные сети, которые я просил пересказать мне статью, полностью игнорировали этот фрагмент и после того как я попросил их ответить что нарисовано на картинках 18 и 19 и когда спросил что в статье сказано про maxout продолжали утверждать, что у него всё точно так же как в основной статье. И только после вопроса "А что же тогда описано в этой фразе?" вдруг прозревали. Кто-нибудь у кого Notebook ML установлен проверьте, сумеет он заметить это? Всё это большое напоминание о том, в чем заключается огромная уязвимость нынешних сетей для резюмирования, Они могут благополучно пропустить единственный нюанс, который все меняет, вместо этого доверившись средней температуре по палате. В принципе та же проблема, что и раньше, когда из текстов для классификации выкидывали стоп-слова включая "не".
В общем и целом это может указывать, что такой тип рельефа, с очень узким каньоном, характерен скорее для трансформеров, нежелили для сетей вообще, что тоже неплохо, учитывая их распространенность в наше время.
Изучая внимательнее уже ранее упоминаdшуюся статью https://arxiv.org/abs/1412.6544 про отсутствие локальных минимумов,, по ссылкам наткнулся на статью того же самого Яна Гудфелоу https://arxiv.org/abs/1302.4389 В которой он вводит функцию активации maxout, в которой из нескольких функций выьирается только одна максимальная. Чуете, softmax-ом повеяло? Так вот в своей статье про несуществование локальных максимумов, которую он упоминал до этого, он пишет, что только в сети с этой функцией активации он встретил ситуацию, которую он описывает буквально следующими словами:
Однако для сети Maxout, обученной с помощью противоборствующих алгоритмов, мы обнаружили, что препятствие небольшой высоты, но очень крутое, загоняет SGD в узкий каньон, не давая ему доступа к подпространству, изучаемому в основном тексте данной статьи (рис. 18 и рис. 19).
Естественно я тригернулся. Интересно, что две разные сети, которые я просил пересказать мне статью, полностью игнорировали этот фрагмент и после того как я попросил их ответить что нарисовано на картинках 18 и 19 и когда спросил что в статье сказано про maxout продолжали утверждать, что у него всё точно так же как в основной статье. И только после вопроса "А что же тогда описано в этой фразе?" вдруг прозревали. Кто-нибудь у кого Notebook ML установлен проверьте, сумеет он заметить это? Всё это большое напоминание о том, в чем заключается огромная уязвимость нынешних сетей для резюмирования, Они могут благополучно пропустить единственный нюанс, который все меняет, вместо этого доверившись средней температуре по палате. В принципе та же проблема, что и раньше, когда из текстов для классификации выкидывали стоп-слова включая "не".
В общем и целом это может указывать, что такой тип рельефа, с очень узким каньоном, характерен скорее для трансформеров, нежелили для сетей вообще, что тоже неплохо, учитывая их распространенность в наше время.
❤1
Forwarded from Reliable ML
Causal Inference Workshop #1
Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).
Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.
Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.
Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.
Ваш @Reliable ML
#reliable_ml #causal_inference #workshop
Всем привет! Мы запускаем серию воркшопов по анализу причинно-следственных связей (causal inference).
Формат - академическая пара, онлайн, будем разбирать по одной теме за раз.
Каждое занятие будет разбирать одну практическую тему,
Первое занятие - 27.10.2025 с 12:00 до 14:00 мск.
Тема: "Введение в Causal Inference. Причинно-следственные связи без А/Б тестов. Ортогонализация"
Разберем базовые понятия Causal Inference, несколько примеров "как делать не надо" и одну простую технику, как можно делать.
У участников останутся ноутбуки с примерами и инструкциями, можно будет задать свои вопросы.
Занятия бесплатные. Записи в открытом доступе не будет. Технического ограничения на размер группы нет, но в слишком большой группе никто не успеет ничего спросить, поэтому в какой-то момент набор закроем.
Чтобы записаться, пишите в комментариях к этому посту - зачем вам изучать Causal Inference. Будем добавлять в закрытый канал воркшопа.
Ваш @Reliable ML
#reliable_ml #causal_inference #workshop
🙏3
Мысль, внезапно, о мульти-агентных системах.
Интеллект ангента правильнее сравнивать и развивать не как интеллект человека, а как интеллект муравья, изначально оптимихированный для решения сложных задач коллективно, и имеющий инструкции вида "стимул-действие", которые скаладываются в поведение только когда они собираются толпой. Ну или под влиянием планеровщиков. Интересно тут то, что чтобы превззойти людей в некотоырх задачах муравьям достаточно несколько сотен тысяч нейронов. А ещё можно автоматизировать обучение если ПОручить промптинг агентов поручить планеровщику, который будет раз за разом добавлять, убавлять или модифицировать агентов наблюдая за достигнутым результатом. И это будет сильно быстрее случайно эволюции потому что планировщик не дурак, и может делать обоснованные предположения что можно попробовать исправлять и как.
Навёл на мысль вот этот ролик: https://www.youtube.com/watch?v=UfovlMWpxXw&t=1111s
Интеллект ангента правильнее сравнивать и развивать не как интеллект человека, а как интеллект муравья, изначально оптимихированный для решения сложных задач коллективно, и имеющий инструкции вида "стимул-действие", которые скаладываются в поведение только когда они собираются толпой. Ну или под влиянием планеровщиков. Интересно тут то, что чтобы превззойти людей в некотоырх задачах муравьям достаточно несколько сотен тысяч нейронов. А ещё можно автоматизировать обучение если ПОручить промптинг агентов поручить планеровщику, который будет раз за разом добавлять, убавлять или модифицировать агентов наблюдая за достигнутым результатом. И это будет сильно быстрее случайно эволюции потому что планировщик не дурак, и может делать обоснованные предположения что можно попробовать исправлять и как.
Навёл на мысль вот этот ролик: https://www.youtube.com/watch?v=UfovlMWpxXw&t=1111s
YouTube
ШРИНКФЛЯЦИЯ КОНСОЛЕЙ. Playstation 6 - свежие подробности. Sony не хочет на ПК. Фотореализм вредит
Скидка 20% на кронштейны REXANT по промокоду MAKARENKOFF до 30.09.2025
Купить на Ozon: https://clck.ru/3PHXup
Реклама. ООО «СДС». ИНН: 7734425377, erid:2VtzqwpMxUk
Алексей Макаренков разбирает новости про консоль нового поколения от Sony - Playstation 6.…
Купить на Ozon: https://clck.ru/3PHXup
Реклама. ООО «СДС». ИНН: 7734425377, erid:2VtzqwpMxUk
Алексей Макаренков разбирает новости про консоль нового поколения от Sony - Playstation 6.…
❤1👍1🔥1
Клим Жуков
Не сходи с ума, ИИ ⚠️ Что один из создателей нейросети никогда бы ей не доверил? Смотрите откровение Сергея Маркова, который знает все о возможных рисках Слушайте подкасты проекта «За ширмой тысячного ли»: https://music.yandex.ru/album/27479854 #ЗаШирмойТысячногоЛи…
Обычно я стараюсь не особо постить не тематическое, но тут просто комба из блогеров. Марков с Климом Жуковым
Примерно с 2015-ого года, когда я впервые познакомился с алгоритмом коррекции ошибок Розенблатта мне не давала покоя мысль, что что-то такое же можно сделать с действительными числами. Даже делал некоторые самостоятельные эксперименты, в ходе которых сталкивался с некоторыми небольшими трудностями. Очевидно не одного меня эта мысль не давала покоя. Вот статья товарища, у которого чесались руки за 12 лет до меня с прекрасным названием. :)
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585.
Когда-то, когда ещё было не очевидно, что все мы умрём на рабочем месте, я думал, что буду на пенсии играть во все отложенные на потом игрушки древнейших времён. Но оказываается, что я буду воспроизводить отложенные на потом алгоритмы древнейших времён. :))) На сладкое - краткий пересказ статьи от дипсика, наверняка упустивший в статье самое главное. :)
Статья "Online Passive-Aggressive Algorithms" (2006) представляет собой фундаментальную работу, в которой представлено семейство алгоритмов онлайн-обучения для различных задач прогнозирования
.
🎯 Основная идея и подход
Авторы предлагают единую модель для создания алгоритмов онлайн-обучения для классификации, регрессии и других задач
Ключевая идея заключается в специальном правиле обновления модели при поступлении новых данных:
Пассивное поведение: Если текущая модель правильно классифицирует новый пример данных (с достаточным запасом), её параметры не изменяются
Агрессивное поведение: Если модель допускает ошибку, её параметры агрессивно обновляются. Это обновление представляет собой решение строгой задачи оптимизации: скорректировать веса ровно настолько, чтобы исправить ошибку для текущего примера, но при этом минимизировать изменение модели по сравнению с предыдущим состоянием
Этот формализованный подход позволяет алгоритмам быстро адаптироваться к новым данным и эффективно работать с большими потоками информации
📊 Значение и применение
Эффективность для больших данных: Алгоритмы идеально подходят для работы с крупномасштабными или непрерывно поступающими данными, так как не требуют хранения всего набора данных в памяти и производят быстрые инкрементальные обновления
Теоретическое обоснование: Для предложенных алгоритмов доказаны границы cumulative loss (суммарных потерь) в сравнении с наилучшим фиксированным решением, что гарантирует их надежность
Универсальность: Единый подход применяется к широкому спектру задач, включая бинарную и многоклассовую классификацию, регрессию и прогнозирование последовательностей
Crammer, Koby, Ofer Dekel, Joseph Keshet, Shai Shalev-Shwartz and Yoram Singer. “Online Passive-Aggressive Algorithms.” J. Mach. Learn. Res. 7 (2003): 551-585.
Когда-то, когда ещё было не очевидно, что все мы умрём на рабочем месте, я думал, что буду на пенсии играть во все отложенные на потом игрушки древнейших времён. Но оказываается, что я буду воспроизводить отложенные на потом алгоритмы древнейших времён. :))) На сладкое - краткий пересказ статьи от дипсика, наверняка упустивший в статье самое главное. :)
Статья "Online Passive-Aggressive Algorithms" (2006) представляет собой фундаментальную работу, в которой представлено семейство алгоритмов онлайн-обучения для различных задач прогнозирования
.
🎯 Основная идея и подход
Авторы предлагают единую модель для создания алгоритмов онлайн-обучения для классификации, регрессии и других задач
Ключевая идея заключается в специальном правиле обновления модели при поступлении новых данных:
Пассивное поведение: Если текущая модель правильно классифицирует новый пример данных (с достаточным запасом), её параметры не изменяются
Агрессивное поведение: Если модель допускает ошибку, её параметры агрессивно обновляются. Это обновление представляет собой решение строгой задачи оптимизации: скорректировать веса ровно настолько, чтобы исправить ошибку для текущего примера, но при этом минимизировать изменение модели по сравнению с предыдущим состоянием
Этот формализованный подход позволяет алгоритмам быстро адаптироваться к новым данным и эффективно работать с большими потоками информации
📊 Значение и применение
Эффективность для больших данных: Алгоритмы идеально подходят для работы с крупномасштабными или непрерывно поступающими данными, так как не требуют хранения всего набора данных в памяти и производят быстрые инкрементальные обновления
Теоретическое обоснование: Для предложенных алгоритмов доказаны границы cumulative loss (суммарных потерь) в сравнении с наилучшим фиксированным решением, что гарантирует их надежность
Универсальность: Единый подход применяется к широкому спектру задач, включая бинарную и многоклассовую классификацию, регрессию и прогнозирование последовательностей
🔥5
Когда оставил сетку на ночь сжиматься, а она и не против:
wdw_positive_loss_reduction_1,37e-06:
step: 23500
train loss: 1.248498797416687
val loss: 1.3833754062652588
best val loss: 1.328853964805603
ppl: 4.375
zeros: 99.43%/x174.4/zeros:10,683,490 active:61,598
Бейзлайн для сравнения:
basic:
step: 2750
train loss: 1.0932060480117798
val loss: 1.4427303075790405
ppl: 4.21875
Сетка - очень мальенький GPT-2 с 6 головами, 6 слоями, и 348 эмбедингом, датасет - tinyshakespeare.
Хоть и маленькая и игрушечная, но вполне себе языковая задача.
P.S. Самые внимательные могут заметить, что валидейшен loss стал заметно лучше, а перплексия на том же валидейшене - хуже.
wdw_positive_loss_reduction_1,37e-06:
step: 23500
train loss: 1.248498797416687
val loss: 1.3833754062652588
best val loss: 1.328853964805603
ppl: 4.375
zeros: 99.43%/x174.4/zeros:10,683,490 active:61,598
Бейзлайн для сравнения:
basic:
step: 2750
train loss: 1.0932060480117798
val loss: 1.4427303075790405
ppl: 4.21875
Сетка - очень мальенький GPT-2 с 6 головами, 6 слоями, и 348 эмбедингом, датасет - tinyshakespeare.
Хоть и маленькая и игрушечная, но вполне себе языковая задача.
P.S. Самые внимательные могут заметить, что валидейшен loss стал заметно лучше, а перплексия на том же валидейшене - хуже.
👍4
Лучше всего даже чуть раньше остановится:
step: 21750
train loss: 1.2251079082489014
val loss: 1.3634604215621948
best val loss: 1.328853964805603
ppl: 4.28125
zeros: 99.38%/x160.4/zeros:10,678,087 active:67,001
step: 21750
train loss: 1.2251079082489014
val loss: 1.3634604215621948
best val loss: 1.328853964805603
ppl: 4.28125
zeros: 99.38%/x160.4/zeros:10,678,087 active:67,001
🔥2