Sparse Hash AI – Telegram
Sparse Hash AI
134 subscribers
154 photos
257 videos
3 files
340 links
AI обогатительная разработка ML месторождений. Осторожно, в канале ведутся подрывные работы!

Персональный чат https://news.1rj.ru/str/sparsehash
Download Telegram
🔥 Formation of Representations in Neural Networks
https://arxiv.org/abs/2410.03006
https://www.alphaxiv.org/overview/2410.03006

В нейронных сетях независимо от архитектуры наблюдаются корреляции между тремя ключевыми компонентами: скрытыми представлениями (R), весами (W) и градиентами нейронов (G).

В статье представлены две гипотезы: Canonical Representation Hypothesis (CRH) и Polynomial Alignment Hypothesis (PAH). Вместе они обеспечивают комплексную основу для понимания формирования репрезентаций и соединения эмпирических наблюдений с теоретическими принципами.
Kawasaki Heavy Industries представила CORLEO - концепцию четвероногого водородного "мотоцикла".
🔥 NoProp: Training Neural Networks without Back-propagation or Forward-propagation
https://arxiv.org/abs/2503.24322
https://www.alphaxiv.org/overview/2503.24322

В данной статье предлагается NoProp - метод, который обучает слои сети независимо друг от друга, заставляя каждый слой учиться расшумлять зашумленную версию целевой метки, исключая прямой и обратный проходы.
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Компания Shanghai Fourier выпускает Fourier N1, компактного робота-гуманоида с открытым исходным кодом, ростом 1,3 метра и весом 38 килограммов. Он имеет 23 степени свободы и изготовлен из армированного алюминиевого сплава и инженерного пластика, сочетающего в себе прочность и гибкость. Оснащенный несущей батареей, он может непрерывно работать более 2 часов.
Сервисный робот Lingxi от China Mobile и прототип промышленного дроида Borg 01 от Borg Robotics.
Golden Ratio Weighting Prevents Model Collapse
https://arxiv.org/abs/2502.18049
https://www.alphaxiv.org/overview/2502.18049

Для предотвращения коллапса генеративной модели при обучении на смеси реальных и синтетических данных, они должны быть взяты в соотношении золотого сечения (Golden Ratio).

Когда модели обучаются исключительно на синтетических данных, сгенерированных предыдущими моделями, информация ухудшается с каждой итерацией, что в конечном итоге приводит к значительному ухудшению качества. В данной работе решается эта фундаментальная проблема путем разработки теоретически обоснованной стратегии смешивания, которая использует как вновь собранные реальные данные, так и синтетические данные.
What Textbooks Don't Tell You About Curve Fitting
https://www.youtube.com/watch?v=q7seckj1hwM

Откуда на самом деле происходит оптимизация квадрата ошибки? Из Гаусса.
👍3
ZClip: Adaptive Spike Mitigation for LLM Pre-Training
https://arxiv.org/abs/2504.02507
https://www.alphaxiv.org/ru/overview/2504.02507

Всплески потерь (loss spikes) — это внезапные, резкие увеличения потерь при обучении, которые могут нарушить обучение. Эти всплески часто связаны с большими нормами градиента.

ZClip эффективно смягчает выбросы потерь и достигает значительно более низких значений.
This media is not supported in your browser
VIEW IN TELEGRAM
Ночник-проводник до туалета посреди ночи.
🔥3