Forwarded from Спутник ДЗЗ
Глобальная ансамблевая цифровая модель рельефа GEDTM30
Глобальная ансамблевая цифровая модель рельефа (ЦМР) с пространственным разрешением 30 м, GEDTM30, (Global Ensemble Digital Terrain Model 30 m) создана при помощи ЦМР Copernicus, ALOS World3D и модели высот объектов в рамках подхода слияния данных. В рамках глобально-локальной модели трансферного обучения с чередованием 5°×5° использовались глобально распределенные наборы лидарных данных: ICESat-2 ATL08 (наилучшая высота местности) и GEDI02 (наименьшая высота — lowest mode elevation), насчитывающие в общей сложности более 30 миллиардов обучающих точек. Первоначально была подобрана глобальная модель с использованием ICESat-2 и GEDI, а затем локальные оптимизированные модели для каждого тайла, обеспечивающие как глобальную согласованность, так и локальную точность.
Независимая проверка показала, что GEDTM30 снижает среднеквадратичную ошибку (RMSE) ЦМР Copernicus примерно на 25,4% в районах городской застройки, на 10,0% в районах с 10–50% древесного покрова и на 27,3% в районах с более чем 50% древесного покрова. По сравнению с современными ЦМР (MERIT DEM, FABDEM и FathomDEM), GEDTM30 достигает наименьших вертикальных ошибок при оценке с помощью записей GNSS-станций, что дает стандартное отклонение 7,77 м, RMSE 10,69 м и среднюю ошибку 7,34 м.
Затем GEDTM30 использовалась для расчета 15 стандартных параметров поверхности земли — топографии и гидрологии — в шести масштабах (30, 60, 120, 240, 480 и 960 м).
Весь рабочий процесс был реализован на языке Python с использованием GDAL и Whitebox Workflows.
Данные и код GEDTM30 находятся в открытом доступе в виде облачно оптимизированных GeoTIFF
🔗 Скачать GEDTM30 на Zenodo
🖥 Код для создания GEDTM30 на GitHub
📖 Методика создания GEDTM30
🙏 Благодарим за наводку Евгения Матерова, ведущего тг-канал Наука и данные.
#DEM #данные
Глобальная ансамблевая цифровая модель рельефа (ЦМР) с пространственным разрешением 30 м, GEDTM30, (Global Ensemble Digital Terrain Model 30 m) создана при помощи ЦМР Copernicus, ALOS World3D и модели высот объектов в рамках подхода слияния данных. В рамках глобально-локальной модели трансферного обучения с чередованием 5°×5° использовались глобально распределенные наборы лидарных данных: ICESat-2 ATL08 (наилучшая высота местности) и GEDI02 (наименьшая высота — lowest mode elevation), насчитывающие в общей сложности более 30 миллиардов обучающих точек. Первоначально была подобрана глобальная модель с использованием ICESat-2 и GEDI, а затем локальные оптимизированные модели для каждого тайла, обеспечивающие как глобальную согласованность, так и локальную точность.
Независимая проверка показала, что GEDTM30 снижает среднеквадратичную ошибку (RMSE) ЦМР Copernicus примерно на 25,4% в районах городской застройки, на 10,0% в районах с 10–50% древесного покрова и на 27,3% в районах с более чем 50% древесного покрова. По сравнению с современными ЦМР (MERIT DEM, FABDEM и FathomDEM), GEDTM30 достигает наименьших вертикальных ошибок при оценке с помощью записей GNSS-станций, что дает стандартное отклонение 7,77 м, RMSE 10,69 м и среднюю ошибку 7,34 м.
Затем GEDTM30 использовалась для расчета 15 стандартных параметров поверхности земли — топографии и гидрологии — в шести масштабах (30, 60, 120, 240, 480 и 960 м).
Весь рабочий процесс был реализован на языке Python с использованием GDAL и Whitebox Workflows.
Данные и код GEDTM30 находятся в открытом доступе в виде облачно оптимизированных GeoTIFF
🔗 Скачать GEDTM30 на Zenodo
🖥 Код для создания GEDTM30 на GitHub
📖 Методика создания GEDTM30
🙏 Благодарим за наводку Евгения Матерова, ведущего тг-канал Наука и данные.
#DEM #данные
👍3
«С момента своего основания Соединенные Штаты были технологической республикой, чье место в мире стало возможным благодаря инновациям. Однако современное преимущество нельзя воспринимать как должное. Победы в войнах выигрывались благодаря общей культуре, и будущее будет зависеть от того, будет ли культура инноваций поддерживать государственные цели. Мы должны использовать новейшие формы ИИ, иначе наши противники могут опередить нас. В этой новой эпохе передового ИИ важен союз между технологической индустрией и государством, чтобы сохранить благосостояние и легитимность демократического проекта.»
Александр С. Карп, Николас В. Замиска Технологическая республика
Александр С. Карп, Николас В. Замиска Технологическая республика
👍5
Forwarded from Роскосмос
Космическая система «Ресурс-П» предназначена для дистанционного зондирования Земли в видимом и ближнем инфракрасном диапазонах, её целевая информация используется для мониторинга природных ресурсов, районов ЧС, создания и обновления карт, контроля загрязнения окружающей среды, оценки ледовой обстановки и т.д.
«Ресурс-П» № 5 запущен с космодрома Байконур 25 декабря 2024 года: с тех пор спутник проходил лётные испытания — была протестирована и отлажена работа съёмочной аппаратуры.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Forwarded from Журнал "Все о Космосе" (Denis Albin)
Космические силы США готовят серию экспериментов по испытанию технологий дозаправки спутников на орбите, выдвигая коммерческих конкурентов на передний план зарождающегося сектора космической индустрии.
Планируемые демонстрации, известные как Tetra-5 и Tetra-6, будут оценивать оборудование для дозаправки от компаний Astroscale, Northrop Grumman и Orbit Fab — ключевых игроков на рынке орбитального пополнения запасов топлива.
Эти эксперименты рассматриваются как важный шаг к созданию устойчивой коммерческой системы дозаправки в космосе. «Tetra-5 подтвердит работоспособность интерфейса и масштабируемость коммерческой архитектуры дозаправки», — заявил представитель Космического командования США в комментарии для SpaceNews.
Изначально, в 2022 году, проект планировался как один эксперимент стоимостью 44,5 миллиона долларов с запуском в 2025 году. Однако теперь он разделен на две отдельные миссии: Tetra-5, запуск которой намечен на 2026 год, и Tetra-6, запланированную на 2027 год.
В рамках миссии Tetra-5 на орбиту будут выведены два небольших спутника, оснащенных системой RAFTI (Rapidly Attachable Fluid Transfer Interface) от компании Orbit Fab — специализированным клапаном, позволяющим выполнять заправку топливом на орбите.
Один из спутников попытается состыковаться с топливным депо Orbit Fab, разработанным при поддержке Пентагона через Управление инноваций в оборонной сфере (Defense Innovation Unit). Второй протестирует совместимость с топливным челноком компании Astroscale U.S., который создается в партнерстве с отделом обслуживания, мобильности и логистики Космического командования США.
Годом позже, в 2027 году, в рамках миссии Tetra-6 будет испытан модуль пассивной дозаправки PRM (Passive Refueling Module) от Northrop Grumman, также разработанный при поддержке Defense Innovation Unit. В ходе эксперимента на орбиту будет выведен спутник, оснащенный интерфейсом PRM, который попытается состыковаться с танкером ROOSTER-5 (Rapid On-orbit Space Technology Evaluation Ring) от Northrop Grumman.
Этот эксперимент является частью разработки орбитального топливного танкера GAS-T (Geosynchronous Auxiliary Support Tanker), который будет построен на базе спутниковой платформы ESPAStar D.
Космическое командование США заявило, что системы дозаправки RAFTI и PRM признаны «приемлемыми коммерческими решениями для пополнения запасов топлива на орбите».
Помимо разработчиков оборудования для дозаправки, в миссиях Tetra участвует ряд других подрядчиков. Компания Arcfield выступает в роли интегратора спутников, а Redwire поставляет спутниковые платформы. Управление обоими проектами будет осуществляться Космическим командованием.
Для Космических сил США эти эксперименты предоставят важные данные для оценки жизнеспособности новой отрасли орбитальной логистики. Ведомство также хочет понять, смогут ли коммерческие компании создать устойчивые бизнес-модели без постоянных государственных субсидий.
Хотя представители Космических сил выражают заинтересованность в использовании коммерческих услуг дозаправки, им сначала необходимо убедиться, что технология надежно работает в сложных условиях космоса.
По мнению компаний, работающих в этой области, дозаправка на орбите может кардинально изменить космические операции, продлевая срок службы спутников, обеспечивая большую оперативную гибкость и снижая затраты на замену устаревших аппаратов.
https://spacenews.com/space-force-to-test-satellite-refueling-technologies-in-orbit/
Планируемые демонстрации, известные как Tetra-5 и Tetra-6, будут оценивать оборудование для дозаправки от компаний Astroscale, Northrop Grumman и Orbit Fab — ключевых игроков на рынке орбитального пополнения запасов топлива.
Эти эксперименты рассматриваются как важный шаг к созданию устойчивой коммерческой системы дозаправки в космосе. «Tetra-5 подтвердит работоспособность интерфейса и масштабируемость коммерческой архитектуры дозаправки», — заявил представитель Космического командования США в комментарии для SpaceNews.
Изначально, в 2022 году, проект планировался как один эксперимент стоимостью 44,5 миллиона долларов с запуском в 2025 году. Однако теперь он разделен на две отдельные миссии: Tetra-5, запуск которой намечен на 2026 год, и Tetra-6, запланированную на 2027 год.
В рамках миссии Tetra-5 на орбиту будут выведены два небольших спутника, оснащенных системой RAFTI (Rapidly Attachable Fluid Transfer Interface) от компании Orbit Fab — специализированным клапаном, позволяющим выполнять заправку топливом на орбите.
Один из спутников попытается состыковаться с топливным депо Orbit Fab, разработанным при поддержке Пентагона через Управление инноваций в оборонной сфере (Defense Innovation Unit). Второй протестирует совместимость с топливным челноком компании Astroscale U.S., который создается в партнерстве с отделом обслуживания, мобильности и логистики Космического командования США.
Годом позже, в 2027 году, в рамках миссии Tetra-6 будет испытан модуль пассивной дозаправки PRM (Passive Refueling Module) от Northrop Grumman, также разработанный при поддержке Defense Innovation Unit. В ходе эксперимента на орбиту будет выведен спутник, оснащенный интерфейсом PRM, который попытается состыковаться с танкером ROOSTER-5 (Rapid On-orbit Space Technology Evaluation Ring) от Northrop Grumman.
Этот эксперимент является частью разработки орбитального топливного танкера GAS-T (Geosynchronous Auxiliary Support Tanker), который будет построен на базе спутниковой платформы ESPAStar D.
Космическое командование США заявило, что системы дозаправки RAFTI и PRM признаны «приемлемыми коммерческими решениями для пополнения запасов топлива на орбите».
Помимо разработчиков оборудования для дозаправки, в миссиях Tetra участвует ряд других подрядчиков. Компания Arcfield выступает в роли интегратора спутников, а Redwire поставляет спутниковые платформы. Управление обоими проектами будет осуществляться Космическим командованием.
Для Космических сил США эти эксперименты предоставят важные данные для оценки жизнеспособности новой отрасли орбитальной логистики. Ведомство также хочет понять, смогут ли коммерческие компании создать устойчивые бизнес-модели без постоянных государственных субсидий.
Хотя представители Космических сил выражают заинтересованность в использовании коммерческих услуг дозаправки, им сначала необходимо убедиться, что технология надежно работает в сложных условиях космоса.
По мнению компаний, работающих в этой области, дозаправка на орбите может кардинально изменить космические операции, продлевая срок службы спутников, обеспечивая большую оперативную гибкость и снижая затраты на замену устаревших аппаратов.
https://spacenews.com/space-force-to-test-satellite-refueling-technologies-in-orbit/
SpaceNews
Space Force to test satellite refueling technologies in orbit
Space Force to test satellite refueling technologies in orbit Space Force to test satellite refueling technologies in orbit
🤔4👍1
«Перси Уильямс Бриджмен, физик, учивший Оппенгеймера в Гарварде, сформулировал точку зрения многих своих коллег, написав: "Ученые не несут ответственности за то, что существуют в природе. Их работа - исследовать. С этим не связано никакого греха - никакой морали". Ученый, в таком случае не аморален, а скорее внеморален, существуя вне или, возможно, до точки морального поиска. Этой точки зрения до сих пор придерживаются многие молодые инженеры в Кремниевой долине. Поколение программистов по-прежнему готово посвятить свою трудовую жизнь удовлетворению потребностей капиталистической культуры и обогащению, но отказывается задавать более фундаментальные вопросы о том, что и для чего должно быть создано.»
Александр С. Карп, Николас В. Замиска Технологическая республика
Александр С. Карп, Николас В. Замиска Технологическая республика
👍4
«Сейчас, спустя почти восемьдесят лет после изобретения атомной бомбы, мы находимся на аналогичном перепутье в науке о вычислениях, перепутье, соединяющем технику и этику, где нам снова придется выбирать, продолжать ли развитие технологии, мощь и потенциал которой мы еще не до конца осознаем. Перед нами стоит выбор: сдерживать или даже остановить развитие самых передовых форм искусственного интеллекта, который может угрожать нам и однажды просто вытеснить человеческий мозг, или позволить более свободные эксперименты с технологией, которая потенциально может сформировать международную политику этого века так же, как ядерное оружие сформировало прошлый.»
Александр С. Карп, Николас В. Замиска Технологическая республика
Александр С. Карп, Николас В. Замиска Технологическая республика
🤔4🔥2
Forwarded from Маленький Человек (Иван Добролюбов)
Разработка техники орбитальных войн идет полным ходом.
Занимается этим далеко не только военно-космическая корпорация СпейсМ. Отдельные компоненты единого плана выдаются на разработку другим "частникам" по той же схеме - вот вам деньги, вот вам научные данные, вот вам ваши будущие производственники, вот вам будущие средства выведения.
Вы, главное, погромче кричите про успехи частной космонавтики!
В данном случае - некая компания "Гравитикс" легализует разработку кластерного запуска военных спутников. С характерной формой "контейнера", заточенной под известную программу Военно-Космических сил США Rocket Cargo, более известную под "легализованным" названием СтарШип.
Доставляться будут, естественно, продукция еще какого-нибудь "частника", с руководством из бывших и действующих генералов.
Вот такая схема - везде одни частники, на выходе - очередное оружие.
В данном случае - возможность вывести в одну из плоскостей орбиты целый рой ударных космических аппаратов с широкими возможностями по маневрированию.
В ближайшие годы мы явно увидим еще не одну "полезную нагрузку" для системы Rocket Cargo.
Все, естественно, строго ради освоения Марса!
А вчерашняя ссылка на трансляцию вылилась в какое-то позорище. Не знаю, кто этим занимается, но - в трансляцию залетают какие-то школьники, включают песни, показывают жопы и прочее и прочее. Академика не слышно, троллящих школьников - прекрасно.
Судя по всему админу трансляции больше лет, чем восьмидесятилетним докладчикам. Или ему просто пофигу на свое дело, он для галочки ссылку выложил.
К сожалению - для всех, кто хотел что-то узнать по трансляции, не приезжая на место - мероприятие провалено.
А вы еще спрашиваете, почему у русского космоса все идет не так, как хочется...
Сделать трансляцию в Телемосте, где у всех есть права, не приглушить никого по голосу, оставить всем возможность выкладывать видео и просто забить болт на какое-то администрирование - это просто финиш. Это надо вообще не понимать, что такое интернет и как он работает. Тотально.
Глубоко разочарован полнейшим непрофессионализмом организаторов.
Лекции академиков по радиационной безопасности, разработке посадочных марсианских систем и прочему и прочему послушать и посмотреть оказалось невозможно.
👨🏼💻Маленький человек🚶🏼
Занимается этим далеко не только военно-космическая корпорация СпейсМ. Отдельные компоненты единого плана выдаются на разработку другим "частникам" по той же схеме - вот вам деньги, вот вам научные данные, вот вам ваши будущие производственники, вот вам будущие средства выведения.
Вы, главное, погромче кричите про успехи частной космонавтики!
В данном случае - некая компания "Гравитикс" легализует разработку кластерного запуска военных спутников. С характерной формой "контейнера", заточенной под известную программу Военно-Космических сил США Rocket Cargo, более известную под "легализованным" названием СтарШип.
Доставляться будут, естественно, продукция еще какого-нибудь "частника", с руководством из бывших и действующих генералов.
Вот такая схема - везде одни частники, на выходе - очередное оружие.
В данном случае - возможность вывести в одну из плоскостей орбиты целый рой ударных космических аппаратов с широкими возможностями по маневрированию.
В ближайшие годы мы явно увидим еще не одну "полезную нагрузку" для системы Rocket Cargo.
Все, естественно, строго ради освоения Марса!
А вчерашняя ссылка на трансляцию вылилась в какое-то позорище. Не знаю, кто этим занимается, но - в трансляцию залетают какие-то школьники, включают песни, показывают жопы и прочее и прочее. Академика не слышно, троллящих школьников - прекрасно.
Судя по всему админу трансляции больше лет, чем восьмидесятилетним докладчикам. Или ему просто пофигу на свое дело, он для галочки ссылку выложил.
К сожалению - для всех, кто хотел что-то узнать по трансляции, не приезжая на место - мероприятие провалено.
А вы еще спрашиваете, почему у русского космоса все идет не так, как хочется...
Сделать трансляцию в Телемосте, где у всех есть права, не приглушить никого по голосу, оставить всем возможность выкладывать видео и просто забить болт на какое-то администрирование - это просто финиш. Это надо вообще не понимать, что такое интернет и как он работает. Тотально.
Глубоко разочарован полнейшим непрофессионализмом организаторов.
Лекции академиков по радиационной безопасности, разработке посадочных марсианских систем и прочему и прочему послушать и посмотреть оказалось невозможно.
👨🏼💻Маленький человек🚶🏼
🤔3
Forwarded from Журнал "Все о Космосе" (Denis Albin)
Slingshot Aerospace, компания, специализирующаяся на анализе данных о космосе, получила контракт от программы AFWERX ВВС США на доработку технологии «отпечатков» спутников с помощью фотометрических данных и искусственного интеллекта. Контракт, заключенный в рамках программы SBIR (Small Business Innovation Research) фазы 2, направлен на развитие методов идентификации спутников и анализа их поведения на орбите, сообщили в компании 2 апреля.
Метод фотометрических отпечатков основан на анализе световых кривых — изменений яркости спутника со временем. Эти данные зависят от формы, материалов и ориентации аппарата относительно Солнца и наблюдателя на Земле. Анализируя такие параметры, Slingshot может:
классифицировать спутники,
выявлять аномалии,
отслеживать объекты на низкой околоземной орбите.
Slingshot заявляет, что обладает одной из крупнейших баз фотометрических данных, отслеживая около 14 500 активных спутников и объектов космического мусора. Сеть датчиков компании ежедневно фиксирует более 4,5 миллиона фотометрических наблюдений, уточняя и расширяя цифровые отпечатки космических объектов.
Космическое командование США, контролирующее военные операции на орбите, является ключевым заказчиком технологии. Фотометрические отпечатки помогут:
обнаруживать неожиданные маневры вражеских спутников,
идентифицировать новые иностранные аппараты,
восстанавливать слежение за утерянными объектами.
Особенно это важно в случаях, когда противник пытается замаскировать функции спутника или изменить орбиту, чтобы избежать обнаружения.
Что дальше?В рамках 12-месячного контракта Slingshot Aerospace интегрирует технологию фотометрических отпечатков с собственной системой Agatha AI, которая анализирует поведение спутников и выявляет аномалии в больших группировках.
Финансовые условия сделки не раскрываются, но тот факт, что контракт сразу перешел ко второй фазе SBIR, говорит о высокой степени готовности технологии.
https://spacenews.com/slingshot-adapting-satellite-fingerprinting-technology-for-military-applications/
Метод фотометрических отпечатков основан на анализе световых кривых — изменений яркости спутника со временем. Эти данные зависят от формы, материалов и ориентации аппарата относительно Солнца и наблюдателя на Земле. Анализируя такие параметры, Slingshot может:
классифицировать спутники,
выявлять аномалии,
отслеживать объекты на низкой околоземной орбите.
Slingshot заявляет, что обладает одной из крупнейших баз фотометрических данных, отслеживая около 14 500 активных спутников и объектов космического мусора. Сеть датчиков компании ежедневно фиксирует более 4,5 миллиона фотометрических наблюдений, уточняя и расширяя цифровые отпечатки космических объектов.
Космическое командование США, контролирующее военные операции на орбите, является ключевым заказчиком технологии. Фотометрические отпечатки помогут:
обнаруживать неожиданные маневры вражеских спутников,
идентифицировать новые иностранные аппараты,
восстанавливать слежение за утерянными объектами.
Особенно это важно в случаях, когда противник пытается замаскировать функции спутника или изменить орбиту, чтобы избежать обнаружения.
Что дальше?В рамках 12-месячного контракта Slingshot Aerospace интегрирует технологию фотометрических отпечатков с собственной системой Agatha AI, которая анализирует поведение спутников и выявляет аномалии в больших группировках.
Финансовые условия сделки не раскрываются, но тот факт, что контракт сразу перешел ко второй фазе SBIR, говорит о высокой степени готовности технологии.
https://spacenews.com/slingshot-adapting-satellite-fingerprinting-technology-for-military-applications/
SpaceNews
Slingshot adapting satellite ‘fingerprinting’ technology for military applications
The company was awarded an SBIR Phase 3 contract to further develop satellite “fingerprinting” technology
🤔4👍1
Forwarded from Kali Novskaya
🌸LLM-агенты для науки: теперь и от OpenAI🌸
#nlp #про_nlp #nlp_papers
Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.
🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.
Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.
Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.
Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.
На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.
🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1 - самым лучшим из опробованного оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.
🟣 Paper
🟣 Github (спросила про лицензию, у всего репозитория вроде MIT)
🟣 Blogpost
#nlp #про_nlp #nlp_papers
Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.
🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.
Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.
Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.
Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.
На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.
🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1 - самым лучшим из опробованного оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from КОД ВСЕЛЕННОЙ | Asyalen 📌
Вывоз ракеты «Союз-2.1а» с кораблём «Союз МС-27» на стартовую площадку и её вертикализация!
Сегодня на Байконуре — один из самых красивых и волнительных моментов перед запуском: ракета выехала из монтажно-испытательного корпуса и была установлена вертикально на площадке №31.
⠀
Многотонная «Союз-2.1а» с пилотируемым кораблём медленно прошла по железной дороге по степи и теперь заняла своё место на старте!
⠀
Это значит — до запуска остались считанные дни. Экипаж давно тут, а ракета почти готова к полёту!
⠀
Кто мечтает когда-нибудь увидеть это вживую?
Сегодня на Байконуре — один из самых красивых и волнительных моментов перед запуском: ракета выехала из монтажно-испытательного корпуса и была установлена вертикально на площадке №31.
⠀
Многотонная «Союз-2.1а» с пилотируемым кораблём медленно прошла по железной дороге по степи и теперь заняла своё место на старте!
⠀
Это значит — до запуска остались считанные дни. Экипаж давно тут, а ракета почти готова к полёту!
⠀
Кто мечтает когда-нибудь увидеть это вживую?
👍4
Forwarded from Потапов. АО «НПП».
Horizon Zero Dawn (игра) еще ближе, чем казалось.
Kawasaki показали концепт робо-коня Corleo на выставке EXPO 2025.
Железный конь с водородным двигателем и встроенным ИИ умеет держать баланс, перепрыгивать препятствия и ползать по скалам, не роняя кожаного седока.
Японцы уверяют, что Corleo заменит вездеходы, внедорожники квадроциклы и багги.
⚡️Потапов. Подписаться.
➕Предложить новость | Чат
Kawasaki показали концепт робо-коня Corleo на выставке EXPO 2025.
Железный конь с водородным двигателем и встроенным ИИ умеет держать баланс, перепрыгивать препятствия и ползать по скалам, не роняя кожаного седока.
Японцы уверяют, что Corleo заменит вездеходы, внедорожники квадроциклы и багги.
⚡️Потапов. Подписаться.
➕Предложить новость | Чат
😱4👍1
Forwarded from Градиент обреченный (Sergei Averkiev)
И у них, наконец, появились имена — Behemoth, Maverick, Scout. Последние две уже можно скачивать с HF и официального сайта.
🔸 Все модели теперь MoE (каждый раз активируется только часть от всех весов — "эксперты"). Дальше указаны активное/общее количество параметров.
🔸 Модели мультимодальные и еще более мультиязычные. Претрейн был на более чем 200 языках, из них более ста были с 1B+ токенов. Русский среди поддерживаемых 12-ти языков не указан, видимо, в топ-12 не входит.
🔸 Скаут и Маверик дистиллированы из Бегемота.
Scout → 17B/109B, 16 экспертов. Контекст — 10M токенов
Maverick → 17B/400B, 128 экспертов. Контекст — 1M токенов. На некоторых тестах показывает уровень GPT-4o. На lmarena.ai вторая после Gemini 2.5 Pro Exp.
Behemoth → 288B/2T
👉 llama.com (дают временную ссылку) | HF (одобряют заявку)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏1
«Стремительно развивающиеся возможности новейших больших языковых моделей - их способность сшивать воедино то, что кажется примитивной формой знания об устройстве нашего мира, - недостаточно хорошо изучены. Использование этих языковых моделей в продвинутых роботах, способных чувствовать окружающее пространство, приведет нас к еще большему погружению в неизвестность. Соединение языковых моделей с телесным или, по крайней мере, роботизированным телом, с помощью которого машины смогут начать исследовать наш мир - установить контакт через осязание и зрение с внешней версией истины, которая, казалось бы, является основой мышления, - приведет к еще одному значительному скачку вперед, и, возможно, это случится уже скоро. Из-за отсутствия понимания реакция на первые встречи с этой новой технологией была отмечена непростой смесью удивления и страха.»
Александр С. Карп, Николас В. Замиска Технологическая республика
Александр С. Карп, Николас В. Замиска Технологическая республика
👍3
#space
К вопросу об организации серийного производства спутников.
Что актуально для нас сейчас, особенно с учетом текущих реалий…
https://news.1rj.ru/str/allaboutspacejournal/51446
К вопросу об организации серийного производства спутников.
Что актуально для нас сейчас, особенно с учетом текущих реалий…
https://news.1rj.ru/str/allaboutspacejournal/51446
👍3
Forwarded from Control Space
Завершился первый квартал 2025, а вместе с ним и сроки подачи российскими космическими компаниями финансовой отчетности за прошлый год
Как и годом ранее, показатели выручки и чистой прибыли у фирм, участвующих в дорожной карте "Перспективные космические системы и сервисы", я систематизировал в одной таблице
По старому паспорту "Дорожной карты" плановый размер внебюджетных и собственных трат компаний в 2024, пусть и с неподтвержденным финансированием, мог быть выше, чем в 2023, до 🔺1,5 - 14 раз. Реалии конечно же иные
❌ Оперевшись на Постановление Правительства РФ № 351 от 12.03.2022, НПК Барл, Газпром Космические Системы и ФГУП Космическая связь не публикуют свою финансовую отчетность, поскольку ее публикация “... может привести к введению мер ограничительного характера … в том числе … новых”
🛰 Тем удивительнее, что Спутникс, попавший в санкционные списки США в 2024, свои финансовые результаты публиковать продолжает. Спутниксов в таблице два. Первый - ООО "Спутникс", основанный еще в 2011. Второй - ГК "Спутникс" - переименованный в ноябре 2024 экс-Ситроникс Спейс. Доля ГК "Спутникс" в ООО "Спутникс" на ноябрь 2024 - 75%
⚙️ Сборочное производство Газпром СПКА в Щелково было сдано в эксплуатацию в 2024, уменьшив и капитальные затраты, и чистый убыток компании в сравнении с предыдущим годом до 🔻 1,3 млрд рублей
📡 Чистый убыток "Бюро 1440" за год возрос почти вдвое (до🔺3,4 млрд рублей), главным образом, за счет управленческих расходов и кратного роста численности персонала. А вероятная аренда 47 тыс кв.м в технопарке "Зил" в 2025 с ежегодным платежом до🔺1,5+ млрд рублей в моменте может сделать этот убыток еще весомее
Как и годом ранее, показатели выручки и чистой прибыли у фирм, участвующих в дорожной карте "Перспективные космические системы и сервисы", я систематизировал в одной таблице
По старому паспорту "Дорожной карты" плановый размер внебюджетных и собственных трат компаний в 2024, пусть и с неподтвержденным финансированием, мог быть выше, чем в 2023, до 🔺1,5 - 14 раз. Реалии конечно же иные
❌ Оперевшись на Постановление Правительства РФ № 351 от 12.03.2022, НПК Барл, Газпром Космические Системы и ФГУП Космическая связь не публикуют свою финансовую отчетность, поскольку ее публикация “... может привести к введению мер ограничительного характера … в том числе … новых”
🛰 Тем удивительнее, что Спутникс, попавший в санкционные списки США в 2024, свои финансовые результаты публиковать продолжает. Спутниксов в таблице два. Первый - ООО "Спутникс", основанный еще в 2011. Второй - ГК "Спутникс" - переименованный в ноябре 2024 экс-Ситроникс Спейс. Доля ГК "Спутникс" в ООО "Спутникс" на ноябрь 2024 - 75%
⚙️ Сборочное производство Газпром СПКА в Щелково было сдано в эксплуатацию в 2024, уменьшив и капитальные затраты, и чистый убыток компании в сравнении с предыдущим годом до 🔻 1,3 млрд рублей
📡 Чистый убыток "Бюро 1440" за год возрос почти вдвое (до🔺3,4 млрд рублей), главным образом, за счет управленческих расходов и кратного роста численности персонала. А вероятная аренда 47 тыс кв.м в технопарке "Зил" в 2025 с ежегодным платежом до🔺1,5+ млрд рублей в моменте может сделать этот убыток еще весомее
👍3
#space
#mil
#МКРЦ
Спутники для американской морской космической системы разведки и целеуказания будет делать Umbra…
Все чудесатее и чудесатее,.
https://spacenews.com/umbra-to-develop-maritime-surveillance-satellites-for-u-s-military/
#mil
#МКРЦ
Спутники для американской морской космической системы разведки и целеуказания будет делать Umbra…
Все чудесатее и чудесатее,.
https://spacenews.com/umbra-to-develop-maritime-surveillance-satellites-for-u-s-military/
SpaceNews
Umbra to develop maritime surveillance satellites for U.S. military
The company was selected for a public-private agreement known as Strategic Funding Increase (STRATFI)
🤔3👍1
Forwarded from Маленький Человек (Иван Добролюбов)
По орбитальному велению, по моему хотению, желаю я...
Старая традиция “загадывать желание, увидев падающую звезду” скоро может окончательно потерять свою исполнительскую силу.
Сначала мы вынуждены были признать, что падают вот совершенно не звезды! А какие-то мелкие песчинки, максимум - камушки… Метороиды, без какого-то шанса даже завалящим метеоритом стать.
А теперь у нас на глобально-планетарном носу новая напасть.
Продукты жизнедеятельности военно-космической кампании из США, известной СпейсМ. Ну, вы все знаете ее миссию - Space Militarization. У этих парней начинают потихоньку выходить сроки активной работы единичного звена системы боевого управления Пентагона.
Сейчас сеть Старликов вышла на устойчивый темп падения в сотню аппаратов за месяц. Впереди - выход на 2-3 сотни и более, смотря как конкретно будет работать конвейр поддержания и развития по дальнейшим планам Пентагона. Ну и что скажет космическая погода, конечно.
В добавок к этому - уже открыто военное созвездие Старшилд. Естественно, вездесущие китайцы, разворачивающие сразу несколько своих созвездий, русское Бюро1440 и прочие желающие запрыгнуть.
В перспективе через несколько лет мы увидим под тысячу падающих спутников в месяц, а на орбите будет тысяч тридцать аппаратов. А, может, и пятьдесят - кто скажет заранее, чьи громкие планы сбудутся, а чьи нет?
Со все большим и большим шансом падающая звезда будет не звездой.
А военным спутником связи!
Какое желание надо загадывать, видя падающий компонент системы боевого управления Пентагона - еще не ясно. Нет таких сказок, ни у одного народа мира.
Эту традицию нам еще предстоит оформить
👨🏼💻Маленький человек🚶🏼
Старая традиция “загадывать желание, увидев падающую звезду” скоро может окончательно потерять свою исполнительскую силу.
Сначала мы вынуждены были признать, что падают вот совершенно не звезды! А какие-то мелкие песчинки, максимум - камушки… Метороиды, без какого-то шанса даже завалящим метеоритом стать.
А теперь у нас на глобально-планетарном носу новая напасть.
Продукты жизнедеятельности военно-космической кампании из США, известной СпейсМ. Ну, вы все знаете ее миссию - Space Militarization. У этих парней начинают потихоньку выходить сроки активной работы единичного звена системы боевого управления Пентагона.
Сейчас сеть Старликов вышла на устойчивый темп падения в сотню аппаратов за месяц. Впереди - выход на 2-3 сотни и более, смотря как конкретно будет работать конвейр поддержания и развития по дальнейшим планам Пентагона. Ну и что скажет космическая погода, конечно.
В добавок к этому - уже открыто военное созвездие Старшилд. Естественно, вездесущие китайцы, разворачивающие сразу несколько своих созвездий, русское Бюро1440 и прочие желающие запрыгнуть.
В перспективе через несколько лет мы увидим под тысячу падающих спутников в месяц, а на орбите будет тысяч тридцать аппаратов. А, может, и пятьдесят - кто скажет заранее, чьи громкие планы сбудутся, а чьи нет?
Со все большим и большим шансом падающая звезда будет не звездой.
А военным спутником связи!
Какое желание надо загадывать, видя падающий компонент системы боевого управления Пентагона - еще не ясно. Нет таких сказок, ни у одного народа мира.
Эту традицию нам еще предстоит оформить
👨🏼💻Маленький человек🚶🏼
😁4🤔3
«Как и почему работают генеративные модели языка и изображений, не ясно даже ученым и программистам, которые их создают. А самые продвинутые версии моделей уже начали демонстрировать то, что одна группа исследователей назвала "искрами искусственного общего интеллекта", или формами рассуждений, которые, похоже, приближаются к человеческому мышлению. В одном из экспериментов, в котором проверялись возможности GPT-4, языковую модель спросили, как можно сложить в стопку книгу, девять яиц, ноутбук, бутылку и гвоздь, друг на друга устойчивым образом. Попытки заставить более примитивные версии модели описать работоспособное решение задачи не увенчались успехом. GPT-4 в свою очередь, преуспел в этом. Компьютер объяснил, что можно "расположить 9 яиц в квадрате 3 на 3 поверх книги, оставив между ними некоторое пространство", а затем "поместить ноутбук поверх яиц", бутылку на ноутбук, а гвоздь на крышку бутылки, "острым концом вверх, а плоским вниз". Это был потрясающий подвиг "здравого смысла", по словам Себастьяна Бубека, французского ведущего автора исследования.»
Александр С. Карп, Николас В. Замиска Технологическая республика
Александр С. Карп, Николас В. Замиска Технологическая республика
🔥5👍1