NEW BOT Телеграм, страница

Aspiring Data Science

#politics

О, как и сообщала компания СВР & Соловей еще год назад, талибов собираются "ратифицировать". В то же время в тюрьму сажают честных смелых людей, которые высказываются против войны, а террористами признают журналистов и россиян, делавших небольшие пожертвования в ФБК на борьбу с коррупцией в стране.

"Новость дня, которая многое говорит о сегодняшней России.

Генпрокуратура попросила Верховный Суд разрешить в России движение «Талибан»

Исковое заявление за подписью генерального прокурора уже поступило в Верховный Суд и принято к производству. Заседание назначено на 17 апреля. Проведёт его судья Олег Нефёдов, который в ноябре 2023 года признал «экстремистским» и запретил в России несуществующее «движение ЛГБТ».
Надзорное ведомство просит приостановить запрет на деятельность движения «Талибан», которое находится в списке террористических организаций больше 20 лет.

В суде уже уточнили, что заседание пройдет в закрытом режиме. То есть журналисты скорее всего не услышат причин, по которым Генпрокуратура считает талибов друзьями.

Несмотря на запрещенный статус, представители «Талибана» уже несколько лет ездят на официальные мероприятия в Россию: они принимали участие в международных форумах в Санкт-Петербурге и Казани, где обсуждали борьбу с терроризмом, наркотрафиком и высказывались о проблемах образования. В прошлом году Путин назвал их «союзниками».

В декабре Госдума приняла закон, позволяющий исключать организации из списка террористических. Ранее эту идею поддержали в Минюсте и Министерстве иностранных дел.

Напомним, что талибы пришли к власти в Афганистане в 2021 году. Они запрещают женщинам учиться даже в начальной школе, выходить на улицу без чадры, ходить в спортзалы и гулять в парках с мужчинами. Представители движения неоднократно говорили о намерении забивать женщин камнями за измены, а также публично пороть."

119 viewsAnatoly Alekseev, edited 14:32

Aspiring Data Science

Original-Microsoft-Source-Code.pdf

94.5 MB

#basic #gates

"Altair BASIC он назвал «самым крутым кодом, который я когда-либо писал». Источником вдохновения для этого проекта послужил номер журнала Popular Electronics за январь 1975 года — на его обложке был компьютер Altair 8800, побудивший Гейтса заняться разработкой ПО. Он и Аллен обратились в выпустившую компьютер компанию MITS (Micro Instrumentation and Telemetry Systems) и предложили интерпретатор языка программирования BASIC для этой модели.

Этот продукт позволил бы большому числу пользователей с лёгкостью создавать собственные программы, но Гейтсу и Аллену потребовались несколько месяцев, чтобы добиться этого результата. Altair BASIC стал первым продуктом, который Гейтс и Аллен разработали для новой компании, тогда называвшейся Micro-Soft, а от дефиса они избавились позже. Исходный код занимает 157 страниц."

https://3dnews.ru/1120740/k-50letiyu-microsoft-bill-geyts-opublikoval-samiy-krutoy-kod-kotoriy-kogdalibo-pisal

119 viewsAnatoly Alekseev, 17:58

Aspiring Data Science

#automl #lama

https://www.youtube.com/watch?v=KPe0aYkzwOY

YouTube

Семинар: LightAutoML: как строить ML модели быстрее

Вопросы и комментарии - в чате сообщества:
https://news.1rj.ru/str/noml_community

Выступил: Рыжков Александр, 2х Kaggle Grandmaster, Team Lead команды AutoML, Sber AI Lab

На семинаре рассказали про то, что такое AutoML и как пользоваться этой технологией для ускорения…

102 viewsAnatoly Alekseev, 23:11

Aspiring Data Science

#geology #astronomy

Стив Бушеми стал учёным )

https://youtu.be/WJRQ_feSfzA?si=_y6skJ3-ogN0EKP8

YouTube

Аномалии во вращении Земли | Леонид Зотов Лекция 2025 | Мослекторий

Почему на экваторе человек будет весить меньше? Что учёные предложили сделать с дополнительной секундой? И может ли Земля полностью остановиться? Об этом в проекте «Мослекторий» расскажет астроном Леонид Зотов

Подпишись на канал Мослекторий: https://ww…

99 viewsAnatoly Alekseev, edited 06:19

Aspiring Data Science

#economics

https://www.youtube.com/watch?v=WaFKXiSB-ZE

YouTube

Пошлины Трампа | Что будет с мировой экономикой (English subnoscripts) @Max_Katz

Вчера Дональд Трамп подписал указ об импортных пошлинах, которые США вводят разом против почти всего мира — и цифры там поражают воображение. Попробуем разобраться, что происходит, и плюс-минус прикинуть последствия.

== Некоммерческое объявление ==
Помогите…

🌚1

96 viewsAnatoly Alekseev, 15:26

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=ArYusWI1g9k

YouTube

Brilliant 5-time sacrifice

GM Oleksandr Bortnyk played "such a genius" game against José Carlos Ibarra Jerez! Enjoy!

Secret Blitz Weapons: Alekhine Defense
►►https://www.chessable.com/secret-blitz-weapons-alekhine-defense/course/224509/

Bortnyk and Naroditsky Jobava London
►► …

111 viewsAnatoly Alekseev, 04:46

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=JQXwcw3ZlSA

YouTube

ЧТО ОН ТВОРИТ?! АЛЕКСАНДР ГЕЛЬМАН, ТТ, 7-я партия. 01.04.2025

Радостные шахматы в исполнении Шуры Гельмана. #шахматы #chess

106 viewsAnatoly Alekseev, 04:56

Aspiring Data Science

#physics

"Ожидается, что БАК исчерпает свои возможности к 2041 году. Энергии столкновения частиц на БАК хватило для открытия частицы Хиггса — элементарной частицы, ответственной за характеристику массы элементарных частиц. Значительное увеличение энергии столкновений на FCC способно привести к открытию новой физики — новых частиц и иных взаимодействий между ними, что ещё дальше продвинет учёных по пути понимания сути нашей Вселенной.

Для реализации проекта FCC требуется финансирование в размере $17 млрд, но на деле это наверняка будет стоить ощутимо дороже. Работы продлятся около 20 лет и если начнутся в 2028 году, как ожидает руководство CERN, то свой «первый свет» коллайдер выдаст в 2048 году.

Новое кольцо ускорителя FCC будет более чем в три раза длиннее кольца Большого адронного коллайдера: 91 км против 27 км у БАК. Тоннели FCC должны пролегать на глубине 200 м под поверхностью земли или в два раза глубже, чем у БАК. Кольцо проляжет по территории Франции и Швейцарии. "

https://3dnews.ru/1120613/evropa-tehnicheski-gotova-postroit-superkollayder-budushchego-kotoriy-budet-vtroe-bolshe-baka

3DNews - Daily Digital Digest

Европа технически готова построить суперколлайдер будущего, который будет втрое больше БАКа

31 марта 2025 года Европейская организация ядерных исследований (CERN) сообщила, что не обнаружила технических препятствий для постройки нового европейского суперколлайдера с кольцом длиной до 100 км.

96 viewsAnatoly Alekseev, 16:47

Aspiring Data Science

#biology #lifeorigin

Открытие механизма абиогенного синтеза C и U нуклеотидов в 2009м впечатляет.

https://youtu.be/cgycY98yYWk?si=i_9_4nqBNir7Gerx

YouTube

Происхождение жизни: теория РНК-мира

#наука #эволюция #александрмарков #биология #дарвин #днк
#мутации #отбор #архэ #рнк #генетика #жизнь #происхождение
Лекция посвящена теории РНК-мира – возможно, одной из самых гениальных научных идей 20 века. Современные клетки включают три класса сложных…

103 viewsAnatoly Alekseev, edited 01:58

Aspiring Data Science

#medicine #health #neuralink

"Первый пациент Neuralink Ноланд Арбоу в настоящее время освоил работу с ноутбуком, проворно управляя курсором буквально при помощи мысли. Он не только играет в стратегии, но и возобновил прерванное из-за травмы позвоночника обучение в университете в удалённом формате. До вживления имланта он от силы мог просматривать ролики на YouTube при помощи планшета, управляемого стилусом, удерживаемым в зубах.

Второй пациент Neuralink по имени Алекс (Alex) утратил подвижность четырёх конечностей в результате автомобильной аварии, после вживления имланта Neuralink он смог возобновить работу в качестве дизайнера, и теперь не только рисует эскизы, но и проектирует различные детали в специализированном ПО. В последнее время он также осваивает программирование средств автоматизации на платформе Arduino. При помощи импланта Алекс управляет смартфоном, закреплённом на специальном штативе его кресла-каталки. Он также принимает участие в эксперименте при управлении роботизированной рукой при помощи мыслей.

Третий пациент Neuralink по имени Брэд (Brad) утратил подвижность конечностей в результате бокового амиотрофического склероза (ALS в английской терминологии). Болезнь лишила его подвижности почти полностью, он был в состоянии двигать только глазами и уголками рта. До вживления импланта Neuralink передавать информацию он мог только при использовании специального ПО, отслеживающего движения глаз для ввода букв, и делать это можно было только в помещениях со стабильным и правильным освещением. По сути, это вынуждало Брэда основную часть времени проводить дома в полутьме. Вживление импланта позволило ему научиться гораздо быстрее набирать текст силой мысли, причём делать это за пределами своего дома."

https://3dnews.ru/1120848/neuralink-ishchet-novih-dobrovoltsev-dlya-ispitaniya-mozgovih-implantov-teper-po-vsemu-miru

3DNews - Daily Digital Digest

Neuralink ищет новых добровольцев для испытания мозговых имплантов, теперь по всему миру

По состоянию на февраль текущего года стартап Илона Маска (Elon Musk) вживил мозговой имплант троим пациентам, утратившим подвижность всех конечностей.

86 viewsAnatoly Alekseev, 02:40

Aspiring Data Science

#polars

https://www.youtube.com/watch?v=jKW-CBV7NUM

YouTube

Ritchie Vink - Keynote on Polars Plugins

Machines have changed a lot in the last decade and Polars is a query engine that is written from scratch in Rust to benefit from the modern hardware. Effective parallelism, cache efficient data structures and algorithms are ingrained in its design. Thanks…

97 viewsAnatoly Alekseev, 03:48

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=QmwDAD4MaO0

YouTube

ТАКТИКУС! АЛЕКСАНДР ГЕЛЬМАН, ТТ, 4-я партия. 01.04.2025

Радостные шахматы в исполнении Шуры Гельмана. #шахматы #chess

92 viewsAnatoly Alekseev, 05:36

Aspiring Data Science

#python #rust #pyo3 #bytewax

https://www.youtube.com/watch?v=Lph_7Yr9Fy0

YouTube

Zander Matheson Do Pythons Rust? How we used PyO3 to build a Python Stream Processor w/ a Rust Heart

www.pydata.org

"Python is so slow", "it doesn't scale", "it will hog memory". We've all heard it before. And while sometimes this is true, there are known ways around this and Rust is the newest language on the block making inroads into the Python world…

95 viewsAnatoly Alekseev, edited 06:02

Aspiring Data Science

Forwarded from partially unsupervised

В разговорах с корешами сформулировал для себя нехитрую трехфакторную модель мотивации: процесс - цель - условия. Подчеркну "для себя" - вряд ли это универсальный фреймворк, но вдруг кому-то тоже зайдет. Попробую описать на примерах работы, но кажется, что обобщается и на прочие дела.

Процесс - собственно суть занятия (пилить пайплайны, читать свежие пейперы, ревьювить код джунов). Это кусок краткосрочной мотивации: писать хендлеры или делать фит-предикт обычно неинтересно, профайлить и оптимизировать обычно интересно. В моменте это драйвит, но если это единственная мотивация, в моменте рефлексии может накрыть мыслями "а нахера все это". И тут вылазит цель.

Цель - среднесрочная или долгосрочная, которая заставляет делать даже скучные вещи из пункта выше. Например, make the world a better place, или получить промо и стать архисеньором, или успешно сделать стартап и продать его за много миллионов, или обрести славу самой умной лягушки в пруду, чтобы все вокруг завороженно слушали твое "ква!"🐸. Цель совершенно необязательно высокая, срубить шальных денег и кутить с эскортницами - тоже вполне себе цель. Ради цели можно и унылыми делами заняться.

Условия - это скорее коэффициент для суммы двух предыдущих мотиваций. Офис с печеньками, приятные коллеги, годная инфраструктура - все идет сюда. Деньги в формате зарплаты (а точнее некоторого ее отклонения от среднерыночной) сюда же: ради Большой Цели можно и потерпеть -20% (на это стартаперы и покупают юных мечтателей).

Можно подобрать пример из другой сферы: я в целом люблю бегать (процесс) и хочу пробежать полумарафон (цель). Это позволяет выйти из дома даже в плохую погоду (условия) и преодолеть лень. Когда погода хорошая, а около дома большой парк, то и никаких усилий не понадобится 🏃‍♂️.

Напоследок про actionability: в случае фрустрации можно декомпозировать, в каком факторе просадка - так становится понятнее, что можно сделать. Где-то по мелочи улучшить условия (пофиксить flaky тесты из-за которых постоянно валится CI или купить нормальные беговые кроссовки), где-то добиться более интересных штук в моменте (шаг 0: поговорить с менеджером и хотя бы в явном виде донести свои предпочтения). С целью, конечно, сложнее всего - там малыми шагами ситуацию обычно не изменить.

80 viewsAnatoly Alekseev, 18:41

Aspiring Data Science

Forwarded from partially unsupervised

Дата-дривен карго культ учит, что если метрики растут, а результат на глаз выглядит не очень, то метрики первичны, ведь они как будто имеют больший охват (например, весь тестовый датасет), чем то, что может увидеть один человек невооруженным взглядом. Я и сам долгое время был адептом этого тезиса, пока не наступил на достаточное количество граблей.

Проблема в том, что сделать сбалансированную метрику или набор метрик всегда сложнее, чем кажется (завсегдатаи Kaggle не дадут соврать). Именно поэтому в реальности приходится не оптимизировать единственную метрику верхнего уровня, а делать набор метрик и следить за всеми, а потом принимать субъективное решение, когда одна метрика неизбежно вдруг пойдет вверх, а другая вниз.

Буквально вчера на работе смотрел на результаты ML экспериментов и недоумевал: вариант, который и визуально мне нравился больше, и в теории должен был быть лучше, по метрикам выглядел хуже. Заподозрил проблему в недавно задизайненной метрике, поленился доказывать теорией, сделал "модель", которая генерила рандом с определенными свойствами и тут же выбил искомые 100%. Будь это корпорация с бездумной ориентацией на KPI, можно было бы закоммитить и бездельничать до конца квартала!

❤2

67 viewsAnatoly Alekseev, 18:44

Aspiring Data Science

Forwarded from partially unsupervised

Это было предсказуемо: в 2024 легкая небрежность в тексте/коде окончательно стала премиальной и крафтовой. Пресный вежливый текст - значит, написано при помощи LLM (и даже без упражнений с промптами). Шероховатости придают эффект теплоты: человек не поленился и написал сам.

Например, пишет мне рекрутер, и второй абзац его письма выглядит как LLM-summary моего линкедин-профиля. Дальше как-то автоматически сложно поверить его словам, что this is exactly the type of experience they are looking for.

Или с другой стороны: проверяю тестовые задания, и довольно быстро калибруюсь. Например, много тривиальных комментариев, начинающихся с заглавной буквы и заканчивающихся точкой - явное свидетельство сгенеренного кода. Да ладно комментарии, я уже и по названиям переменных узнаю код авторства GPT.

# Init model.
model = Autoencoder.to(DEVICE)
criterion = nn.MSELoss()

Вообще, кстати, в этом тестовом использовать GPT не запрещено, но надо бы не только сгенерить решение, но и понять, что там происходит. В итоге больше всего сигнала в ответе на вопрос "почему это работает?".

В итоге умение писать кое-как теперь вообще не имеет значения, а умение писать изящно (будь то текст или код) ценится как и раньше.

72 viewsAnatoly Alekseev, 18:46

Aspiring Data Science

Forwarded from partially unsupervised

MNIST 1D - самая прекрасно безумная работа, которую я пока увидел на ICML.

Это полусинтетический датасет, похожий на MNIST, который при этом сложнее для стандартных бейзлайнов, но при этом требует еще меньше вычислительных ресурсов. Авторы утверждают, что на этом датасете можно быстро воспроизводить всякие забавные метаэффекты типа Double Descent и Winning Lottery Tickets, используя только процессор бюджетного ноутбука.

GitHub

GitHub - greydanus/mnist1d: A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning…

A 1D analogue of the MNIST dataset for measuring spatial biases and answering Science of Deep Learning questions. - greydanus/mnist1d

✍1

80 viewsAnatoly Alekseev, 18:48

Aspiring Data Science

Forwarded from partially unsupervised

Реальность:
- надоело ждать полного прогона тестов на CI, между делом спрятал некоторые долгие джобы под if, чтобы они триггерились только для релевантных изменений.

Потенциальный пост в Linkedin:
- Pioneered a transformative project as part of a company-wide infrastructure efficiency and cost optimization strategy, establishing a scalable model that achieved a sustainable 40% reduction in CI operational costs across the AI organization.

80 viewsAnatoly Alekseev, 18:50

Aspiring Data Science

Forwarded from partially unsupervised

Почти в каждом deep learning-based продукте, над которым я работал, на каком-то этапе где-то сбоку появляется небольшая линейная модель, обучаемая отдельно, иногда даже на классических фичах. Она, конечно, не может решать основную сложную задачу, но внезапно сильно помогает с каким-нибудь корнеркейсом. Например:
- определять резкую смену контекста (и необходимость сбросить стейт),
- детектить потенциальные ошибки или аномалии,
- слегка уточнять результаты сложного пайплайна,
- роутить инпут между компонентами,
- заполнять недостающий параметр, если в API вдруг не приходит какое-то поле, а менять что-то на клиенте слишком дорого,
- подсвечивать потенциальные проблемы человекам in the loop.

Этой модели никогда нет в изначальном дизайне: если проблема была бы заметна изначально, она бы зачастую решалась элегантнее - например, добавлением дополнительной головы в основную модель. Она появляется, когда все вроде почти работает, и не хватает совсем чуть-чуть.

Вот сейчас у меня есть матрица расстояний в чем-то вроде матчинга, и нужно оценивать уверенность матча, потому что иногда лучше ответить ничего, чем неправильно. Сначала берешь собственно дистанцию, потом хочется добавить еще пару эвристик типа расстояния до second best кандидата, их нужно как-то взвешивать... Так что не надо брезговать классикой, и умение выжать лишний процент из линейной модели все еще полезно.

75 viewsAnatoly Alekseev, 18:51

Aspiring Data Science

Forwarded from partially unsupervised

Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.

87 viewsAnatoly Alekseev, 18:51

Aspiring Data Science

#hardware #inference

"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.

Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.

Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.

Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.

Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."

https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu

3DNews - Daily Digital Digest

Google представила свой самый мощный ИИ-процессор Ironwood — до 4,6 квадриллиона операций в секунду

В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор…

90 viewsAnatoly Alekseev, 00:43

About

Blog

Apps

Platform