Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.16K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Писали ли Вы за последние полгода хоть одно сообщение в skype?
Anonymous Poll
15%
Да
85%
Нет
#religion

Леннокс весьма бодр, и старается разводить меньше демагогии, но всё же неизбежно в неё скатывается. Чего стоит хотя бы попытка приписать достижения науки религии. Понравилось утверждение Докинза о том, что религия и наука вовсе не существуют в разных реальностях, хотя бы потому, что религия делает утверждения о нашей Вселенной.

https://www.youtube.com/watch?v=LQdrzBhtbMg
#trading #backtesting #masters

Пример реализации тестирования перестановкой из книги Мастерса.

Подчёркивается преимущество permutation test перед "простым" walkforward: OOS данные из walkforward очень ценны, и их желательно использовать пореже, чтобы не оверфиттиться на высоком уровне, а инсэмпловых перестановок намешать мы можем бесконечно много без проблем.

https://www.youtube.com/watch?v=NLBXgSmRBgU
👍1
#timeseries #ensembling #todo #hetboost

Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.

И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.

У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.

https://www.youtube.com/watch?v=xnF9QajUzv0
🔥1
#python #typing

Про Final не знал. Self, TypeAlias, Literal заслуживают внимания.
На самом деле всё ещё сложнее с TypeVar.

https://medium.com/techtofreedom/8-levels-of-using-type-hints-in-python-a6717e28f8fd
👀1
#llms #ai #mistral #pdf #ocr

"Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы."

https://3dnews.ru/1119379/mistral-ai-predstavila-instrument-kotoriy-prevratit-lyuboy-pdfdokument-tekstoviy-fayl-dlya-ii
#geometry

"Compact Ricci-flat Calabi-Yau and holonomy G2 manifolds appear in string and M-theory respectively as denoscriptions of the extra spatial dimensions that arise in the theories. Since 2017 machine-learning techniques have been applied extensively to study Calabi-Yau manifolds but until 2024 no similar work had been carried out on holonomy G2 manifolds. In this talk, I will firstly show how topological properties of these manifolds can be learnt using neural networks. I will then discuss how one could try to numerically learn metrics on compact holonomy G2 manifolds using machine-learning and why these approximations would be useful in M-theory."

https://www.youtube.com/watch?v=3gRquXqwtU8
#learning

"Main takeaways:

Don’t waste time finding the “best course.”
Learn, then immediately implement. Particularly when it comes to coding.
A volume approach to applying for jobs is a viable option.

It’s more about the problem and how you frame it than the tools you use.
Continual learning is probably the only “secret” to becoming a good data scientist.
Always focus on business impact.
Gain a great grounding in statistics.

Learn how to write production code and deploy your algorithms.
Have an idea or know what you want to specialise in.
Gain some awareness of software engineering principles and best practices.
Change companies if you feel like your skills are not growing.

Be visible to help get promoted. You can do this by volunteering for presentations and sharing your work.
Develop some machine learning engineering skills.
Execute every task to a high standard to build trust."

https://medium.com/towards-data-science/4-years-of-data-science-in-8-minutes-6ea5b10f0192
#politics #war

Евросоюз, похоже, на сотни миллиардов евро увеличивает военные бюджеты.

Как поехавшие крышей питекантропы, развязавшие бессмысленную войну, ещё и отбирают деньги у научных инициатив.

Не будет в близком будущем у нашей цивилизации хороших телескопов, систем противоастероидной безопасности, баз на других планетах, более мощных ускорителей элементарных частиц.

https://www.youtube.com/watch?v=tAx8UB4ruOs
😢1
#dyatlovpass #mysteries #ai #nlp #criminology #tragedy #mountains

В очередной раз попалось в рекомендациях видео по загадке трагической гибели туристов на перевале Дятлова.

Это хорошо документированная, но не имеющая очевидного решения тайна 1959-го года.

Есть десятки версий, ни одна полностью не объясняет всю фактологическую базу.

Дело осложняется тем, что "интернет-эксперты", авторы версий, зачастую не дружат с логикой и не способны делать корректные выводы даже из ясных и простых посылок.

У меня давно была идея сконструировать экспертную систему с материалами дела, с визуализацией цепочки событий (по времени и месту), "нечёткой логикой", и, самое главное, системой оценки и сравнения версий.

Каждый факт (свидетельство с определённой степенью достоверности) из экспертной системы может противоречить либо не противоречить определённой версии.

Тогда можно было бы найти версию, объясняющую наибольший объём фактов, определить недостоверные факты и даже недостоверные источники информации.

Раньше не было возможности такое запилить, но с современным ИИ это стало возможным в течение последних 2 лет.

Эта система, в случае создания, может быть масштабирована на все сложные криминологические случаи.

Ну и в целом это может быть прикольным проектом, с авто анализом текстов, изображений, геомоделированием, психологией.

Если кто вдруг заинтересован в совместной работе в этом направлении, пишите.
👍1
#hardware #storage #ssd

"Micron анонсировала этот накопитель как первый в индустрии PCIe 6.0 SSD, заявив скорость чтения в 26 Гбайт/с. Однако испытания на стенде Astera Labs позволили превзойти эти ожидания — скорость чтения достигла 27,14 Гбайт/с для каждого из двух SSD в тестовой системе. Для сравнения, самый быстрый из протестированных PCIe 5.0 SSD, Crucial T705, показал максимум 14,5 Гбайт/с, что составляет лишь половину нового рекорда Micron.

Достичь таких показателей помог сетевой коммутатор Astera Scorpio P-Series Fabric Switch, поддерживающий до 64 линий PCIe 6.0. Этот коммутатор был разработан для высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ), обеспечивая быструю связь между процессорами, видеокартами и хранилищами. Кроме того, в тестах использовалась технология Nvidia Magnum IO GPUDirect (GDS), позволяющая устройствам хранения данных напрямую взаимодействовать с памятью GPU, минуя центральный процессор и уменьшая задержки.

Отметим, что стандарт PCIe 6.x продолжает совершенствоваться и развиваться (актуальная версия — PCIe 6.3), обещая стать новым отраслевым стандартом как для корпоративных решений, так и в перспективе для потребительских устройств. Если PCIe 5.0 обеспечивает двустороннюю пропускную способность до 128 Гбайт/с на шине x16, то PCIe 6.x удвоит этот показатель до 256 Гбайт/с."

https://3dnews.ru/1119456/micron-pokazala-samiy-bistriy-ssd-v-mire-s-pcie-60-i-skorostyu-do-27-gbayts
#python #security #pypi

"Проблема возникла из-за удаления зависимости msgspec-python313-pre из репозитория PyPI (Python Package Index), который содержит тысячи сторонних модулей для Python. Злоумышленники добавили в репозиторий вредоносный пакет с тем же именем, который даёт им возможность удалённого выполнения произвольного кода на уязвимых системах, что может привести к компрометации данных, краже информации и полному контролю над заражённым ПК."

https://3dnews.ru/1119504/millioni-kompyuterov-okazalis-pod-ugrozoy-vzloma-izza-kriticheskoy-uyazvimosti-svyazannoy-s-python
#vr #apple #visionpro

"Apple начнёт выпускать концертные записи Immersive Video, созданные специально для просмотра на гарнитуре виртуальной реальности Vision Pro. Уже в пятницу, 14 марта, выйдет шоу группы Metallica, снятое на камеры со 180-градусным обзором на концерте в Мехико в рамках мирового тура культового коллектива."

https://3dnews.ru/1119597/apple-vipustit-kontsert-metallica-s-pogrugeniem-dlya-vision-pro-s-bespretsedentnim-dostupom-k-muzikantam
#astronomy

"Обсерватория SPHEREx впервые проведёт полный обзор неба в 102 «цветах» инфракрасного спектра. Известно, что длина волны света растягивается по мере движения по Вселенной, смещаясь в красную и инфракрасную области, после чего становится невидимой человеческому глазу. Именно эта область спектра несёт информацию о заре Вселенной. Инфракрасный телескоп SPHEREx соберёт данные об эпохе реионизации, когда начали светить первые звёзды, а также заглянет сквозь завесы пыли и газа в поисках следов льда.

Ожидается, что за два года работы SPHEREx соберёт данные о более чем 450 млн галактик и свыше 100 млн звёзд в Млечном Пути. Телескоп будет работать примерно в том же диапазоне, что и «Джеймс Уэбб», но с гораздо более широким охватом. Благодаря широкоугольной оптике обсерватория проведёт первый полный обзор неба уже за первые шесть месяцев наблюдений. Это будет колоссальный объём данных.

Комплекс спутников PUNCH предназначен для трёхмерного наблюдения за процессами в солнечной короне и верхних слоях атмосферы Солнца. Один из аппаратов оснащён узконаправленным телескопом с коронографом для изучения солнечной короны, а три других имеют широкоугольные датчики для поляриметрии. Наблюдение за поляризацией солнечного излучения позволяет воссоздать процессы, происходящие в верхних слоях атмосферы Солнца и его короне.

Данные со всех четырёх аппаратов PUNCH позволят воспроизвести солнечную динамику в максимально полном объёме. Это необходимо для изучения механизмов формирования солнечного ветра и, в конечном итоге, для разработки долгосрочных прогнозов космической погоды. Солнечный ветер и выбросы плазмы могут оказывать влияние на электронику космических аппаратов и наземную инфраструктуру. Кроме того, они воздействуют на климат Земли и на биологические процессы, включая здоровье людей. Изучение Солнца особенно важно, поскольку учёные до сих пор не полностью понимают физику его процессов."

https://3dnews.ru/1119590/nasa-zapustilo-kosmicheskie-teleskopi-punch-i-spherex-dlya-raskritiya-tayn-solntsa-i-ranney-vselennoy
#qunatumcomputing #dwave

"Как рассказал Эндрю Кинг (Andrew King), старший научный сотрудник D-Wave, моделирование нового материала со сложным магнитным полем с помощью квантового компьютера было выполнено менее чем за 20 минут. У ведущего суперкомпьютера Ок-Риджской национальной лаборатории аналогичная задача заняла бы около миллиона лет для достижения того же уровня детализации.

В компании заявили, что эта демонстрация стала первым случаем применения квантового компьютера для решения задач, имеющих практическое применение. По словам Бараца, возможность моделировать новые магнитные материалы, широко используемые в промышленности, означает, что их свойства могут быть изучены ещё до запуска в производство.

Подход D-Wave заметно отличается от методологии других разработчиков квантовых компьютеров. Вместо того чтобы пытаться создать универсальный квантовый компьютер, способный решать практически любые задачи, D-Wave выбрала более узкоспециализированный подход — квантовый отжиг. Эта технология лучше всего подходит для решения сложных оптимизационных задач, а также для некоторых видов моделирования материалов.

Несмотря на более узкую сферу применения, эта технология остаётся востребованной в бизнесе. Например, квантовая система хорошо справляется с «задачей коммивояжёра» — поиском оптимального маршрута между большим количеством различных точек.

В эксперименте был задействован прототип квантового компьютера Advantage2, который насчитывает более 1200 кубитов и более 10 000 «каплеров» (couplers) и доступен для клиентов D-Wave через облачный квантовый сервис Leap в реальном времени. Этот прототип значительно быстрее систем Advantage предыдущего поколения и позволяет находить более качественные решения для больших и сложных задач, отмечает производитель. Более того, в настоящее время D-Wave располагает процессором Advantage2, который в четыре раза превышает по мощности задействованный в эксперименте прототип.

D-Wave утверждает, что её машины коммерчески полезны уже много лет, хотя компании с трудом удаётся построить масштабный бизнес. Первые три квантовых компьютера она продала 14 лет назад, в том числе один консорциуму, в который входили Google и NASA, а затем перешла к продаже доступа к своей технологии через облако. За первые девять месяцев 2024 года выручка компании составила всего $6,5 млн, а убыток — $57 млн. Тем не менее в D-Wave считают, что четверть века, потребовавшиеся на достижение квантового превосходства, — вполне разумный срок по сравнению с десятилетиями, которые понадобились для коммерциализации традиционных компьютеров после изобретения транзистора."

https://3dnews.ru/1119636/eto-svyatoy-graal-kvantovih-vichisleniy-dwave-dostigla-kvantovogo-prevoshodstva