Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.16K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#llms #ai #mistral #pdf #ocr

"Mistral OCR доступен на собственной платформе компании, а также в инфраструктуре облачных партнёров Mistral, таких как AWS, Azure и др. Для компаний, которые работают с конфиденциальными или секретными данными, Mistral предлагает версию API для локального развёртывания. В компании заявили, что Mistral OCR работает лучше, чем аналогичные API от Google, Microsoft или OpenAI. Компания протестировала свой API на сложных PDF-документах, в том числе содержащих математические выражения, сложные макеты и таблицы."

https://3dnews.ru/1119379/mistral-ai-predstavila-instrument-kotoriy-prevratit-lyuboy-pdfdokument-tekstoviy-fayl-dlya-ii
#geometry

"Compact Ricci-flat Calabi-Yau and holonomy G2 manifolds appear in string and M-theory respectively as denoscriptions of the extra spatial dimensions that arise in the theories. Since 2017 machine-learning techniques have been applied extensively to study Calabi-Yau manifolds but until 2024 no similar work had been carried out on holonomy G2 manifolds. In this talk, I will firstly show how topological properties of these manifolds can be learnt using neural networks. I will then discuss how one could try to numerically learn metrics on compact holonomy G2 manifolds using machine-learning and why these approximations would be useful in M-theory."

https://www.youtube.com/watch?v=3gRquXqwtU8
#learning

"Main takeaways:

Don’t waste time finding the “best course.”
Learn, then immediately implement. Particularly when it comes to coding.
A volume approach to applying for jobs is a viable option.

It’s more about the problem and how you frame it than the tools you use.
Continual learning is probably the only “secret” to becoming a good data scientist.
Always focus on business impact.
Gain a great grounding in statistics.

Learn how to write production code and deploy your algorithms.
Have an idea or know what you want to specialise in.
Gain some awareness of software engineering principles and best practices.
Change companies if you feel like your skills are not growing.

Be visible to help get promoted. You can do this by volunteering for presentations and sharing your work.
Develop some machine learning engineering skills.
Execute every task to a high standard to build trust."

https://medium.com/towards-data-science/4-years-of-data-science-in-8-minutes-6ea5b10f0192
#politics #war

Евросоюз, похоже, на сотни миллиардов евро увеличивает военные бюджеты.

Как поехавшие крышей питекантропы, развязавшие бессмысленную войну, ещё и отбирают деньги у научных инициатив.

Не будет в близком будущем у нашей цивилизации хороших телескопов, систем противоастероидной безопасности, баз на других планетах, более мощных ускорителей элементарных частиц.

https://www.youtube.com/watch?v=tAx8UB4ruOs
😢1
#dyatlovpass #mysteries #ai #nlp #criminology #tragedy #mountains

В очередной раз попалось в рекомендациях видео по загадке трагической гибели туристов на перевале Дятлова.

Это хорошо документированная, но не имеющая очевидного решения тайна 1959-го года.

Есть десятки версий, ни одна полностью не объясняет всю фактологическую базу.

Дело осложняется тем, что "интернет-эксперты", авторы версий, зачастую не дружат с логикой и не способны делать корректные выводы даже из ясных и простых посылок.

У меня давно была идея сконструировать экспертную систему с материалами дела, с визуализацией цепочки событий (по времени и месту), "нечёткой логикой", и, самое главное, системой оценки и сравнения версий.

Каждый факт (свидетельство с определённой степенью достоверности) из экспертной системы может противоречить либо не противоречить определённой версии.

Тогда можно было бы найти версию, объясняющую наибольший объём фактов, определить недостоверные факты и даже недостоверные источники информации.

Раньше не было возможности такое запилить, но с современным ИИ это стало возможным в течение последних 2 лет.

Эта система, в случае создания, может быть масштабирована на все сложные криминологические случаи.

Ну и в целом это может быть прикольным проектом, с авто анализом текстов, изображений, геомоделированием, психологией.

Если кто вдруг заинтересован в совместной работе в этом направлении, пишите.
👍1
#hardware #storage #ssd

"Micron анонсировала этот накопитель как первый в индустрии PCIe 6.0 SSD, заявив скорость чтения в 26 Гбайт/с. Однако испытания на стенде Astera Labs позволили превзойти эти ожидания — скорость чтения достигла 27,14 Гбайт/с для каждого из двух SSD в тестовой системе. Для сравнения, самый быстрый из протестированных PCIe 5.0 SSD, Crucial T705, показал максимум 14,5 Гбайт/с, что составляет лишь половину нового рекорда Micron.

Достичь таких показателей помог сетевой коммутатор Astera Scorpio P-Series Fabric Switch, поддерживающий до 64 линий PCIe 6.0. Этот коммутатор был разработан для высокопроизводительных вычислений (HPC) и искусственного интеллекта (ИИ), обеспечивая быструю связь между процессорами, видеокартами и хранилищами. Кроме того, в тестах использовалась технология Nvidia Magnum IO GPUDirect (GDS), позволяющая устройствам хранения данных напрямую взаимодействовать с памятью GPU, минуя центральный процессор и уменьшая задержки.

Отметим, что стандарт PCIe 6.x продолжает совершенствоваться и развиваться (актуальная версия — PCIe 6.3), обещая стать новым отраслевым стандартом как для корпоративных решений, так и в перспективе для потребительских устройств. Если PCIe 5.0 обеспечивает двустороннюю пропускную способность до 128 Гбайт/с на шине x16, то PCIe 6.x удвоит этот показатель до 256 Гбайт/с."

https://3dnews.ru/1119456/micron-pokazala-samiy-bistriy-ssd-v-mire-s-pcie-60-i-skorostyu-do-27-gbayts
#python #security #pypi

"Проблема возникла из-за удаления зависимости msgspec-python313-pre из репозитория PyPI (Python Package Index), который содержит тысячи сторонних модулей для Python. Злоумышленники добавили в репозиторий вредоносный пакет с тем же именем, который даёт им возможность удалённого выполнения произвольного кода на уязвимых системах, что может привести к компрометации данных, краже информации и полному контролю над заражённым ПК."

https://3dnews.ru/1119504/millioni-kompyuterov-okazalis-pod-ugrozoy-vzloma-izza-kriticheskoy-uyazvimosti-svyazannoy-s-python
#vr #apple #visionpro

"Apple начнёт выпускать концертные записи Immersive Video, созданные специально для просмотра на гарнитуре виртуальной реальности Vision Pro. Уже в пятницу, 14 марта, выйдет шоу группы Metallica, снятое на камеры со 180-градусным обзором на концерте в Мехико в рамках мирового тура культового коллектива."

https://3dnews.ru/1119597/apple-vipustit-kontsert-metallica-s-pogrugeniem-dlya-vision-pro-s-bespretsedentnim-dostupom-k-muzikantam
#astronomy

"Обсерватория SPHEREx впервые проведёт полный обзор неба в 102 «цветах» инфракрасного спектра. Известно, что длина волны света растягивается по мере движения по Вселенной, смещаясь в красную и инфракрасную области, после чего становится невидимой человеческому глазу. Именно эта область спектра несёт информацию о заре Вселенной. Инфракрасный телескоп SPHEREx соберёт данные об эпохе реионизации, когда начали светить первые звёзды, а также заглянет сквозь завесы пыли и газа в поисках следов льда.

Ожидается, что за два года работы SPHEREx соберёт данные о более чем 450 млн галактик и свыше 100 млн звёзд в Млечном Пути. Телескоп будет работать примерно в том же диапазоне, что и «Джеймс Уэбб», но с гораздо более широким охватом. Благодаря широкоугольной оптике обсерватория проведёт первый полный обзор неба уже за первые шесть месяцев наблюдений. Это будет колоссальный объём данных.

Комплекс спутников PUNCH предназначен для трёхмерного наблюдения за процессами в солнечной короне и верхних слоях атмосферы Солнца. Один из аппаратов оснащён узконаправленным телескопом с коронографом для изучения солнечной короны, а три других имеют широкоугольные датчики для поляриметрии. Наблюдение за поляризацией солнечного излучения позволяет воссоздать процессы, происходящие в верхних слоях атмосферы Солнца и его короне.

Данные со всех четырёх аппаратов PUNCH позволят воспроизвести солнечную динамику в максимально полном объёме. Это необходимо для изучения механизмов формирования солнечного ветра и, в конечном итоге, для разработки долгосрочных прогнозов космической погоды. Солнечный ветер и выбросы плазмы могут оказывать влияние на электронику космических аппаратов и наземную инфраструктуру. Кроме того, они воздействуют на климат Земли и на биологические процессы, включая здоровье людей. Изучение Солнца особенно важно, поскольку учёные до сих пор не полностью понимают физику его процессов."

https://3dnews.ru/1119590/nasa-zapustilo-kosmicheskie-teleskopi-punch-i-spherex-dlya-raskritiya-tayn-solntsa-i-ranney-vselennoy
#qunatumcomputing #dwave

"Как рассказал Эндрю Кинг (Andrew King), старший научный сотрудник D-Wave, моделирование нового материала со сложным магнитным полем с помощью квантового компьютера было выполнено менее чем за 20 минут. У ведущего суперкомпьютера Ок-Риджской национальной лаборатории аналогичная задача заняла бы около миллиона лет для достижения того же уровня детализации.

В компании заявили, что эта демонстрация стала первым случаем применения квантового компьютера для решения задач, имеющих практическое применение. По словам Бараца, возможность моделировать новые магнитные материалы, широко используемые в промышленности, означает, что их свойства могут быть изучены ещё до запуска в производство.

Подход D-Wave заметно отличается от методологии других разработчиков квантовых компьютеров. Вместо того чтобы пытаться создать универсальный квантовый компьютер, способный решать практически любые задачи, D-Wave выбрала более узкоспециализированный подход — квантовый отжиг. Эта технология лучше всего подходит для решения сложных оптимизационных задач, а также для некоторых видов моделирования материалов.

Несмотря на более узкую сферу применения, эта технология остаётся востребованной в бизнесе. Например, квантовая система хорошо справляется с «задачей коммивояжёра» — поиском оптимального маршрута между большим количеством различных точек.

В эксперименте был задействован прототип квантового компьютера Advantage2, который насчитывает более 1200 кубитов и более 10 000 «каплеров» (couplers) и доступен для клиентов D-Wave через облачный квантовый сервис Leap в реальном времени. Этот прототип значительно быстрее систем Advantage предыдущего поколения и позволяет находить более качественные решения для больших и сложных задач, отмечает производитель. Более того, в настоящее время D-Wave располагает процессором Advantage2, который в четыре раза превышает по мощности задействованный в эксперименте прототип.

D-Wave утверждает, что её машины коммерчески полезны уже много лет, хотя компании с трудом удаётся построить масштабный бизнес. Первые три квантовых компьютера она продала 14 лет назад, в том числе один консорциуму, в который входили Google и NASA, а затем перешла к продаже доступа к своей технологии через облако. За первые девять месяцев 2024 года выручка компании составила всего $6,5 млн, а убыток — $57 млн. Тем не менее в D-Wave считают, что четверть века, потребовавшиеся на достижение квантового превосходства, — вполне разумный срок по сравнению с десятилетиями, которые понадобились для коммерциализации традиционных компьютеров после изобретения транзистора."

https://3dnews.ru/1119636/eto-svyatoy-graal-kvantovih-vichisleniy-dwave-dostigla-kvantovogo-prevoshodstva
#ai #llms #gpt

"В моделях семейства GigaChat 2.0 улучшена работа с контекстом беседы: они способны отвечать на сложные длинные вопросы и анализировать увеличенные объёмы текста. Если ранее максимальный объём составлял 48 страниц A4 (шрифт 14 pt), то теперь этот показатель вырос до 200 страниц. Это позволяет создавать более качественные чат-боты на основе GigaChat 2.0. Вдвое увеличилась способность следовать инструкциям пользователя, а качество ответов на вопросы повысилось на 25 %.

Флагманская GigaChat 2 MAX заняла первое место среди ИИ-моделей в независимом тесте MERA для русского языка. В бенчмарках MMLU на русском и английском она показала результаты на уровне мировых лидеров и по некоторым критериям превзошла их."

https://3dnews.ru/1119676/sber-predstavil-silneyshiy-russkoyazichniy-ii-gigachat-20
#music #poetry #fantasy

"Beyond desertic fields of ice
Monstrous winds claim for their homeland
Defied, everything that stands still
Is hit by the cold in their hearts
Sung is this desolating
Victory, by the dead trees and the
Troubling choirs of tortured wind
Enchanting melodies of the Dark

Beyond the magnanimity
Of white snow's claimed purple gardens
One grand crystal palace was built
Symbol of the ruling of death
Hidden in a crystalline room
Stands the only living flower
Trapped in a magic box of the
Only ice beholder of a spark

Lost once more, I don't know where to go
Lost the sacred memory
I forgot, where am I from?
One broken branch from the grapevine

Lost my only heart's bed
No where can he rest all peacefully laid
Another lost wanderer was born
How could I lose myself so easily?

Behold the magic
From Gaia's darkest child's
Relentless lips
Kissing all your sins

Seduced, I finally
Stood still against the wind
My heart was not cold
My heart was no more

In the realm of Forever-Night,
My one and, one and only, my only heart is lost

The only thing for me to do is to
Free the last flower from its wicked prison
It has the power to unveil the truth and the honor
But this Forever-Night will last until Aeon's dawn

Beyond snow's invaded lands
An infant hides and stares at the sky
Covered by the dying clouds
Of greyness and of emptiness
Beyond the Forever-Night
An infant deprived from her heart
Gets up and begins his last walk
She's heading for the crystal palace

...where her last hope still lives"

https://soundcloud.com/anemonia/02-enchanting-melodies-of-eternal-nights
#ai #security

"Авторы статьи считают, что государства должны отдавать приоритет доктрине сдерживания, а не победе в гонке за искусственный сверхразум. MAIM подразумевает, что попытки любого государства достичь стратегической монополии в области ИИ столкнутся с ответными мерами со стороны других стран, а также приведут к соглашениям, направленным на ограничение поставок ИИ-чипов и open source моделей, которые по смыслу будут аналогичны соглашениям о контроле над ядерным оружием.

Чтобы обезопасить себя от атак на государственном уровне с целью замедлить развитие ИИ, в статье предлагается строить ЦОД в удалённых местах, чтобы минимизировать возможный ущерб, пишет Data Center Dynamics."

https://servernews.ru/1119678
#tesla #security

"Давно известно, что Tesla активно избавляется от лишних, по её мнению, датчиков на своих электромобилях, неустанно повторяя, что человеку для оценки дорожной обстановки достаточно глаз и головного мозга. Системы активной помощи водителю Tesla в настоящее время полагаются преимущественно на данные, получаемые с комплекса бортовых камер. Более осторожные автопроизводители предпочитают добавлять как минимум ультразвуковые датчики, а в идеале полагаться на данные оптических радаров (лидаров), распознающих препятствия даже в условиях ограниченной видимости.

Блогер Марк Робер сравнил эффективность систем автопилота, оснащённых лидаром и полагающихся исключительно на изображения с камер. В первом случае испытывался прототип на базе кроссовера Lexus, оснащённый дополнительным оборудованием, включая лидар. Во втором случае с ним сравнивалась штатная бортовая система Tesla Model Y. Последней, как пришлось выяснить по итогам серии экспериментов, не удалось обнаружить манекен пешехода в условиях сильного тумана или дождя."

https://youtu.be/IQJL3htsDyQ?t=968