Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#storage #parquet

Оказывается, в паркетных файлах много настроек, от размера группы до кодировки. трюк с хранением timestamp как отсортированной timedelta позволяет сэкономить 17% размера файла.

Советуют хранить float в кодировке BSS, проверять эффекты сортировки, брать сжатие zstd по дефолту, но обращать внимание на время записи/чтения файла.

https://www.youtube.com/watch?v=GkBDqTrV0hg
👍1
#nobelprize

Шта? Бред какой-то... Нет, я в чем-то рад, что нейросети и ИИ прокрались в нобелевский комитет, но...

"В основе ряда нейронных сетей, алгоритмов машинного обучения и искусственного интеллекта лежат глубокие открытия в области физики, о чём сегодня заявили представители Нобелевского комитета Каролинского института Стокгольма. Премия 2024 года за эти заслуги присуждена физику Джону Хопфилду (John Hopfield) и математику Джеффри Хинтону (Geoffrey Hinton).

«Работа лауреатов уже принесла наибольшую пользу. В физике мы используем искусственные нейронные сети в широком спектре областей, таких как разработка новых материалов с определенными свойствами», — прокомментировала награждение Эллен Мунс (Ellen Moons), председатель Нобелевского комитета по физике."

https://3dnews.ru/1112153/nobelevskuyu-premiyu-po-fizike-dali-za-sozdanie-osnov-neyrosetey-i-mashinnogo-obucheniya
#management #amd

"Десять лет назад, 8 октября 2014 года, доктор Лиза Су (Lisa Su) была назначена на должность генерального директора и президента AMD. На тот момент компания находилась в глубоком кризисе — её акции торговались ниже $3, а рыночная капитализация составляла чуть более $2 млрд после потери $1 млрд за несколько месяцев. Сегодня AMD оценивается в $278 млрд, и это стало возможным благодаря руководству Су, которая привела компанию к трансформации и успеху."

https://3dnews.ru/1112182/liza-su-otmetila-10-let-na-postu-generalnogo-direktora-amd
Forwarded from Data notes
RM_DS_position.pdf
87.4 KB
Ищем в наш нигерийский банк DS с уклоном в риск-аналитику.

Задачи - развивать риск-движок, "пополнять" его новыми моделями, интегрировать новые истоники данных и многое другое.
Подойдет тем, кто хочет в перспективе выйти на международный рынок труда, освоить "мировые" облачные технологии (AWS) и при этом работать на удаленке из РФ. Год назад здесь не было буквально ничего, так что работать еще есть над чем, многое предстоит сделать с нуля.
Точно не подойдет, если вы привыкли, что все данные разложены по полочкам, все процессы выстроены и каждый занимается только своими задачами. Плюс много общения с нигерийцами, что требует много усилий и терпения.

Писать в личку.
#chemistry #nobelprize

"Шведская королевская академия наук разделила Нобелевскую премию по химии за 2024 год между Дэвидом Бейкером (David Baker) из Университета Вашингтона и Демисом Хассабисом (Demis Hassabis) и Джоном Джампером (John Jumper) из Google Deep Mind за создание машинных алгоритмов по предсказанию структуры белков. Поскольку оба достижения направлены на изучение белков — кирпичиков биологической жизни на Земле — эта работа учёных бесценна.

Демис Хассабис и Джон Джампер с коллегами из Deep Mind представили платформу AlphaFold широкой общественности в 2018 году. С тех пор вышло несколько версий программы вплоть до третьей в мае этого года. До появления AlphaFold биологи и химики фактически вручную прогнозировали объёмные структуры белков. Все они состоят примерно из двух десятков аминокислот. В зависимости от последовательностей соединений итоговый белок примет в пространстве ту или иную уникальную конфигурацию.

Белок будет полезным, если его форма подойдёт как ключ к замку к тому или иному соединению, живой клетке или её элементу. Тогда он сможет присоединиться и прореагировать. Это позволяет открывать новые лекарства, ферменты и многое другое в биологии и химии. Но предсказать 3D-форму новых белков среди сотен миллионов вариантов — это непосильная для человеческого ума задача. Программа AlphaFold играючи предсказала пространственную форму всех уже известных науке 200 млн белков и готова предсказывать форму не существующих в природе соединения аминокислот.

Дэвид Бейкер делал эту работу за многие годы до появления AlphaFold. Он создал абсолютно новый и ни на что не похожий белок ещё в 2003 году, чем также заслужил признание со стороны Комитета нобелевской премии. В этом году награда нашла героев."

https://3dnews.ru/1112209/nobelevskuyu-premiyu-po-himii-razdelili-uchyoniy-po-sintezu-nevozmognih-belkov-i-sozdateli-neyroseti-dlya-predskazaniya-strukturi-belkov
👍2
#lmul #transformers #floats

"Новый метод может сократить использование энергии вплоть до 95 %. Команда называет своё открытие «Умножением линейной сложности» (Linear-Complexity Multiplication) или сокращённо L-Mul. Как пишет TechSpot, этот вычислительный процесс основан на сложении целых чисел и требует значительно меньше энергии и операций по сравнению с умножением чисел с плавающей запятой, которое широко применяется в задачах, связанных с ИИ.

На сегодняшний день числа с плавающей запятой активно используются в ИИ для обработки очень больших или очень малых чисел. Они напоминают запись в бинарной форме, что позволяет алгоритмам точно выполнять сложные вычисления. Однако такая точность требует крайне больших ресурсов и уже вызывает определённые опасения, так как некоторым ИИ-моделям нужны огромные объёмы электроэнергии. Например, для работы ChatGPT требуется столько электроэнергии, сколько потребляют 18 000 домохозяйств в США — 564 МВт·ч ежедневно. По оценкам аналитиков из Кембриджского центра альтернативных финансов, к 2027 году ИИ-индустрия может потреблять от 85 до 134 ТВт·ч ежегодно.

Алгоритм L-Mul решает эту проблему за счёт замены сложных операций умножения с плавающей запятой на более простые сложения целых чисел. В ходе тестирования ИИ-модели сохранили точность, при этом энергопотребление для операций с тензорами сократилось на 95 %, а для скалярных операций на 80 %.

L-Mul также улучшает и производительность. Оказалось, что алгоритм превосходит текущие стандарты вычислений с 8-битной точностью, обеспечивая более высокую точность с меньшим количеством операций на уровне битов. В ходе тестов, охватывающих различные задачи ИИ, включая обработку естественного языка и машинное зрение, снижение производительности составило всего 0,07 %, что специалисты сочли незначительной потерей на фоне огромной экономии энергии.

При этом модели на основе трансформеров, такие как GPT, могут получить наибольшую выгоду от использования L-Mul, поскольку алгоритм легко интегрируется во все ключевые компоненты этих систем. А тесты на популярных моделях ИИ, таких как Llama и Mistral, показали даже улучшение точности в некоторых задачах."
https://3dnews.ru/1112241/noviy-algoritm-lmul-pomoget-snizit-energopotreblenie-ii-na-95-no-nvidia-eto-ne-ponravitsya
#sports #tennis #cv

"Всеанглийский клуб лаун-тенниса и крокета объявил о революционных изменениях в судействе старейшего теннисного турнира серии Большого шлема — Уимблдона. По сообщению AP News, с 2025 года на Уимблдоне будет использоваться искусственный интеллект для вынесения решений об аутах и ошибках подачи. Линейных судей, которые прежде отвечали за фиксацию этих событий, поблагодарили за значительный вклад и преданную службу."

https://3dnews.ru/1112240/uimbldon-zamenit-v-2025-godu-lineynih-sudey-na-iskusstvenniy-intellekt
#stocks #nvidia

Шо, опять вставать в лонг по ним?!

"За последний месяц акции Nvidia выросли на 25 % и приблизились к рекордным значениям. Это произошло на фоне ожиданий инвесторами отчётности крупнейших технологических компаний, таких как Meta, Microsoft и Alphabet, которые вскоре расскажут о своём развитии в области ИИ. Эти данные могут оказать значительное влияние на позиции Nvidia, учитывая её ключевую роль на рынке графических процессоров (GPU), применяемых для обучения и работы ИИ."

https://3dnews.ru/1112255/aktsii-nvidia-vzleteli-na-25-pered-otchyotnostyu-krupnih-tehnologicheskih-gigantov
#physics #dune #neutrino

Вот за подобные экспериментальные работы нужно давать нобелевки по физике, а не за абстрактный матаппарат нейросетей, при всём уважении.

"Чуть больше месяца назад завершились масштабные земляные работы, в ходе которых было извлечено 800 тыс. тонн породы. На очереди подготовка помещений к развёртыванию оборудования, на что уйдут годы.

Эксперимент Deep Underground Neutrino Experiment (DUNE) будет включать два детектора нейтрино: ближний и дальний. База между источником мюонных нейтрино в Фермилаб и дальним детектором составит 1300 км. Ближний детектор будет размещён недалеко от источника, а дальний — в Южной Дакоте под Сэнфордской лабораторией. В августе рабочие закончили извлекать грунт под Сэнфордской лабораторией, создав, в том числе под землёй пространство для детектора высотой с 7-этажный дом.

Впечатляющий объём грунта между лабораторным источником нейтрино и дальним детектором, а также специальные камеры для них, содержащие по 17 тыс. т жидкого аргона, нужны для отсеивания нейтрино из других источников (космические и, особенно, солнечные), а также для фильтрации иных элементарных частиц. Нейтрино очень слабо взаимодействуют с веществом. Им нужны хорошие фильтры и особые детекторы. Например, чтобы повысить вероятность столкновения нейтрино с веществом до 50 % необходимо направить его сквозь сплошную стену свинца толщиной в один световой год. "


https://3dnews.ru/1112261/v-ssha-otrili-gigantskie-podzemnie-tonneli-dlya-novogo-pokoleniya-eksperimentov-s-neytrino
🔥2
#asr #nlp #finetuning #t5

Лектор обалденный. Чистое золото!

Сколько он техник применил для решения реальной задачи, просто жесть. Могу подтвердить, что так всё на практике и бывает, всплывает много мелких проблем, каждую из которых приходится решать творчески.
Я не знал, что моделька t5 так хороша, в эпоху больших-то моделей.

https://youtu.be/blE2Dm9SORE?si=LzGeMhrApdLkqq1R
Practitioners guide to MLOps: A framework for continuous delivery and automation of machine learning by Google Cloud

Across industries, DevOps and DataOps have been widely adopted as methodologies to improve quality and reduce the time to market of software engineering and data engineering initiatives. With the rapid growth in machine learning (ML) systems, similar approaches need to be developed in the context of ML engineering, which handle the unique complexities of the practical applications of ML. This is the domain of MLOps. MLOps is a set of standardized processes and technology capabilities for building, deploying, and operationalizing ML systems rapidly and reliably.

The document is in two parts. The first part, an overview of the MLOps lifecycle, is for all readers. It introduces MLOps processes and capabilities and why they’re important for successful adoption of ML-based systems.

The second part is a deep dive on the MLOps processes and capabilities. This part is for readers who want to understand the concrete details of tasks like running a continuous training pipeline, deploying a model, and monitoring predictive performance of an ML model.

Link: Book

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #mlops
#fun #bobr

Bobr kurwa! Это видео "сделало мой день" )

Ночь, встретил бобра
В тиши, на дороге пустой.
Он
вдруг заметил меня
И стал
удивленный такой.

Его к речке я захотел прогнать
И кричал ему, чтобы напугать:

Pierwszy raz w życiu widzę bobra!
Ale jesteś, kurwa, duży ty!
Pierdolę, ja patrzcie co spotkałem!
Jakie bydlę, bobr kurwa!

"Впервые в жизни вижу бобра!
Ты такой, блин, здоровый!
Офигеть, посмотрите, кого я встретил!
Какое животное, бобр, черт возьми!" (польск.)


https://www.youtube.com/watch?v=-RTVlPINyQ8
#spacex #starship

Обалденные результаты, 1-ю ступень успешно поймали. Теперь она официально пригодна для многократного использования.
Пока диктаторские режимы, ведомые людьми с сознанием питекантропа, воюют с соседями, пытаясь захватить их территории, продвинутые режимы делают шаги к колонизации других планет и открытию тайн Вселенной.

https://www.youtube.com/watch?v=CiJ7MBRc5ec
👍1
#security #auth #telegram

Возможно, просто решил отбить судебный штраф ))
Шучу, конечно, на самом деле инициатива отличная.

"Павел Дуров представил новый инструмент для бизнеса под названием Telegram Gateway, который позволит компаниям верифицировать номера телефонов своих пользователей по самой низкой на сегодня цене — всего $0,01 за одно сообщение с кодом подтверждения, независимо от страны.

Индустрия проверки номеров телефонов — это рынок с оборотом в миллиарды долларов. Telegram, который тратит около $10 миллионов ежемесячно на аутентификацию пользователей, предлагает компаниям избежать этих затрат, гарантируя мгновенную доставку, в отличие от СМС-сообщений, ожидание которых может составлять несколько минут.

Компании получат доступ к подробной статистике, с помощью которой можно отслеживать объём сообщений и управлять бюджетом, а также анализировать конверсии и рост числа пользователей.

Как отмечает Дуров, Telegram Gateway не станет существенным источником дохода мессенджера, однако «эта инициатива сделает мир более эффективным, снизив издержки и цены на эти услуги по всему миру». Что касается безопасности, то здесь предлагается проверенный протокол шифрования с открытым исходным кодом, который, в отличие от SMS, невозможно подделать или подменить с помощью SIM-карты."

https://3dnews.ru/1112453/telegram-zapustil-dlya-kompaniy-uslugu-sverhdeshyovoy-verifikatsii-telefonov-klientov-za-1-tsent
#security

"Собеседник представился и сообщил, что на аккаунте зафиксирована подозрительная активность и спросил, не находится ли Митрович в поездке? После отрицательного ответа задал ещё пару уточняющих вопросов. В процессе разговора сотрудник Microsoft решил проверить номер, используя данные Google. К его удивлению, официальная документация Google подтвердила, что некоторые звонки действительно могут поступать из Австралии, при этом номер казался подлинным. Однако, зная о возможной подмене номеров, Митрович продолжил проверку, попросив звонившего отправить ему электронное письмо.

Тот согласился. При этом на линии во время ожидания были слышны звуки клавиатуры и шумы, характерные для колл-центра, что не должно было вызвать сомнений в подлинности разговора. Однако всё раскрылось в тот момент, когда звонивший повторил «Алло» несколько раз. Митрович понял, что разговаривает с ИИ, так как «произношение и паузы были слишком идеальными».

Бросив трубку, он попытался перезвонить на номер, однако услышал автоматическое сообщение: «Это Google Maps, мы не можем принять ваш звонок». Далее он проверил активность входа в свой аккаунт Gmail (это можно сделать, нажав на фото профиля в правом верхнем углу, выбрав «Управление аккаунтом Google», затем перейдя в раздел «Безопасность» и проверив «Недавнюю активность безопасности»). Все входы в систему, к счастью, оказались его собственными.

Далее Митрович изучил заголовки полученного письма и обнаружил, что мошенник подделал адрес отправителя с помощью системы Salesforce CRM, которая позволяет пользователям устанавливать любой адрес и отправлять письма через серверы Google Gmail. Итог истории в том, что мошенники с помощью ИИ и поддельного Email могут быть настолько убедительны в своих действиях, что даже опытные пользователи могут быть подвергнуты обману. С учётом технологических реалий сегодняшнего дня, единственной защитой является бдительность."

https://3dnews.ru/1112460/noviy-vid-moshennichestva-s-ispolzovaniem-ii-natselen-na-zahvat-millionov-akkauntov-gmail