Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
634 photos
40 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Facebook заявил, что их разработка TransCoder может конвертировать код из одного языка программирования высокого уровня в другой.
Система, которую исследователи Facebook описывают как «нейронный транскомпилятор», использует неконтролируемый подход к обучению для перевода между такими языками, как C ++, Java и Python.
Исследователи обучили TransCoder в общедоступном корпусе GitHub с более чем 2,8 миллионами репозиториев с открытым исходным кодом.
Чтобы оценить его возможности, исследователи извлекли 852 параллельных функции в C ++, Java и Python из онлайновой платформы GeeksforGeeks и разработали новый показатель точности вычислений, который проверяет, генерируют ли функции гипотезы те же выходные данные, что и эталонные, при наличии тех же входных данных.
Как писали исследователи, «TransCoder легко обобщается на любой язык программирования, не требует специальных знаний и значительно превосходит коммерческие предложения».
Хайп вокруг Big Data утихает, но идеальное хранилище под большие данные — всегда актуальная тема: чтобы легко масштабировалось под любой объем и предоставляло расширенные возможности по обработке данных.

Современные базы бывают именно такими. Мы расскажем, почему DWH лучше строить в облаке и какие есть Best Practice для архитектуры.

👉 Регистрируйтесь на наш вебинар про управляемую СУБД на основе Greenplum, разработанную специально для решения аналитических задач — от BI до AI.

Встретимся в четверг 18 июня, онлайн. Начало в 17:00 по Москве, регистрация обязательна: https://events.webinar.ru/mcs/arenadatadb
This media is not supported in your browser
VIEW IN TELEGRAM
Не редко возникает задача убрать лишние пробелы с начала/конца строки. Например
a = 'Доброе утро, Иван'
message, name = a.split(',')
print(name)
> ' Иван' # (лишний пробел сначала строки)
Что получить имя пользователя в чистом виде - хорошо бы убрать лишние символы (если они там есть). Лишними символами чаще всего являются - \r \n пробелы - и все это в большом количестве Для этого в Python есть метод striprstriplstrip
new_str = name.strip() # Удалит пробелы в начале и в конце строки
new_str = name.rstrip() # Удалит только в начале
new_str = name.lstrip() # Удалит только в конце
This media is not supported in your browser
VIEW IN TELEGRAM
Facebook выплатит инженеру Mapbox $500 тысяч за алгоритм распознавания фейков
Facebook опубликовал результаты конкурса по созданию алгоритмов распознавания поддельных видео. Победителем стал Селим Сефербеков — компьютерный видео-инженер в компании Mapbox с центром разработки в Минске, пишет  ndelo.ru
This media is not supported in your browser
VIEW IN TELEGRAM
Прорыв в среду IT без учёной степени. Джейсон Ванг
Джейсон Ванг — из семьи иммигрантов, прибывших в Америку на поиски лучшей жизни. Он поступил в университет на сестринское дело, затем переквалифицировался в международный бизнес, после чего на третьем году обучения решил бросить учёбу. Переехав в Сиэтл, он несколько лет перебивался случайными заработками и размышлял о решительном переходе в индустрию IT. Благодаря поддержке родителей и воодушевлению со стороны друзей, летом 2018 он принял решение “всё или ничего”.
Посвятив себя самообучению и пройдя курсы, он прошел путь от новичка до стажёра, а затем и до инженера-разработчика всего за один год.
Как ему это удалось?
Он отлично освоил алгоритмы и структуры данных, не переставал писать код, изучал сетевые ресурсы, старался всё делать профессионально, проводил время на форуме программистов и никогда не утрачивал веру в себя.
This media is not supported in your browser
VIEW IN TELEGRAM
Полезные библиотеки: swig - запускаем C-код из Python
Для работы с С-библиотеками есть несколько способов: - Писать программу на С/C++ и подключать DLL (.so) файлы - Попытаться напрямую запустить C код из нужного языка.
Перед тем как продолжить - зачем нужно запускать C/C++ код? Все просто - например, работаем с железом, а значит и с драйверами (а их пишут на C). Вот здесь и появляется необходимость взаимодействовать с С кодом.
В Python есть несколько вариантов запуска С/C++ кода (без модификации исходного кода) - ctypes, cliff или даже swig.
Хотите получить практические навыки по программированию искусственного интеллекта? В SkillFactory скоро стартует специализация «AI разработчик». Спрос на таких специалистов намного выше, чем предложение.

На курсе вы освоите:
— машинное обучение с нуля до продвинутого уровня
— Computer Vision, NLP, Reinforcement learning
— и нейронные сети
По окончанию обучения вы сможете проектировать и внедрять рекомендательные системы, участвовать в fintech проектах, создавать интерактивных агентов технологиями NLP и многое другое.

Курс основан на практике, к каждому студенту прикрепляется ментор, который поможет пройти путь в новую профессию.

💼Карьерный центр поможет вам оформить резюме, начать проходить собеседования и освоить необходимые soft skills.

🎯Последний день действует скидка 40% на курс — успейте записаться с выгодой:
https://clc.to/_Nh2Dw
This media is not supported in your browser
VIEW IN TELEGRAM
Искусственный интеллект встанет на защиту API
Selectel, провайдер облачных сервисов и услуг дата-центров, и Salt Security, компания-разработчик средств информационной безопасности, вывели на российский рынок платформу для защиты API.
Эксперты относят атаки на программные интерфейсы приложений (API) к наиболее серьезным угрозам для корпоративных информационных систем. Посредством API осуществляется множество транзакций, в том числе и с конфиденциальными данными. Их уязвимость создает растущую проблему безопасности, которую нельзя полностью решить традиционными инструментами.
This media is not supported in your browser
VIEW IN TELEGRAM
От хранения до аналитики: принцип «одного окна» в работе с данными
Компании собирают все больше как структурированных, так и неструктурированных больших данных. Однако не все BI-инструменты могут работать с Big Data, а традиционные хранилища не справляются с миллиардами записей – в результате бизнес вынужден использовать несколько решений для работы с данными и тратить большие ресурсы на их интеграцию. А возможно ли вести всю работу с данными, используя лишь одну платформу?
This media is not supported in your browser
VIEW IN TELEGRAM
Интересные концепции: webhook
Webhook — механизм получения уведомлений об определённых событиях (в основном о действиях пользователей) на свой собственный сайт. В момент срабатывания события - бросается запрос (чаще всего POST) на указанный URL.
Например, разновидность Webhook - GitHook - отслеживает статус Git-репозитория на предмет изменений - пришел коммит на определенную ветку, проставили тэг и другое.
This media is not supported in your browser
VIEW IN TELEGRAM
Прогноз развития ИТ в России от НИУ ВШЭ: темные мысли о светлом будущем
Институт статистических исследований и экономики знаний НИУ ВШЭ подготовил отчет о перспективах развития российской ИТ-отрасли. Главные выводы исследования опубликованы на сайте НИУ ВШЭ. Там, в частности, отмечается, что в последние годы российский ИТ-рынок рос — минимальное значение роста в 5% отмечалось в 2016 году, а максимальное 21,8% в 2012-м.
Тем не менее, в ближайшее время на рынке ожидается спад, в ВШЭ ожидают, что к уровню 2019 года российский ИТ-рынок вернется не ранее 2024 года.
Тем не менее, отмечают создатели документа, если государство поможет отрасли налоговым стимулированием и созданием спроса на ИТ-продукты, все может быть намного лучше.
This media is not supported in your browser
VIEW IN TELEGRAM
Как искусственный интеллект меняет маркетинг
По оценкам Deloitte, почти 50% компаний уже использует машинное обучение в маркетинге. ИИ генерирует контент, настраивает рекламу, анализирует аудиторию и общается с клиентами.
Всем привет, сегодня @stalkerser составил подборку интересных каналов:

♦️ @prorobots - Этот канал с интересными новостями роботизации, с упором на тренды в этой области. То есть не просто новости, а их анализ, прогнозы, мнения.
♦️ @devsp - Статьи на тему data science, machine learning, big data, python, математика
♦️ @ChanelPC - Обзоры и тестирования компьютерных комплектующих, периферийных и сетевых устройств, игровых аксессуаров
♦️ @dotnetreview Авторские статьи по технологиям, языкам программирования и инструментам для разработки в .Net.
This media is not supported in your browser
VIEW IN TELEGRAM
Искусственный интеллект на квадратном миллиметре
Мозг человека часто сравнивают с компьютером. Машины давно обогнали содержимое черепной коробки в скорости и объеме вычислений, однако ученые продолжают вдохновляться устройством природного «компьютера» при создании машин нового поколения. Разработчиков прельщает принцип передачи информации между синапсами мозга — соединениями между нейронами. Синапс получает сигналы от одного нейрона в виде ионов и отправляет сигнал дальше по цепочке следующему нейрону.
This media is not supported in your browser
VIEW IN TELEGRAM
Сайт для разработчиков Stack Overflow провел опрос среди 65 тыс. пользователей, чтобы узнать, какие языки программирования они знают и сколько им за это платят. С помощью этих данных Stack Overflow составил рейтинг, расположив языки по возрастанию дохода, который они приносят программистам. При подсчете результатов была использована медианная зарплата за 50 рабочих недель, иностранную валюту конвертировали в доллары.
This media is not supported in your browser
VIEW IN TELEGRAM
В Москве внедрили проект по голосовому заполнению медицинских карт
Группа компаний ЦРТ оптимизировала работу врачей лучевой диагностики с помощью интеллектуальных речевых технологий.
В основе решения — Voice2med, продукт на основе искусственного интеллекта, созданный группой ЦРТ с нуля, который позволяет надиктовывать информацию для карт, протоколов и других документов через гарнитуру. Система распознает все медицинские термины и выражения.
Как утверждают в компании, качество распознавания речи составляет 97–98%. Во время проведения исследования врач надиктовывает текст, который в режиме реального времени распознается и автоматически переносится в состав заполняемого протокола в медицинскую информационную систему. Решение позволяет избавить медицинских работников от рутинных записей и сфокусироваться на исследовании.
This media is not supported in your browser
VIEW IN TELEGRAM
Пакеты Julia для машинного обучения 
Несмотря на то, что Julia все еще относительно молодой и перспективный язык, иногда он просто поражает своей не по годам зрелой экосистемой. Особенно это проявляется в области машинного обучения. И, хотя другие языки, например Python, могут похвастаться большим количеством проработанных пакетов для этой области, соответствующие им аналоги в Julia определенно заслуживают нашего внимания. Во-первых, эти пакеты написаны на быстром высокоуровневом языке, а во-вторых, они представляют собой великолепные компоненты ПО, простые в применении, независимо от того, из какого языка они используются.
Всем привет!

В четверг 25 июня мы зовем всех, кого интересуют вопросы современных производительных баз данных, присоединиться к нашему Online Databases Meetup #2.

В программе:

📌 Как собрать гибридное облако на Kubernetes, которое может заменить DBaaS, покажет Пётр Зайцев, CEO Percona.

📌 Как Mail.ru Cloud Storage эволюционировало за свои три года в проде и вместе с ним менялся подход к Tarantool в его архитектуре, поделится Владимир Перепелица, архитектор Mail.ru Cloud Solutions

📌 Всё о JSON в Postgres расскажет Олег Бартунов, сооснователь, CEO Postgres Professional.

📌 А стратегическими планами по развитию Postgres Pro поделится Иван Панченко, сооснователь, заместитель генерального директора Postgres Professional.

Приходите, будет интересно!

Для участия необходимо зарегистрироваться:
https://corp.mail.ru/ru/press/events/databases-2/
This media is not supported in your browser
VIEW IN TELEGRAM
Российские программисты воплотили метафору в реальность.
Выражение «говорящая голова» встречалось почти каждому. В различных контекстах оно может обозначать разные понятия: от телевизионного ведущего-новостника, диктора за столом в студии, до человека, который особо не раздумывает над смыслом произносимых тезисов. Российские программисты решили, что этому выражению пора обрести реальное воплощение.
This media is not supported in your browser
VIEW IN TELEGRAM
Мишустин предложил снизить страховые взносы и налог на прибыль IT-компаниям
Премьер-министр России Михаил Мишустин предложил снизить страховые взносы для IT-компаний с 14% до 7,6%, а также уменьшить налог на прибыль с 20% до 3%. Об этом сообщают «Ведомости» со ссылкой на двух федеральных чиновников.
Помимо этого, предлагается отменить НДС с рекламы разработок и софта на зарубежных цифровых площадках. Также разработчики софта могут получить возможность на получение специальных субсидий.
Все изменения будут бессрочными.
This media is not supported in your browser
VIEW IN TELEGRAM
Распространенные задачи, которые решают алгоритмы машинного обучения

Распределение клиентских заявок по рейтингу
Оценка входящих запросов на e-commerce площадках для их распределения по степени маржинальности и вероятности сделки. Качественные запросы (“горячие лиды”) направляются отделу продаж для обработки в первую очередь. На них можно назначить самых опытных менеджеров, чтобы повысить вероятность заключения сделки. Для некоторых ритейл-проектов конверсия повышается в 2 раза, если связаться с автором качественной заявки в течение первых 15 минут после заполнения.