Code Mining – Telegram
Code Mining
930 subscribers
90 photos
4 videos
8 files
174 links
ML4Code во всей красе, анализ кода и артефактов: лицензии, уязвимости, процессы. Комментарии к актуальным и не очень новостям, аналитика, эпизодический авторский контент, мемасики.

При поддержке: ods.ai, @codescoring
По вопросам — @alsmirn
Download Telegram
Channel created
Code Mining — направление, посвящённое проблематике анализа исходного кода, Data-Driven Software Engineering и смежным темам.

Канал создан как продолжение и расширение трека Code Mining в OpenDataScience сообществе, который появился в 2019 году на Data Fest Siberia 2 в виде двух обзорных докладов «Программисты — пишут, роботы — читают. Зачем бизнесу автоматический анализ кода?» и «Анализ исходных кодов: обзор задач, последних статей и разработок».

Существуем при поддержке https://profiscope.io/, по всем вопросам писать @alsmirn.
В начале августа обновился SPDX License List — самый понятный и известный список Open Source лицензий.
Обновления происходят нечасто, раз в несколько месяцев, прошлое было в марте. В этот раз большая часть добавленных лицензий — локализации разных версий лицензий из семейства Creative Commons Attribution.

https://spdx.dev/license-list-v3-14-released/
Нас часто спрашивают, где же можно почитать квинтэссенцию State of the Art (да-да, та самая SOTA) по теме Data-Driven Software Engineering.

И мы ответим, конечно же материалы с конференций, публикации с которых мы также будем освещать на нашем скормненьком канале в ближайшем будущем.

1. Mining Software Repositories
http://www.msrconf.org/

2. Source Code Analysis and Manipulation
http://www.ieee-scam.org/2020/

3. The International Conference on Software Maintenance and Evolution (ICSME)
https://icsme2020.github.io/ и https://conferences.computer.org/icsm

4. Machine Learning (ML) for Systems
http://mlforsystems.org/

5. Workshop on Computer-Assisted Programming (NeurIPS)
https://capworkshop.github.io/
Copilot может внести до 40% ошибок и уязвимостей в ваш код

Мы запустили канал несколько позже чем это задумывалось и не пишем уже анонсы про такие вещи как Tabnine или Github Copilot. А вот про их обновления или особенности, — с удовольствием!

Тема внесения ошибок и уязвимостей через автогенерацию старая, но не избитая. И сейчас только набирает тренды. Многие в последнее время задаются вопросом о том, как бы так подпортить наборы данных, чтобы работа модели была небезопасной.

Так вот, группа исследователей поисследовала, написала (https://arxiv.org/abs/2108.09293) и выяснила, что можно ничего и не портить, а просто использовать инструменты обученные на Open Source (внезапно ;).

Было сформировано 89 различных сценариев в которых использовались предложения кода из Copilot, в рамках которых написано 1600 программ. По результату проведения ревью, исследователи выяснили, что почти 40% программ получились уязвимыми тем или иным путем (подробнее в статье).

В заключение процитируем:
Overall, Copilot’s response to our scenarios is mixed from a security standpoint, given the large number of generated vulnerabilities (across all axes and languages, 39.33 % of the top and 40.48 % of the total options were vulnerable).


Ждем существенных обновлений в Copilot по качеству и очередных срывов покровов ;).
ODS Open Source Licensing Course

Всё-таки не зря мы писали новость про лицензии ;)

Завтра наш трек CodeMining участвует в линейке курсов в рамках ODS Course Fest #1.

Мы анонсируем коротенький курс про лицензирование свободного программного обеспечения, объясним зачем это всё затевается и как жить дальше с полученными знаниями.

Следить за расписанием анонсов можно тут: https://ods.ai/events/course_fest_1/Timing.

А вживую будет стрим на канале ODS. Подключайтесь!
Code Mining
ODS Open Source Licensing Course Всё-таки не зря мы писали новость про лицензии ;) Завтра наш трек CodeMining участвует в линейке курсов в рамках ODS Course Fest #1. Мы анонсируем коротенький курс про лицензирование свободного программного обеспечения…
Таки да, случился анонс курса по лицензированию на ODS Course Fest #1.

Да, он будет с Data Science уклоном, но я обещал своему адвокату, что материал будет понятен всем ;).

Посмотреть анонс можно здесь.

Обратную связь и пожелания буду рад принять лично — @alsmirn.

Делитесь информацией с коллегами, кому может быть полезным.
Fast Inverse Square Root (Q_rsqrt)

Увы, но немногие современные разработчики знают, что вычисление корней медленнее чем возведение в степень. И уж совсем отдельные 🤓 знают трюки, как ускорить эти процессы, пусть и приблизительно 😉.

Алгоритм быстрого обратного квадратного корня стал известен, когда небезызвестная компания id Software открыла исходники движка Quake 3 Arena.

Делимся потрясающим и 🔥 видео, которое проливает свет на этот вопрос: https://www.youtube.com/watch?v=p8u_k2LIZyo.

Приятного просмотра!
JetBrains DataSpell (EAP)

Ну что, кто-то дождался. JetBrains анонсировали выход новой IDE для Data Science. Фичи можно посмотреть тут.

Пока только EAP, т. е. программа раннего доступа. Если всё пройдет хорошо, то появится и платная версия.

Поживем-увидим.
nbdime - человеческие дифы для Jupiter Notebooks

А вот и как бы в догонку :P.

Одной из самых приличных заноз в мягких местах дата-саентистов является версионирование Юпитер-ноутбуков.

Да-да, есть мнение, что им даже не место в гите, не говоря о продакшене :)

Тем не менее, тул nbdime дает возможность не только вести версионирование удобно, но и проводить мержи.

Подробнее в официальной документации.