Аналитика 4 LLM-моделей: готовый фреймворк для выбора в LegalTech
Вчера закончила сравнение четырёх моделей, которые тестировали юристы. Делюсь не только выводами, но и методологией, она может быть полезна, если у вас похожая задача.
Итоговая матрица тестирования (после отборки) вышла такая: 4 модели, 30 вопросов, 4 ключевых критерия (К1, К2, К3, К4), и N-количество респондентов.
На бумаге все критерии «равны», но в реальном продукте это не так.
Для юриста важнее, чтобы бот дал правильный и подтверждаемый ответ с корректными ссылками, чем чтобы текст был идеальным по структуре. Структуру потом можно причесать через промпт-инжиниринг. Неправильный же ответ — это деньги и репутация.
Поэтому проверяла три гипотезы:
1. все критерии равнозначны,
2. сначала отсекаем «балластную» модель по критическим провалам,
3. даем вес критериям с точки зрения реального UX юриста (К1, К2, К4 важнее К3).
Что получилось:
– При равных весах стабильно лидирует Модель 3, Модель 4 замыкает список.
– По доле критических ошибок (ответ «1» по всем критериям) Модели 1–3 ведут себя одинаково (≈13%), а Модель 4 проваливается (≈31%) на меньшей выборке — это красный флаг для продакшена.
– При введении весов (К1, К2, К4 > К3) порядок моделей не меняется: Модель 3 все равно на первом месте, Модель 4 — кандидат на исключение из тестов. При этом, если менее важному критерию присвоить вес такой же, как и другим важным, и убрать вес значимости у и так очевидного критерия, то К3 ощутимо поднимается по среднему.
Так-то)) Хорошо варьировать веса под разную аудиторию: юристу важно то, что не особо важно при сборке образовательного курса, например.
Вывод: даже при разных подходах к оценке (равные веса, веса по важности для юриста, анализ критических провалов) ранжирование устойчиво. В продакшн логично брать Модель 3, Модель 4 не дорабатывать и выкидывать на этапе тестирования. Улучшение К3 (соответствие CREAC, например) стоит выносить в зону промпт‑инжиниринга и интерфейса, а не в базовый критерий выбора модели.
#LegalTech #LLM #Аналитика #ИИ #AI #PromptEngineering #LegalPromptEngineering
Вчера закончила сравнение четырёх моделей, которые тестировали юристы. Делюсь не только выводами, но и методологией, она может быть полезна, если у вас похожая задача.
Итоговая матрица тестирования (после отборки) вышла такая: 4 модели, 30 вопросов, 4 ключевых критерия (К1, К2, К3, К4), и N-количество респондентов.
На бумаге все критерии «равны», но в реальном продукте это не так.
Для юриста важнее, чтобы бот дал правильный и подтверждаемый ответ с корректными ссылками, чем чтобы текст был идеальным по структуре. Структуру потом можно причесать через промпт-инжиниринг. Неправильный же ответ — это деньги и репутация.
Поэтому проверяла три гипотезы:
1. все критерии равнозначны,
2. сначала отсекаем «балластную» модель по критическим провалам,
3. даем вес критериям с точки зрения реального UX юриста (К1, К2, К4 важнее К3).
Что получилось:
– При равных весах стабильно лидирует Модель 3, Модель 4 замыкает список.
– По доле критических ошибок (ответ «1» по всем критериям) Модели 1–3 ведут себя одинаково (≈13%), а Модель 4 проваливается (≈31%) на меньшей выборке — это красный флаг для продакшена.
– При введении весов (К1, К2, К4 > К3) порядок моделей не меняется: Модель 3 все равно на первом месте, Модель 4 — кандидат на исключение из тестов. При этом, если менее важному критерию присвоить вес такой же, как и другим важным, и убрать вес значимости у и так очевидного критерия, то К3 ощутимо поднимается по среднему.
Так-то)) Хорошо варьировать веса под разную аудиторию: юристу важно то, что не особо важно при сборке образовательного курса, например.
Вывод: даже при разных подходах к оценке (равные веса, веса по важности для юриста, анализ критических провалов) ранжирование устойчиво. В продакшн логично брать Модель 3, Модель 4 не дорабатывать и выкидывать на этапе тестирования. Улучшение К3 (соответствие CREAC, например) стоит выносить в зону промпт‑инжиниринга и интерфейса, а не в базовый критерий выбора модели.
#LegalTech #LLM #Аналитика #ИИ #AI #PromptEngineering #LegalPromptEngineering
❤4🔥3👍1
Привет, это я !
Заливаю свои мюсли, чтобы иметь точку вдохновения:
«В любом размытом споре, где каждый отстаивает свою точку зрения на *здесь могла бы быть ваша реклама, но здесь всего полтора землекопа читателей*, достаточно сказать, что
1. ваши фундаментальные допущения не сходятся, полемика не состоятельна,
2. вам интересны в жизни другие вещи».
Как ребятам из Euclid, которые собрали самую большую на сегодняшний день модель Вселенной. Такие новости.
Всё.
Вы великолепны.
Пользуйтесь.
Заливаю свои мюсли, чтобы иметь точку вдохновения:
«В любом размытом споре, где каждый отстаивает свою точку зрения на *здесь могла бы быть ваша реклама, но здесь всего полтора землекопа читателей*, достаточно сказать, что
1. ваши фундаментальные допущения не сходятся, полемика не состоятельна,
2. вам интересны в жизни другие вещи».
Как ребятам из Euclid, которые собрали самую большую на сегодняшний день модель Вселенной. Такие новости.
Всё.
Вы великолепны.
Пользуйтесь.
❤4🔥2👍1
Больше, чем просто HTMLка.pdf
3.5 MB
Получилось вот такое веселенькое руководство для выпускников школы при дельфинарии👐
Кайф🙏 Люблю всё красивое и никому не нужное. Особенно люблю потратить на это уйму времени, чтобы понять, что это работа «в столб».
В университете мои teammates всегда отдавали на откуп мне самую низкоинтеллектуальную часть – дезигн, верстка и презентации.
С другой стороны, пока есть выпускники факультета хайподорр, и, кажется, им такую науку на факультете не преподают, актуальность проблематики «почему HTML-страница не открывается с телефона/не скроллится ничего» будет на этой земле еще лет 5 точно.
Ну, как минимум, для тех, кто уходит от чистой юриспруденции куда-то ближе к разработке.
Git init. Commit.🖖
Пы.сы:
Все ссылки кликабельны🤘
Кайф
В университете мои teammates всегда отдавали на откуп мне самую низкоинтеллектуальную часть – дезигн, верстка и презентации.
С другой стороны, пока есть выпускники факультета хайподорр, и, кажется, им такую науку на факультете не преподают, актуальность проблематики «почему HTML-страница не открывается с телефона/не скроллится ничего» будет на этой земле еще лет 5 точно.
Ну, как минимум, для тех, кто уходит от чистой юриспруденции куда-то ближе к разработке.
Git init. Commit.
Пы.сы:
Все ссылки кликабельны
Please open Telegram to view this post
VIEW IN TELEGRAM
👏5🔥3❤2
Завтра попишу что-нибудь в хаб 🥹
Времени совершенно не хватает наводить там порядок: вычищать артефакты, читать заглушки текстом от ИИ. Проверять релевантность текста в целом. Жить эту жизнь, в конце концов.
А! Еще же мне нужно на каждый тейк вспомнить ссылку-гиперссылку и нагиперссылить руководство этими ссылками на устаревшие исследования.
Ибо академическая часть сознания никуда не девается у коллег-юристов. ИМХО.
Нет бы поверить на слово, что «промпт — это запрос к нейросети», но нет…товарищ, абаснуйте.
Ладно, что ж, абаснуем🤘
☢️ Там еще нужно настраивать и проверять GitSync, тк коммьюнити подписькой мне руководство GitBook под носом подтерло. А я ж хотела, чтобы это, чтобы контрибьютеры могли сами и руководство по своим кусочкам допиливать.
Но я б была б не я, если бы не перевернула структуру: переношу GitBook➡️ GitHub, затем синкаю апдейты в GitHub обратно в GitBook.
А так уже можно, и уже и не нужны никакие коммьюнити подписьки мне. Осталось только контрибьютерам написать мануал по🗒 Pull Request / Issues 🗒 , чтобы было понятно, как через GitHub обновлять содержание GitBook.
Такие вот дела, собачка.
Git init. Commit.🖖
Времени совершенно не хватает наводить там порядок: вычищать артефакты, читать заглушки текстом от ИИ. Проверять релевантность текста в целом. Жить эту жизнь, в конце концов.
А! Еще же мне нужно на каждый тейк вспомнить ссылку-гиперссылку и нагиперссылить руководство этими ссылками на устаревшие исследования.
Ибо академическая часть сознания никуда не девается у коллег-юристов. ИМХО.
Нет бы поверить на слово, что «промпт — это запрос к нейросети», но нет…товарищ, абаснуйте.
Ладно, что ж, абаснуем
Но я б была б не я, если бы не перевернула структуру: переношу GitBook
А так уже можно, и уже и не нужны никакие коммьюнити подписьки мне. Осталось только контрибьютерам написать мануал по
Такие вот дела, собачка.
Git init. Commit.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - appankratova/legal_prompts_hub: Legal Prompts Hub — это первое русскоязычное open source сообщество, посвящённое применению…
Legal Prompts Hub — это первое русскоязычное open source сообщество, посвящённое применению нейросетей в юридической практике. - appankratova/legal_prompts_hub
❤4👍1🔥1
В оправдание «нейрослопа» в руководстве скажу, что генерация структуры и наброска текста очень выручает, когда ты однорукая бандитка 🖖
Please open Telegram to view this post
VIEW IN TELEGRAM
На следующей неделе планирую написать гайд по тому, как не слить нейронке ПД, и данные под NDA.
В целом, в руководстве уже есть шаблон содержимого этого раздела https://legal-prompts-hub-open-source.gitbook.io/legal-prompts-hub/chast-v.-fundament/obzor-rukovodstvo-po-atakam
Вообще руководство пишется для тех, кто переходит в Legal engineering и планирует промптить по полной и кодить с ИИ-ассистентом. И этот раздел — вообще мастхэв.
Но до того, как этот мастхэв распаковать, нужно еще распаковать целый «
Спойлер:
Чтобы ваше железо при первом запуске не перегрелось и не улетело в стратосферу нужно очень внимательно изучить документацию и всю инфу по совместимости ДО. С этой прикормки дуреют все вайбкодеры🤘 но техника техопасности превыше всего.
На хабре, кстати, есть даже интересный пост на тему локалки.
Git init. Commit🖖
В целом, в руководстве уже есть шаблон содержимого этого раздела https://legal-prompts-hub-open-source.gitbook.io/legal-prompts-hub/chast-v.-fundament/obzor-rukovodstvo-po-atakam
Вообще руководство пишется для тех, кто переходит в Legal engineering и планирует промптить по полной и кодить с ИИ-ассистентом. И этот раздел — вообще мастхэв.
Но до того, как этот мастхэв распаковать, нужно еще распаковать целый «
Пак» со знаниями, что такое локальная LLM и как всё это запустить. Спойлер:
LM Studio и подходящая LLM'ка в этом помогут. Но для домашних нужд, увы, поставить вы себе сможете что-то экстра маленькое. Или продать квартиру Долиной еще раз, и купить себе А100/Н100. Но правды ради, видела у Селектела аренды облачного сервера. В целом, цены для маленького какого-нибудь стартапчика посильны.
Чтобы ваше железо при первом запуске не перегрелось и не улетело в стратосферу нужно очень внимательно изучить документацию и всю инфу по совместимости ДО. С этой прикормки дуреют все вайбкодеры
На хабре, кстати, есть даже интересный пост на тему локалки.
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍1
Любопытный факт:
Каждый раз, когда вы доказываете капче, что вы — не робот, нейросети (которых мы таким образом обучаем на картинках) еще ближе становятся к тому, чтобы мы стали сомневаться в этом: «А точно ли я не робот?»
Это заставляет меня чувствовать себя бабушкой на уроках компьютерной грамотности программы активное долголетие…которая уже плохо отличает белый забор от белой вилки (а я всегда на этом попадаюсь).
Короче, капча бесит, т.к. я ей чаще проигрываю 🤣
Проверка на мертвые души: поставьте какую-нибудь реакцию, если тоже заметили, как реКапча стала обыгрывать нас кожаных.
Git init. Commit🖖
Пы.сы: ноль камней в огород бабушек. Мы все там будем. Какими спецами по нейросетям мы бы ни казались себе сегодня😻
Каждый раз, когда вы доказываете капче, что вы — не робот, нейросети (которых мы таким образом обучаем на картинках) еще ближе становятся к тому, чтобы мы стали сомневаться в этом: «А точно ли я не робот?»
Это заставляет меня чувствовать себя бабушкой на уроках компьютерной грамотности программы активное долголетие…которая уже плохо отличает белый забор от белой вилки (а я всегда на этом попадаюсь).
Короче, капча бесит, т.к. я ей чаще проигрываю 🤣
Проверка на мертвые души: поставьте какую-нибудь реакцию, если тоже заметили, как реКапча стала обыгрывать нас кожаных.
Git init. Commit
Пы.сы: ноль камней в огород бабушек. Мы все там будем. Какими спецами по нейросетям мы бы ни казались себе сегодня
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
🥰4❤2👍1
Длиннопостов (кроме этого) и продолжения руководства не будет до конца года, кажется, с вероятностью 80%, потому что декабрь — месяц месячного отдыха — моя традиция вот уже третий год.
Я человек очень системный и упорядоченный. Поэтому у меня с этим строго: если праздничные выходные заканчиваются 12 января, то в отпуск я ухожу 12 декабря.
Это важный в моей жизни период — войти в ресурсное состояние и подготовить свой мозг к активному рабочему году.
Когда твой мозг ежедневно занят высокоинтеллектуальной нагрузкой, очень важно себе устраивать своего рода дауншифтинг.
Как это делаю я:❔
🔄 сплю столько, сколько спится
🔄 принимаю ванны с компотом из сухофруктов (шучу) хвойными штукостями и обязательно магниевая соль 🧂
🔄 всячески люблю и забочусь о себе, своем здоровье, теле, и кукухе 🌿
🔄 вкусно готовлю и вкусно ем, ем когда захочу и что захочу ☺️
🔄 восстанавливаю социальную батарейку в одиночестве, без социальных сетей, без постов, без новостей
🔄 смотрю любимые фильмы, мультфильмы, и временами смотрю мозговую жвачку (что-нибудь в духе натальной карты и такого рода уровня интеллектуальной интенсивности викторин ) 😄
🔄 взаимодействую с домашними питомцами: собаки, кошки (их у меня всех по 3 штуки), ворошу мох и дышу ароматами леса из контейнеров у улиток, проверяю — все ли мокрицы у меня еще живы, вспоминаю временами, что у паука закончились на обед сверчки и благополучно забываю дальше 🕸️
🔄 вяжу шапки (и такое умею 😂 )
В общем, как видите, нужно успеть за месяц переделать много дел.
Но!
Что-нибудь полезное и по существу канала я все же постить буду.
Не обещаю, но буду.
Вот, например, отличный (сама проверяла) бесплатный и полезный курс по DL.
https://course.fast.ai/
А руководство — это тоже не через нейросеть тяп-ляп и продукт. Там и картинки надо, и красивое сделать, и структуру сохранить и важное человеку, а не машине, написать.
Git init. Commit.✍️
Я человек очень системный и упорядоченный. Поэтому у меня с этим строго: если праздничные выходные заканчиваются 12 января, то в отпуск я ухожу 12 декабря.
Это важный в моей жизни период — войти в ресурсное состояние и подготовить свой мозг к активному рабочему году.
Когда твой мозг ежедневно занят высокоинтеллектуальной нагрузкой, очень важно себе устраивать своего рода дауншифтинг.
Как это делаю я:
В общем, как видите, нужно успеть за месяц переделать много дел.
Но!
Что-нибудь полезное и по существу канала я все же постить буду.
Не обещаю, но буду.
Вот, например, отличный (сама проверяла) бесплатный и полезный курс по DL.
https://course.fast.ai/
А руководство — это тоже не через нейросеть тяп-ляп и продукт. Там и картинки надо, и красивое сделать, и структуру сохранить и важное человеку, а не машине, написать.
Git init. Commit.
Please open Telegram to view this post
VIEW IN TELEGRAM
Practical Deep Learning for Coders
Practical Deep Learning for Coders - Practical Deep Learning
A free course designed for people with some coding experience, who want to learn how to apply deep learning and machine learning to practical problems.
🔥5❤4👍2
На прошлые новогодние выходные мы с мужем пересматривали Гарри Поттера.
На этих новогодних у нас по планам все части Шрека.
Очень в тему мем🫰
На этих новогодних у нас по планам все части Шрека.
Очень в тему мем
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥2😁1
Если у вас ноут-малыш, или совсем слабенький процессор, но очень хочется потрогать ручками, например, через LM Studio какие-нибудь локалочки, то тут есть список LLM, которые точно сможет потянуть домашнее железо.
Пы.сы.: если ноут начинает взлетать в стратосферу, хотя вы были уверенны, что совместимость вашего железа и модели такая же идеальная, как*любой неочевидный пример* — срочно всё вырубайте!
Git init. Commit🖖
Пы.сы.: если ноут начинает взлетать в стратосферу, хотя вы были уверенны, что совместимость вашего железа и модели такая же идеальная, как
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
GPU Poor LLM Arena - a Hugging Face Space by k-mktr
Compact LLM Battle Arena: Frugal AI Face-Off!
❤5🔥5👍3🤝1
Шпаргалку по докеру хотели?
Кто не хотел, тот сам виноват😑
А кто хотел — забирает по ссылке и сохраняет в избранное💬
Не возбраняется скинуть ссылку на пост нуждающемуся!
Git init. Commit🖖
Кто не хотел, тот сам виноват
А кто хотел — забирает по ссылке и сохраняет в избранное
Не возбраняется скинуть ссылку на пост нуждающемуся!
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
docker.how
Docker Cheat Sheet — Quick CLI Reference
Comprehensive Docker CLI reference with commands for containers, images, volumes, networks, Compose, and Dockerfile.
1🔥6👍4❤1👏1
Добро пожаловать в прикуривательную!
В VS Code добавили расширение для Claude Code.
Скажите фруктам хэллоу, а Cursor’у гудбай!
Goodbye my lover
Goodbye my friend
Ссылка
Git init. Commit🖖
В VS Code добавили расширение для Claude Code.
Скажите фруктам хэллоу, а Cursor’у гудбай!
Goodbye my lover
Goodbye my friend
Ссылка
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6🎉3❤2
Пока юристы жертвы маркетинга учатся вайбкодить и круто промптить, техногиганты вовсю внедряют MAS и MoA, MoE.
Чтобы быть готовым к будущему, нужно было бросить юриспруденцию еще вчера, но вообще еще в 2022 году. Вариант второй (оптимистичный) для новичков в теме: углубляйте свою юридическую экспертизу. Получение поверхностных общих знаний по ИИ будет достаточно, чтобы просто быть в инфополе.
Ведь если мы умеем не просто автоматизировать рутину, но и оркестровать огромными внутрикорпоративными цепочками связанных рутинных операций, то кто в конечном итоге будет валидировать корректность ответов?
Когда-то, будучи юной студенткой юрфака, я мечтала достигнуть уровня «когда вырасту» Бевзенко, Тая или Карапетова.
Это вообще мои кумиры🤍
Но правда в том, что я так себе юрист, средненький. Пока одни зубрили теорию и ходили на все лекции, я бегала по заседаниям помощником адвоката, арбитражного управляющего, просто самостоятельным юристом, и еле-еле после работы добиралась до университета хотя бы на практические семинары.
И, умудрившись проработать юристом аж 10 лет, я все равно ушла в сторону теха, чем в сторону лигал.
Свою точку бифуркации ЛигалТеха я прошла в 2022 году и начала вспоминать навыки программирования, чтобы к сегодняшнему дню не грустить, что уровня Бевзенко, Тая и Карапетова мне уже не достичь никогда.
Git init. Commit🖖
Чтобы быть готовым к будущему, нужно было бросить юриспруденцию еще вчера, но вообще еще в 2022 году. Вариант второй (оптимистичный) для новичков в теме: углубляйте свою юридическую экспертизу. Получение поверхностных общих знаний по ИИ будет достаточно, чтобы просто быть в инфополе.
Ведь если мы умеем не просто автоматизировать рутину, но и оркестровать огромными внутрикорпоративными цепочками связанных рутинных операций, то кто в конечном итоге будет валидировать корректность ответов?
Когда-то, будучи юной студенткой юрфака, я мечтала достигнуть уровня «когда вырасту» Бевзенко, Тая или Карапетова.
Это вообще мои кумиры
Но правда в том, что я так себе юрист, средненький. Пока одни зубрили теорию и ходили на все лекции, я бегала по заседаниям помощником адвоката, арбитражного управляющего, просто самостоятельным юристом, и еле-еле после работы добиралась до университета хотя бы на практические семинары.
И, умудрившись проработать юристом аж 10 лет, я все равно ушла в сторону теха, чем в сторону лигал.
Свою точку бифуркации ЛигалТеха я прошла в 2022 году и начала вспоминать навыки программирования, чтобы к сегодняшнему дню не грустить, что уровня Бевзенко, Тая и Карапетова мне уже не достичь никогда.
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2👏2🤡1
Закончить писать скрипт, который разом выдает всю аналитику по нужным искомым признакам, с точностью детекции 98,6% — бесценное чувство.
Это ли не счастье — быть на своем месте ?
Осталось шлифануть выводы и выдать конфэту🤤
Git init. Commit🖖
Это ли не счастье — быть на своем месте ?
Осталось шлифануть выводы и выдать конфэту
Git init. Commit
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5❤2🔥1🎉1