какая-то библиотека – Telegram
какая-то библиотека
2.99K subscribers
395 photos
21 videos
12 files
304 links
Кабинетные исследования, библиография, ИИ

@eak_ka — рисёрчерка


ytb: https://www.youtube.com/@selfmadeLibrary/videos

inst: https://instagram.com/bestoloch.innovation?igshid=MzMyNGUyNmU2YQ==

поддержать канал: https://taplink.cc/ekaganova
Download Telegram
какая-то библиотека pinned «Люблю делать методички. Буду пополнять и расширять методичку "Советы по ИИ-промтам для социологов". Общая по промтам: https://docs.google.com/document/d/1beqDsX649w3UXG5B-XB3EA1DsfwFKz8hCv4vpDLCuIs/edit?usp=sharing Сборник промтов для социологов, рисерчеров:…»
Понимают ли большие нейронные языковые модели (LMs) смыслы? 👾

В мире, где ИИ всё больше проникает в нашу жизнь, особенно в сферу социальных исследований, возникает вопрос: способны ли большие нейронные языковые модели (LMs) понимать смыслы?

Что такое большие нейронные языковые модели (LMs)?

LMs - это алгоритмы машинного обучения, которые обучаются предсказывать следующий элемент последовательности, будь то символ, слово или предложение. Благодаря огромному количеству данных, на которых они обучаются, LMs демонстрируют впечатляющие результаты в различных задачах, включая перевод, создание текста и ответов на вопросы.

Но понимают ли они смыслы?

Чтобы ответить на этот вопрос, нужно определиться, что мы подразумеваем под "смыслом". Эмили М. Бендер и Александр Коллер предлагают рассматривать смысл как связь между языковой формой и коммуникативным намерением. Проще говоря, смысл - это то, что мы хотим выразить с помощью слов, а также то, что другой человек понимает из нашего высказывания.

Авторы статьи "Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data" аргументируют, что LMs, обучаясь только на языковой форме, не могут в принципе понимать смыслы. Они приводят следующие аргументы:

🖇 Отсутствие коммуникативного намерения: LMs обучаются на текстах, которые не связаны с конкретным контекстом или намерением говорящего. Они не знают, что хотел сказать автор текста, и не могут понять, что хочет выразить человек, используя эти слова.
🖇 Проблема основания: LMs не имеют доступа к реальному миру и не могут связать слова с конкретными объектами или явлениями. Например, LM может знать, что "собака" - это животное, но она не сможет узнать, что это за собака, если ей не показать фотографию.
🖇Активное участие слушателя: Понимание смысла требует не только знания слов, но и активного участия слушателя. Слушатель должен учитывать контекст, тон голоса говорящего, его невербальные сигналы и многое другое. LMs не способны к такому активному участию.

Пример "Испытание осьминогом"

Чтобы иллюстрировать свою точку зрения, авторы представляют мысленный эксперимент с "осьминогом". Представьте, что два человека, говорящих на одном языке, оказались на отдельных островах и могут общаться только с помощью телеграфа. "Осьминог", который не может видеть эти острова и не знает их язык, подключается к телеграфу и начинает анализировать их переписку.

"Осьминог" может научиться предсказывать ответы одного человека на слова другого, но он не сможет понять смысл их общения. Если один из людей начнет говорить о чем-то конкретном, например, о строительстве ловушки для рыбы, "осьминог" не сможет понять инструкции и дать осмысленный ответ. Он может только повторять слова, которые он уже слышал в похожих контекстах.

Так что же мы можем сказать о LMs и понимании смыслов?

LMs способны выполнять многие задачи, которые требуют обработки языка, но они не понимают смыслы в том же смысле, что и люди. Они могут использовать слова в соответствии с установленными правилами, но они не могут понять их истинное значение и не могут связать их с реальным миром.

Bender, Emily M., и Alexander Koller. 2020. «Climbing towards NLU: On Meaning, Form, and Understanding in the Age of Data». Сс. 5185–98 в Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online: Association for Computational Linguistics.


#теория_ИИ
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Forwarded from HR2HR
Если хочешь ИИ, иди-и-и…

...в канал HR2HR, который покажет, как делать привычные рабочие задачи в разы быстрее 🤝 Главное, использовать подходящие Нейросети.

Список ИИ из поста:
hat GPT —
@chatsgpts_bot
Notion.AI
Yandex.GPT
Gerwin AI
You.com
Retext AI
Slider AI
MagicSlides
Parsio
Audioread
Youtube с ChatGPT и Claude

На последней карточке мы рассказали про наш курс по ИИ для LMS- все подробности здесь💎
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
Forwarded from Machinelearning
🖥 Анонсирован новый ChatGPT Edu, созданный для образовательных учереждений.

Модель основана на GPT-4o, она может работать с текстовой и визуальной информациией, поддерживает передовые инструменты анализа данных.

ChatGPT Edu включает в себя средства безопасности и контроля корпоративного уровня для образовательных учреждений.

Новая модель дает возможность создавать пользовательские версии ChatGPT, и делиться ими для совместных исследований и обучения.

- Значительно более высокие лимиты на количество сообщений, чем в бесплатной версии ChatGPT

- Улучшены языковые возможности по качеству и скорости работы, поддерживается более 50 языков

- Надежная защита информации,конфиденциальность данных и продвинутые административные средства управления ИИ.

ChatGPT Edu призван заменить репетиторов и предоставляет:

* Обратную связь и поддержку
* Обучение и выставление оценок
* Интеграцию с образовательными ресурсами

openai.com/index/introducing-chatgpt-edu/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍101
30👍4🐳2
A+Fourth+Wave+of+Open+Data+Exploring+a+Spectrum+of+Scenarios+fo.pdf
11.1 MB
Проблемы открытых данных и генеративного ИИ

В то время как определённые репозитории, такие как Википедия и база данных патентов Google, сыграли важную роль в продвижении генеративного ИИ, многие открытые государственные и исследовательские наборы данных не соответствуют необходимым стандартам для эффективного использования​​.

Основные проблемы, с которыми сталкиваются как поставщики открытых данных, так и платформы генеративного ИИ, включают:

Качество и стандартизация данных:

Эффективность генеративного ИИ для задач, таких как дообучение или инференс, зависит от количества, качества и релевантности данных.

Наборы данных, которые не обладают достаточным объёмом, точностью, глубиной или релевантностью, могут приводить к субоптимальной работе ИИ, проявляющейся в виде неточностей, предвзятости или нерелевантных выводов​​.

Интероперабельность и интеграция:

Открытые данные часто существуют в изолированных хранилищах, каждое из которых имеет уникальные форматы и стандарты, что затрудняет интеграцию различных наборов данных в единый учебный корпус.

Для достижения интероперабельности необходимы согласованные усилия по принятию универсальных стандартов и форматов данных, которые способствуют бесшовному обмену и использованию данных на различных платформах и системах​​.

Прозрачность и информация о происхождении данных:

Прозрачная информация о происхождении данных необходима для поддержания доверия и подотчётности при использовании открытых данных в архитектурах генерации с привлечением данных (RAG) и для контекстного обучения в инженерии подсказок.

Это включает установление надежных рамок, которые не только отслеживают происхождение данных, но и обеспечивают должное признание вкладчиков, где это применимо. Такие рамки могут поощрить больше владельцев данных делиться своими ресурсами, обогащая таким образом экосистему открытых данных​​.

#теория_ИИ
👍43
В нашем чате происходит много интересного и полезного!
👍1
👾 Эксперимент по аннотированию с использованием ИИ: Сравнение с человеческими аннотациями — пересказ статьи

Как проводился эксперимент по аннотированию?

Для оценки эффективности крупных языковых моделей (LLMs), таких как GPT-3 и GPT-4, в задачах аннотирования данных, был проведен эксперимент. Цель заключалась в том, чтобы сравнить результаты автоматических аннотаций, выполненных моделями, с аннотациями, сделанными людьми.

Выбор задач:
Классификация и генерация текстов: Были выбраны различные задачи, такие как детектирование дезинформации, анализ социального контекста и переосмысление формулировок.

Использование моделей:
Модели LLMs: Были задействованы модели GPT-3.5 и GPT-4, обученные на инструкциях и использующие методы обучения с подкреплением (RLHF) для генерации текстов и классификаций.

Человеческие аннотации:
Аннотаторы: Были наняты профессиональные аннотаторы через платформу Upwork, которые проводили ранжирование и оценку качества результатов, полученных моделями.

Процесс оценки:
Ранжирование и сравнение: Человеческие аннотаторы ранжировали результаты моделей и сравнивали их с собственными аннотациями для определения качества и точности генераций.

🔍В чем люди оказались лучше?

Глубокое понимание контекста: Люди способны лучше учитывать контекст и нюансы текста, что позволяет им делать более точные и релевантные аннотации.
Этичные и социально осознанные аннотации: Человеческие аннотаторы лучше справляются с этическими аспектами и социальными тонкостями, которые могут быть упущены моделями.
Креативность и интуиция: Люди обладают способностью креативного мышления и интуитивного понимания, что помогает им создавать более качественные и оригинальные тексты.

🔍В чем модели оказались лучше?

Скорость и объем обработки: Модели LLMs способны быстро обрабатывать большие объемы данных и генерировать аннотации в кратчайшие сроки, что значительно ускоряет исследовательские процессы.
Однородность аннотаций: Модели обеспечивают высокую консистентность и однородность в аннотациях, что снижает вариативность, часто присутствующую в результатах человеческой работы.

#теория_ИИ

Caleb Ziems, William Held, Omar Shaikh, Jiaao Chen, Zhehao Zhang, Diyi Yang; Can Large Language Models Transform Computational Social Science?. Computational Linguistics 2024; 50 (1): 237–291. doi: https://doi.org/10.1162/coli_a_00502
4🤔32👍1
Конкретные задачи студента-социолога и конкретные попытки их решить. Решение не всегда удачно и вообще возможно.

Задачей семинара для Университета без профессоров было показать, что чат-боты с ИИ внутри — не панацея, но и не монстры.

Ну и соблазнить абитуриентов идти учиться в Европейский университет. Особенно на направление STS.
👍155👾1
По просьбе нетрудящего публикую опрос про чтение

Если вы читаете нехудожественные тексты (книги, статьи и т. д.), пройдите, пожалуйста, пятиминутный анонимный опрос о своём опыте чтения:
https://forms.gle/Zv2fkscLRWFHGFgr6

Мы делаем открытый онлайн-курс по аналитическому чтению, который планируем запустить осенью 2024-го года.  Мы — студенты, которые стремятся научиться эффективному чтению нехудожественных текстов и извлекать из них больше пользы. Работая над развитием своих навыков в книжных клубах, мы решили создать курс, который поможет и вам.

Мы просим вас пройти короткий опрос, который поможет нам лучше понять ваш опыт чтения и методы работы с текстами. Это позволит нам сделать курс более полезным и адаптированным к разным потребностям.

Опрос анонимный и займёт у вас не более 5 минут.
👍189🐳3
Какие данные мы используем в наукометрических исследованиях?

Наукометрия, наука о количественном анализе научной деятельности, играет ключевую роль в оценке продуктивности исследователей, научных учреждений и национальных систем науки. В этой статье рассматривается использование «золотого стандарта» для оценки публикационной активности и её влияния на карьерные результаты учёных.

🔍 Что такое Золотой стандарт?
Золотой стандарт – это высококачественный эталон данных, используемый для проверки и калибровки других измерительных инструментов
. В контексте данной статьи, золотой стандарт представляет собой тщательно собранный набор данных о публикациях учёных, созданный на основе отчётов и тщательно проверенных источников.

В статье отмечается, что набор данных, принятый за золотой стандарт, был собран Национальным научным фондом (NSF) и Национальным центром научных исследований (NCSES). Эти организации обеспечивают качество данных, которые затем используются для сравнения с данными из коммерческих баз данных, таких как Clarivate.

🗃 Сравнение данных Золотого стандарта и Clarivate

Один из примеров касается анализа заработной платы учёных в зависимости от количества публикаций:

🖇 Золотой стандарт: увеличение числа публикаций на 1% связано с увеличением заработной платы на 0,131%.
🖇 Clarivate (с учётом вероятности совпадения публикаций не менее 80%): увеличение числа публикаций на 1% связано с увеличением заработной платы на 0,115%.

Также в статье рассматривается влияние публикационной активности на получение государственной поддержки. Аналогичные сравнения показывают, что данные из золотого стандарта дают более высокие коэффициенты влияния по сравнению с данными из Clarivate.

Недостатки Золотого стандарта
Несмотря на свою ценность, золотой стандарт имеет и свои недостатки. Один из основных – это сложность и дороговизна его создания и поддержания. Также существует риск ошибочных измерений и погрешностей, которые могут повлиять на результаты анализа. В статье указывается, что даже золотой стандарт не является идеальным и может содержать ошибки, такие как ложноотрицательные и ложноположительные совпадения публикаций.

#дайте_данные

Ginther, Donna K., Carlos Zambrana, Patricia Oslund, и Wan-Ying Chang. 2023. «Do Two Wrongs Make a Right? Measuring the Effect of Publications on Science Careers». doi:10.3386/w31844
Please open Telegram to view this post
VIEW IN TELEGRAM
👾6👍3
Когда вы в последний раз дочитали книгу? Вам нужен ИИ-компаньон для чтения

Эта статья WIRED о Rebind - новом приложении, которое использует искусственный интеллект, чтобы сделать чтение классических книг более доступным и интересным.

Rebind подключает к читателям "Ghostbinder" - эксперта по выбранной книге, с которым можно взаимодействовать в чате. AI-Ghostbinder будет комментировать текст, отвечать на вопросы и вести диалог с читателем.

Создатель Rebind, Джон Дюбюк: бывший предприниматель, который заработал состояние, продал свою компанию. После этого он решил вернуться к своей любви - философии, но столкнулся с тем, что не мог прочитать сложные книги. Он нанял профессора из Оксфорда для персональных уроков и почувствовал, что такое же желание испытывают многие люди. Дюбюк увидел в ChatGPT возможность, которая может помочь людям читать классику, и решил создать Rebind.

Как работает Rebind: Приложение использует большие языковые модели (LLMs) для создания "chattable" комментариев, которые звучат как живой разговор. Rebind работает с несколькими моделями, включая GPT-4o от OpenAI. Приложение создано для активного взаимодействия с пользователем, а не для пассивного чтения. Rebind - это не просто "Спроси меня о чем угодно", а платформа, которая помогает пользователям глубже погрузиться в текст.

Автор статьи попробовал Rebind с The Great Gatsby. Он спросил AI-Ghostbinder, был ли Гэтсби просто богатым придурком. AI-Ghostbinder ответил, что Гэтсби - сложный персонаж, не стоит его упрощать.

Проблемы: Некоторые люди, как журналистка Лена Данхэм, нашли AI-Ghostbinder слишком нейтральным и недостаточно личным. Однако, автору статьи нравится идея Rebind и он с нетерпением ждет, когда сможет использовать приложение для чтения "Ромео и Джульетты".

#ИИ_для_чтения
21👍2🤔2