NEW BOT Телеграм, страница

Armin's Notes 🪴

۲. سرچ فازی
این حالت تقریبا همون لکسیکال سرچ پرو مکسه :))
چرا؟ چون همون عملکرد لکسیکال سرچ رو داره اما بهبود هایی هم داشته به این صورت که میتونه غلط های املاییتون رو هم تحمل کنه و سرتون غر نزنه و همچنان نتایج مرتبط بده و یکمی هم توی اصلاح کردن کوئریتون کمک میده.

- مثلا شما اگه بجای سلام بنویسید شلام - باز هم نتایج مرتبط با سلام رو میگیرید
- اگه دستتون بخوره و یه حرف تکرار بشه - باز هم نتایج مشابه میگیرید. مثلا بنویسید سلااااااااام - نتایج مرتبط با سلام رو میگیرید.

اگه بخوایم یه سرویس که این عملکرد رو در اختیارتون میزاره مثال بزنیم TypeSense میتونه مثال خیلی خوبی باشه.

🔗

https://typesense.org

حتی میتونید به مستندات سایت‌های مختلف هم سر بزنید مثلا فیلامنت و لاراول و ... که از Algolia استفاده میکنن و شما اگه یه کلمه رو اشتباه هم بنویسید بازم نتایج مرتبط میگیرید.

مزایا و معایبش چیه؟

✅ مزایا
۱. اشتباهات تایپی و غلط املایی رو خیلی خوب مدیریت میکنه
۲. لغات و دیتای مشابه رو براتون پیدا میکنه
۳. پیاده سازی نسبتا ساده‌ای داره (در رتبه ۲ - بعد از لکسیکال سرچ و قبل از سمانتیک سرچ قرار میگیره)

❌ معایب
- راستش زیاد معایب که نمیشه بهشون گفت ولی:
۱. گاها این امکان براش وجود داره که دیتای بی ربط زیادی رو برگردونه در شرایط مختلف
۲. توانایی درک معنایی رو نداره (لکسیکال سرچ هم این توانایی رو نداره)
۳. عملکردش با دیتاست های بزرگ زیاد efficient نیست

⚠️ گفتیم که سرچ فازی همون لکسیکال سرچه تقریبا و بهبود پیدا کرده اما یک سری ایرادات همچنان داخلش هست مثلا شما اگه Apple رو سرچ بزنید ممکنه Application هم براتون توی نتایج بیاره و این مشکل توی همون حالت لکسیکال هم وجود داره که ریشه‌ی این مشکل عدم امکان درک معنای لغات هست.

Please open Telegram to view this post

VIEW IN TELEGRAM

typesense.org

Typesense | Open Source Alternative to Algolia + Pinecone

Typesense is a fast, typo-tolerant search engine optimized for instant search-as-you-type experiences and ease of use.

143 views09:04

Armin's Notes 🪴

۳. سرچ معنایی
این حالت از سرچ - معنای نهان کوئری شمارو متوجه میشه و حتی اگه کلمات کلیدی بهش نداده باشین میتونه ارتباط و مفهوم کلمات رو متوجه بشه و خروجی مناسب و مرتبطی رو به شما بده

⚠️ حالا اینکه معنای کلمات رو چطوری میفهمه رو جلوتر توضیح میدم و این همون چیزیه که ما امشب قراره باهاش کار کنیم و درموردش صحبت کنیم)

مثال بخوایم بزنیم - توی این حالت اگه شما سرچ کنید
🔥 "من یک چیزی میخوام که باهاش پادکست گوش بدم"

نتایجی مثل:‌
- هدفون
- ایرپاد
- هندزفری
- اسپیکر
و ... رو به شما برمیگردونه - با این‌که شما هیچ اشاره‌ای به هیچکدوم از این موارد نکرده بودید توی متن‌تون.

مزایا و معایب این روش چیه؟

✅ مزایا
۱. معنا و مفهوم کلمات رو متوجه میشن و اطلاعات مرتبط (از نظر معنایی)‌ به شما برمیگردونن
۲. مترادف‌هارو درک میکنن
۳. ضمینه (context) کوئری شمارو متوجه میشن
- مثلا اگه بگید "من میخوام شنا کنم دنبال آب میگردم" براتون آبشار و أب رو میاره اما آبان و آبی رو نمیاره.

❌ معایب
۱. هزینه اجرایی و محاسباتی بالا
۲. ذخیره سازی پیچیده
۳. نیاز به فضای بالا در ماتریس ها و فضاهای برداری بزرگ
۴. نیاز به pre-train کردن embed model توی دیتاست‌های خیلی بزرگ

Please open Telegram to view this post

VIEW IN TELEGRAM

137 views09:19

Armin's Notes 🪴

۴. سرچ عصبی
این تکنیک از مدل‌های یادگیری عمیق (DeepLearning models) برای ارائه خروجی متنی (Text representation) و از بردار های متراکم (Dense Vector) برای درک کوئری شما و تطبیق بهتر استفاده میکنن.

⚠️ با این حالت سرچ زیاد کاری نداریم و زیاد درموردش صحبت نمیکنیم ولی اگه علاقه‌مند هستید که بتونید چطوری کار میکنن میتونید از این لینک گیت‌هاب یا این مقاله درمورد ColBERT بخونید.

مزایا و معایبش چیه؟
- این تکنیک هم مثل Fuzzy Search که نسخه تکامل یافته Lexical Search بود - نسخه‌ی تکامل یافته‌ی Semantic Search به حساب میاد در نتیجه مزایا و معایب تکنیک سرچ معنایی رو داره بعلاوه‌ی اینکه:

✅ مزایا
۱. درک متن - معنا - مفهوم و ضمینه در بهترین حالت ممکن
۲. رتبه‌بندی صحیح ارتباطات معنایی
۳. مقیاس پذیری به شدت بالا به لطف هماهنگی با FAISS و Milvus و ...

❌ معایب
۱. هزینه محاسباتی بالا توی پروسه آموزش و استنتاج
- لغت‌نامه دهخدا:
استنتاج. [ اِ ت ِ ] ( ع مص ) طلب انتاج و استخراج نتیجه از مقدمات. || طلب فرزند کردن.

۲. اجرا و پیاده سازی پیچیده
۳. الباقی معایب سرچ معنایی رو هم شامل میشه مثل نیاز به فضای ذخیره سازی مناسب برای دیتا و ...

GitHub

GitHub - stanford-futuredata/ColBERT: ColBERT: state-of-the-art neural search (SIGIR'20, TACL'21, NeurIPS'21, NAACL'22, CIKM'22…

ColBERT: state-of-the-art neural search (SIGIR'20, TACL'21, NeurIPS'21, NAACL'22, CIKM'22, ACL'23, EMNLP'23) - stanford-futuredata/ColBERT

137 views09:32

Armin's Notes 🪴

خب تبریک میگم 🥳
شما الان میدونید سرچ چیه و چطوری کار میکنه (در همین نقطه شما یک لول از آدم‌هایی که صرفا سرچ میکنن و روحشون هم خبر نداره پشت پرده چی میشه جلو افتادید)

برای خود من که این دیتا جالب بود - نمیدونم برای شما هم جذابیت دارن این نوع اطلاعات یا نه.

بالاتر یه اشاره‌ای به یک کلمه شد - "دیتاست" - بیاید اینم تعریف کنیم؛ البته کوتاه و بدون مثال 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

147 views09:44

Armin's Notes 🪴

دیتاست

دیتاست: مجموعه‌ای از داده‌های ساختار یافته هست.
این مجموعه داده میتونه هرچیزی باشه از یک دیتابیس برای پروژه‌تون گرفته تا یک فایل pdf یا حتی یک وبسایت مثل ویکی پدیا

147 views09:46

Armin's Notes 🪴

⚠️ حالا اینکه معنای کلمات رو چطوری میفهمه رو جلوتر توضیح میدم و این همون چیزیه که ما امشب قراره باهاش کار کنیم و درموردش صحبت کنیم)

خب بیایم سراغ این‌که "یک ماشین چطوری معنا و مفهوم کلمات رو تشخیص میده و درک میکنه؟"

به پروسه‌ای که معنا و مفهوم کلمات رو به ماشین میفهمونه Word Embedding میگیم.

- این اصطلاح Word Embedding غیررسمی بوده و بخاطر محبوبیت روش های استفاده شده توی این راستا تو حوزه یادگیری عمیق به این اسم معروف شده.
توی زبان شناسی محاسباتی (پروسه‌ای که ‌‌Word Embedding هم زیرمجموعه‌ش میشه) و توی مقالات و مستندات رسمی از عبارت‌هایی مثل
- Distributional semantic model
هم استفاده میکنن دلیلش هم اینه که نظریه‌ای که پایه و اساس این ماجرا هاست (Underlying Semantic Theory) به Distributional semantic معروفه.

https://en.wikipedia.org/wiki/Word_embedding

149 views10:08

Armin's Notes 🪴

من زیاد این مفهوم و کانتکس رو براتون فنی باز نمیکنم و سعی میکنم خیلی خلاصه و عامیانه بگم بهتون به ۲ دلیل

۱. من متخصص ai نیستم و خیلی newbie ام توی این حوزه پس ممکنه اگه بخوام تکنیکالی و عمیق توضیح بدم کارو خراب کنم و دیتای اشتباه بدم بهتون
۲. شما نیازی ندارید از این کانال دیتای عمیق و تکنیکال تو این حوزه بدست بیارید و همین دیتای سطحی براتون کفایت میکنه که متوجه بشید ماجرا چیه و اگه علاقه‌مند شدید خودتون برید درموردش تحقیق کنید.

⚠️ باز هم تاکید میکنم که من خودم تازه این مسیر رو شروع کردم و به هیچ یک از پیام‌ها و صحبتای من بدون سرچ اتکا نکنید - شاید یک بخش یا کلمه رو سهوا اشتباه منتقل کرده باشم هرچند که قبل از نوشتن هرکدوم از این پیام ها کلی سرچ میزنم که همچین موردی پیش نیاد 🙏♥️

145 views10:13

Armin's Notes 🪴

تصور کنید که کلمات مثل نقطه‌هایی در فضا هستند. در روش‌های قدیمی، ما فقط وجود یا عدم وجود یک کلمه را در نظر می‌گرفتیم، مثلاً اگر کلمه "کتاب" در جمله بود، یک مقدار ۱ و اگر نبود، مقدار ۰ به آن می‌دادیم. اما این روش هیچ مفهومی از شباهت بین کلمات به ما نمی‌داد. مثلاً "کتاب" و "دفتر" هر دو وسیله نوشتاری هستند، اما مدل‌های قدیمی این ارتباط را درک نمی‌کردند.

🔹 حالا Word Embedding چکار می‌کند؟
درواقع Word Embedding کلمات را به اعداد چندبعدی (بردارها) تبدیل می‌کند. این اعداد طوری آموزش داده می‌شوند که کلماتی که معنای مشابه دارند، به هم نزدیک‌تر باشند. مثلاً "پادشاه" و "ملکه" یا "کتاب" و "دفتر" در فضای برداری به هم نزدیک‌تر هستند.

🔹 مثال ساده:
فرض کنید سه کلمه داریم: "پادشاه"، "ملکه" و "کتاب". در فضای Word Embedding، فاصله بین "پادشاه" و "ملکه" کمتر از فاصله بین "پادشاه" و "کتاب" است، چون معنای آن‌ها به هم نزدیک‌تر است.

🔹 مزایای Word Embedding:
۱. درک بهتر معنای کلمات توسط ماشین
۲. شناسایی روابط بین کلمات
۳. بهبود نتایج در جستجو و ترجمه ماشینی

142 views10:16

Armin's Notes 🪴

ℹ️ ساده تر بخوایم تعریفش کنیم به این صورت میشه که:

ما با استفاده از Word Embedding میتونیم تمام کلمات و لغت‌های استفاده شده توی یک زبان رو توسط یک مجموعه‌ای از اعداد اعشاری در قالب بردار (Vector) بیان کنیم.

پس میشه گفت که Word Embedding ها - بردار (Vector) های n بعدی هستن که تلاش میکنن معنای لغت‌ها و محتواشون رو با مقادیر عددی‌شون بیان کنن.

هر مجموعه‌ای از اعداد که ما توی این سناریو در دسترس داریم یک "Word Vector" یا بردار کلمه به حساب میاد.

⚠️ نکته‌ای که وجود داره اینه که این بردار کلمات ممکنه همیشه برای سودمند نباشن.

❔ چه بردار کلماتی برای ما سودمند هست؟
- بردارهای کلماتی برای ما سودمند هستند که معنا و مفهوم و ارتباط کلمات رو دقیقا همونطوری که به صورت طبیعی استفاده میشن بیان کنن.

❓ منظور از طبیعی چیه؟
- روالی که توسط انسان اتفاق میفته و ارگانیک هست رو طبیعی میگیم.

مثلا ما میدونیم گربه و پیشی - سگ و هاپو باهم مرتبط هستند.

ماشین اگه توی بردار کلماتی این شباهت و ارتباط رو نتونه تشخیص بده برای ما سودمند نخواهد بود.

Please open Telegram to view this post

VIEW IN TELEGRAM

127 views10:23

Armin's Notes 🪴

بیاید یک مرحله برگردیم عقب تر - حالا که ما میدونیم اگر متن هامون رو تبدیل به بردارها و مجموعه‌ای از اعداد کنیم و به ماشین بدیم میتونه معنی‌شون رو بفهمه؛ چطوری میتونیم این پروسه رو انجام بدیم؟

❔ در ساده ترین حالت ممکن به روش‌هایی که داده‌های متنی Encoding Techniques میگن.

تکنیک هایی مثل
One Hot Encoding
Label Encoding
TF-IDF
توی این دسته قرار میگیرن که جلوتر درموردشون صحبت میکنیم.

اماااا - ‌‌‌Word Embedding درواقع نوع پیشرفته تری از همین Encoding Technique ها هستش که نه تنها وجود کلمه - بلکه معنا و ارتباطاتش رو هم با کلمات دیگه و موضوع کوئری شما در نظر میگیره.

توی Word Embedding روش هایی مثل موارد زیر رو داریم:
Word2Vec
GloVe
FastText
که درمورد اینا هم جلوتر صحبت میکنیم.

Please open Telegram to view this post

VIEW IN TELEGRAM

135 views10:38

Armin's Notes 🪴

بردار های کلمه چطوری کار میکنن؟

فرض کنید که ما یک لغت‌نامه داریم که داخلش ۵ تا کلمه داریم

۱. پادشاه
۲. ملکه
۳. مرد
۴. زن
۵. بچه

بر اساس این لغت نامه - اگه از روش one-hot بریم و متنمون رو encode کنیم - خروجی چیزی به این صورت میشه

133 views10:40

Armin's Notes 🪴

134 views10:40

Armin's Notes 🪴

Photo

میتونید حدس بزنید چه کلمه ای رو encode کردیم؟

کلمه‌ی "ملکه" رو!

پس میبینید که one-hot برای ما یک بردار ساده ایجاد کرده و توی این بردار به تعداد لغاتی که توی لغت‌نامه‌مون داشتیم ایندکس ایجاد کرده و توی هر ایندکس متناظر با اون کلمه به ما میگه که متنی که داریم میدیم وجود داره یا خیر

135 views10:42

Armin's Notes 🪴

توی این حالت درواقع ما نمیتونیم هیچ مقایسه معناداری بین دوتا بردار داشته باشیم - فقط و فقط میتونیم مساوی بودن یا نبودن بردار هارو بررسی کنیم.

چرا؟ چون بردار دو کلمه ملکه و پادشاه به این صورت میشه

ملکه:

0 1 0 0 0

پادشاه:

1 0 0 0 0

136 views10:44

Armin's Notes 🪴

توی این حالت درواقع ما نمیتونیم هیچ مقایسه معناداری بین دوتا بردار داشته باشیم - فقط و فقط میتونیم مساوی بودن یا نبودن بردار هارو بررسی کنیم. چرا؟ چون بردار دو کلمه ملکه و پادشاه به این صورت میشه ملکه: 0 1 0 0 0 پادشاه: 1 0 0 0 0

طبیعتا ما نمیتونیم روی این دو بردار جز مساوی بودن هیچ مقایسه‌ی دیگه‌ای انجام بدیم.

پس... اینجاست که Word Embedding میاد و با استفاده از تکنیک هایی مثل Word2Vec مارو از این حالت نجات میده و وارد یه مرحله جدیدتر میکنه.

توی این حالت - ما بردارهای چندبعدی و انتزاعی خواهیم داشت که به ما کمک میکنن که بتونیم مقایسه‌هارو دقیق‌تر و بهتر انجام بدیم.

141 views10:47

Armin's Notes 🪴

فرض کنید که ما لیستی از صفت‌ها داشته باشیم

مثلا حکمرانی - مردانگی - زنانگی - سن و ...

اگه هر کلمه‌ای که به ما داده میشه رو توی این لیست قرار بدیم و به ازای هر صفت بهش وزن بدیم چه اتفاقی میفته؟

خروجی چیزی شبیه به این عکس میشه:

141 views10:48

Armin's Notes 🪴

143 views10:48

Armin's Notes 🪴

پادشاه خصوصیت های حکمرانی و مردانگی خیلی زیادی داره اما زنانگی رو خیلی کم داره (به اون اعداد وزن میگیم)

همینطور برای ملکه - زن - شاهزاده و ...

این دقیقا همون Vector ما میشه که میتونه معنا و مفهوم کلمه رو توی خودش نگه‌داره و اون رو بیان کنه.

147 views10:49

Armin's Notes 🪴

حالا چرا روش one-hot جوابگو نیست؟

این عکس رو ببینید:

143 views10:51

Armin's Notes 🪴

138 views10:51

Armin's Notes 🪴

Photo

ما فقط ۹ کلمه توی لغت‌نامه‌مون داریم اما تعداد سطر و ستون هارو ببینید!

اگه ما یک لغت‌نامه با ۵۰ هزار کلمه داشته باشیم باید برای هر کلمه ۴۹ هزار و ۹۹۹ ایندکس با مقدار ۰ و یک ایندکس با مقدار ۱ ذخیره کنیم.

خیلی زیاده نه؟ :))

مشکل بعدی چیه؟ اینکه ماتریس نهایی خیلی تنک میشه چون از حجم خیلی زیادی ۰ تشکیل شده و عملا دیتای به خصوصی به ما نمیده
- لغت‌نامه دهخدا: تنک. [ ت َ ن ُ / ت ُ ن ُ ] ( ص ) کم و اندک.

و بزرگترین مشکل چیه؟
اینکه هیچ اشتراک اطلاعاتی بین کلمات و معناشون وجود نداره چون همه چیز توی یک فضای برداری با فاصله یکسان قرار دارن

مثلا همون عکس بالارو ببینید - هرکلمه توی یک بردار 9x1 هست.

139 views10:55

About

Blog

Apps

Platform