NEW BOT Телеграм, страница

Armin's Notes 🪴

فرض کنید که ما لیستی از صفت‌ها داشته باشیم

مثلا حکمرانی - مردانگی - زنانگی - سن و ...

اگه هر کلمه‌ای که به ما داده میشه رو توی این لیست قرار بدیم و به ازای هر صفت بهش وزن بدیم چه اتفاقی میفته؟

خروجی چیزی شبیه به این عکس میشه:

141 views10:48

Armin's Notes 🪴

143 views10:48

Armin's Notes 🪴

پادشاه خصوصیت های حکمرانی و مردانگی خیلی زیادی داره اما زنانگی رو خیلی کم داره (به اون اعداد وزن میگیم)

همینطور برای ملکه - زن - شاهزاده و ...

این دقیقا همون Vector ما میشه که میتونه معنا و مفهوم کلمه رو توی خودش نگه‌داره و اون رو بیان کنه.

147 views10:49

Armin's Notes 🪴

حالا چرا روش one-hot جوابگو نیست؟

این عکس رو ببینید:

143 views10:51

Armin's Notes 🪴

138 views10:51

Armin's Notes 🪴

Photo

ما فقط ۹ کلمه توی لغت‌نامه‌مون داریم اما تعداد سطر و ستون هارو ببینید!

اگه ما یک لغت‌نامه با ۵۰ هزار کلمه داشته باشیم باید برای هر کلمه ۴۹ هزار و ۹۹۹ ایندکس با مقدار ۰ و یک ایندکس با مقدار ۱ ذخیره کنیم.

خیلی زیاده نه؟ :))

مشکل بعدی چیه؟ اینکه ماتریس نهایی خیلی تنک میشه چون از حجم خیلی زیادی ۰ تشکیل شده و عملا دیتای به خصوصی به ما نمیده
- لغت‌نامه دهخدا: تنک. [ ت َ ن ُ / ت ُ ن ُ ] ( ص ) کم و اندک.

و بزرگترین مشکل چیه؟
اینکه هیچ اشتراک اطلاعاتی بین کلمات و معناشون وجود نداره چون همه چیز توی یک فضای برداری با فاصله یکسان قرار دارن

مثلا همون عکس بالارو ببینید - هرکلمه توی یک بردار 9x1 هست.

139 views10:55

Armin's Notes 🪴

خب پس راه حل چیه؟

این‌که ما تکنیک Encodingمون رو تغییر بدیم.

اگه بخوایم تعداد ستون هارو کاهش بدیم و یک ارتباطی بینشون برقرار کنیم چیکار باید کنیم؟

146 views10:57

Armin's Notes 🪴

Photo

این روش همون کاریه که ما باید انجام بدیم.

حالا اگه لغت نامه ۹ کلمه‌ایمون رو بخوایم بهینه کنیم خروجی چطوری میشه؟

158 views11:01

Armin's Notes 🪴

158 views11:01

Armin's Notes 🪴

حالا اگه بخواید برای هرکلمه وزن دهی انجام بدید و بجای اون اعداد صفر مقادیری رو ست کنید که بین ۰ تا ۱ باشن - برای هر ویژگی چه عددی ثبت میکردید؟

⚠️ عکس پایین شامل مقادیر پیشنهادی (تقریبی و برای آموزش هستن) - میتونید بعد از فکر کردن روی جدول بالا عکس پایین رو ببینید

163 views11:03

Armin's Notes 🪴

159 views11:03

Armin's Notes 🪴

میبینید که ما یک فضای ۳ بعدی تونستیم چند هزار برابر بهینه سازی نسبت به روش One Hot Encoding داشته باشیم - این همون کاریه که Word Embedding های مدرن برای ما انجام میدن.

مزایاشون چیه؟ فکر کنم میدونید و دیگه نیاز به گفتن هم نداره.

ما حتی با نگاه کردن به این بردار هم میتونیم ارتباط بین کلمات و صفت‌ها و ... رو تشخیص بدیم. 😁

مورد بعدی اینه که کلمات مشابه - بردار‌های مشابه‌تری دارن - مثلا embedding نهایی برای کلمه "خواب" و "بیداری" فاصله کمتری نسبت به "خواب" و "پادشاه" دارن.

منظور از فاصله - فاصله اقلیدسی هست.

این دوتا رفرنس رو یه نگاهی بندازید.

https://en.wikipedia.org/wiki/Cosine_similarity

https://www.sciencedirect.com/topics/computer-science/cosine-similarity

- جلوتر بیشتر درمودشون میگیم.

169 viewsedited 11:13

Armin's Notes 🪴

مورد بعدی اینکه اگه دقت کنید ماتریس نهایی خیلی متراکم تر شده و داره دیتای بهتری رو به ما میده - ضمن اینکه روابط بین کلمات هم به وضوح مشخصه

مثلا شما اگه از پادشاه به سمت ملکه حرکت کنید - روند حرکتتون دقیقا مشابه حرکتی خواهد بود که از پسر به دختر انجام میدید.

166 views11:15

Armin's Notes 🪴

نکته‌ای که وجود داره اینه که توی دیتای واقعی - بردارهای ما و ابعادشون خیلی زیاد میشه و ما نمیتونیم مثل عکس های بالا انتساب هارو دستی انجام بدیم و خروجیشون رو به راحتی نمایش بدیم - درنتیجه الگوریتم هایی مثل GloVe که بالاتر هم بهش اشاره کردیم ایجاد شده تا این زحمت رو از دوش ما برداره.

nlp.stanford.edu

GloVe: Global Vectors for Word Representation

168 views11:20

Armin's Notes 🪴

حالا فرض کنید ما یک لغت‌نامه بزرگتر داریم و یک سیستم هوشمند خصوصیات و وزن‌دهی هارو برای ما انجام داده.

ما الان میتونیم یک خروجی انتزاعی از روابط کلمات بر اساس فاصله اقلیدسی کلمات لغت‌نامه‌مون و شباهتشون بر اساس شباهت کسینوسی ببینیم.

— رفرنس هاشون رو بالاتر هم ارسال کردم

خروجی چیزی شبیه این خواهد شد:

202 views11:23

Armin's Notes 🪴

200 views11:23

Armin's Notes 🪴

اگه دقت کنید - کلمات مشابه توی مکان‌های مشابه قرار گرفتن - یعنی توی فضای N - D بعدی همگرا شدن و Vector های مشابهی دارن که درجهت مشابهی داره حرکت میکنه.

212 views11:24

Armin's Notes 🪴

Photo

اینجا تقریبا همون نقطه‌ای هست که ما نیاز داریم داخلش باشیم.

هرکدوم از کلمات توی این تصویر یک Word Embedding هستند که یک مجموعه‌ای از اعداد هستند که تبدیل به یک Word Vector شدن و ما اینجا داریمشون.

فضایی که این کلمات داخلشون قرار گرفتن هم یک Vector Database هست.

227 views11:29

Armin's Notes 🪴

پس روال به چه صورت شد؟

۱. کلمه خام رو داریم
۲. با استفاده از روش‌های انکدینگ کلمه رو Encode میکنیم
۳. میرسیم به یک مجموعه از اعداد که بهش میگیم Word Vector
۴. این ‌Word Vector یا بردار کلمه‌ای که در نهایت دریافت کردیم رو ذخیره میکنیم.

به کل این پروسه (بجز ذخیره سازی) میگیم Word Embedding و به محلی که ذخیره سازی توش انجام میشه میگیم Vector Database

228 views11:31

Armin's Notes 🪴

https://mccormickml.com/2016/04/19/word2vec-tutorial-the-skip-gram-model/

Mccormickml

Word2Vec Tutorial - The Skip-Gram Model

This tutorial covers the skip gram neural network architecture for Word2Vec. My intention with this tutorial was to skip over the usual introductory and abst...

244 views11:33

Armin's Notes 🪴

تا همینجا فکر میکنم کافیه و به اندازه کافی درمورد وکتور دیتابیس ها و بردار ها و کلمات یاد گرفتیم - امشب میتونیم بریم و یک لیستی از کلمات رو تبدیل به وکتور کنیم و توی یک وکتور دیتابیس ذخیره کنیم و روشون سرچ بزنیم و باهاشون صحبت کنیم 🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

274 views11:34

About

Blog

Apps

Platform