دیتاهاب – Telegram
دیتاهاب
2.13K subscribers
184 photos
35 videos
127 files
327 links
موضوعات کانال:

Data Science
Machine Learning
Deep Learning
NLP

گروه تلگرامی ⬅️ @data_jobs
دیتاست ⬅️ @persian_data
ادمین ⬅️ @data_hub
Download Telegram
res(2).png
235.5 KB
عاشقی را در نظر بگیرین که دل داده و شب ها به عشقش فکر می کنه چشمهاشو می بنده و از ته قلب ارزو می کنه به جان جانانش برسه تا دنیاش معنی پیدا کنه، رسم عشق و عاشقی همینه و بس

"نوشته بالا قسمتی از یک متن اینستاگرامی نیست"
تا حالا شده از خودتون بپرسین اهنگهای پاپ که هرروز گوش میدین شامل چه محتوایی هست؟
یک تحلیل ساده انجام دادم که نشون میده کلمات پرتکرار شامل
دل، عشق، عاشق، شب، دنیا، جان، قلب و چشم است
(البته تعدادش زیادتر بود ولی با همین تعداد کم یک داستان نوشتم)
این نتیجه عجیب نبود چون سبک پاپ
جوون پسنده و اغلب شعرا مربوط به یک ماجرای عاشقانه است

مجموعه داده ای که روی اونها تحلیل انجام شده شامل متون 354 شعر آهنگهای ایرانی
است و از طریق کانال
@data_hub_ir
قابل دریافت است.
lyrics.xlsx
142.1 KB
مجموعه شعرهای اهنگ های فارسی
درود
ب مناسبت اماده شدن اولین کتابم به زودی یه شیرینی رایگان آموزشی تقدیمتون می‌کنم...
1608050858810.jpg
123 KB
💡 موضوع کارگاه
‏A brief history of word embeddings and implement the sentiment analysis project with bert

📆 زمان کارگاه: ۸ دی

📘 مخاطب: علاقمندان به مباحث پردازش زبان‌های طبیعی
💻 اطلاعات بیشتر:
🔗 https://sharif-wss.ir/workshop/23
best website.pdf
20.3 MB
درود
اینم یک لیست از بهترین سایت هایی که داخلش میشه فرصت های شغلی مربوط به تحلیل داده پیدا کرد





❇️@data_hub_ir
01.jpg
79.9 KB
وصف حال خیلی هامونه...😂😂😂
درود به همگی، اینجا معمولا سعی می کنم محتوای با کیفیت بزارم و طبیعتا زمانبره، و تعدادش محدود میشه ولی بهم بگین مطلب بعدی یک دیتاست فارسی بزارم یا ی ویدیو اموزشی کوتاه؟
احسان عسکریان.pdf
114.5 KB
درود

❇️در پنجمین سری از مصاحبه های دیتاهاب، سراغ مهندس عسکریان رفته و یکمصاحبه‌ای با ایشون حول مباحث تحلیل داده داشتیم

ایشان معتقد هستند:
"قطعاً دانستن ریاضیات و بخصوص آمار تاثیر بسزایی در علم داده داره ولی سطح این دانش بستگی به پیچیدگی پروژه‌ای داره که قراره انجام بدین. چون خیلی از کارهای تحلیل داده نیاز به دانش کم آماری و ریاضیات دارند و بسیار روتین هستند و کتابخانه‌های زیادی برای انجام آنها وجود داره. ولی گاهی پیچیدگی مساله نیاز به راه حل جدید یا ابتکار در استفاده از متدهای مختلف، یا نیاز به تنظیم تخصصی پارامترهای الگوریتم‌ها داره که درک تخصصی از یادگیری ماشین و ریاضیات خیلی حیاتی است."

❇️@data_hub_ir
#مصاحبه
#داده_کاوی
#هوش_مصنوعی
#تحلیل_داده
#یادگیری_ماشین
ترسناک مثل GPT-3
اخیرا توی ارایه شریف مفصل در مورد transformer صحبت کردم و یه جا ی اشاره ریزی به مدل زبانی gpt کردم
الان می بینین که ب کمک gpt
چه کار جالبی انجام دادن و یک جمله دادن و ماشین به یه درک معنایی قوی از جمله دست پیدا کرده و به کمک یکسری تکنولوژی دیگه این تصاویر تولید کرده
از این دست مثالها در مورد gpt زیاده که اگر واقعی باشه نشون میده دنیا جای خطرناکی داره میشه و ماشینا به قدرت ادراک مجهز میشن
درود

❇️بعضیا میگن BigBird یک انقلاب دیگه توی حوزه پردازش زبان طبیعی ایجاد می‌کنه. شرکت گوگل هنوز انقلاب قبلیش یعنی برت ته نشین نشده بود که BigBird معرفی کرده که هدف اصلیش مدیریت جملات خیلی طولانیه که اگه یادتون باشه برت هم خیلی خوب از پسشون برنمیاد. حالا باید منتظر موند و دید که واقعا انقلاب در راهه یا از این کودتاهای یک شبس …

لینک مقاله 👇🏻
https://towardsdatascience.com/understanding-bigbird-is-it-another-big-milestone-in-nlp-e7546b2c9643

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود

❇️اگه میخواین با چندتا از ادمای نامبر وان حوزه پردازش زبان طبیعی اشنا بشین حداقل به عکسای توی این مقاله نگاه کنین.

لینک مقاله 👇🏻
https://medium.com/co-learning-lounge/natural-language-processing-nlp-heroes-3eaba1396867

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود
استارت یک کانال زدیم که تمرکز اصلیش معرفی انواع دیتاست‌های فارسی هست که از منابع مختلف جمع‌اوری میشه
تلاش میشه که فقط داده‌های مفید همراه با توضیحات درج بشند
خلاصه همراهی و حمایتتونو احتیاج داریم...
@persian_data
دیتاست برای تشخیص زبان متن

🗃 نوع: #متن

📮 اندازه: 12.39 MB

📖 توضیحات: این دیتاست شامل ۲۳۵۰۰۰ پاراگراف از ۲۳۵ زبان است که هر برای هر زبان هزار پاراگراف وجود دارد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/zarajamshaid/language-identification-datasst

لطفا به اشتراک بگذارید👈🏻@persian_data
غلط های املایی

🗃 نوع: #متن

📮 اندازه: 146.42 KB

📖 توضیحات:
این مجموعه داده شامل ۵۰۵۰ جفت کلمه فارسی است که ستون اول یک کلمه غلط املایی و ستون دوم شکل صحیح آن کلمه است. از این مجموعه داده در مباحث نرمالسازی می‌توان استفاده کرد.

📤 برای دریافت داده و کسب اطلاعات بیشتر به لینک زیر مراجعه کنید‌. 👇👇

https://www.kaggle.com/rtatman/faspell

لطفا به اشتراک بگذارید👈🏻@persian_data
درود

❇️حالا درسته الان بورس اوضاع خوبی نداره ولی دلیل نمیشه یک کار ترکیبی و جذاب از کاربرد پردازش زبان طبیعی واسه تحلیل بورس نخونیم.

لینک مقاله 👇🏻
https://towardsdatascience.com/nlp-in-the-stock-market-8760d062eb92

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود

❇️اگه دوست دارین با برت روی متون غیر انگیلیسی مثل فارسی کار کنین پس باید از نسخه‌های multilingual استفاده کنین که در ادامه یک مقاله معرفی می‌کنم که کامل این موارد اموزش میده.

لینک مقاله 👇🏻
https://towardsdatascience.com/why-is-training-data-the-bottleneck-for-nlp-a-multilingual-bert-example-44b86c11f5a

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود

❇️اگه می‌خواین توی ده دقیقه یه چت بات پیاده سازی کنین این پستو از دست ندین.

لینک مقاله 👇🏻
https://towardsdatascience.com/making-a-simple-and-fast-chatbot-in-10-minutes-2d84a4ba35e

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود

❇️یکی از حوزه‌های جذاب در پردازش زبان طبیعی تاپیک مدلینگ یا تشخیص موضوع متون است. روش‌های مختلفی برای انجام این کار هست مثل استفاده از LSA ولی توی یک مقاله جذاب یک روش جدید و بهینه بررسی شده و از برت برای تاپیک مدلینگ استفاده شده است.

لینک مقاله 👇🏻
https://towardsdatascience.com/topic-modeling-with-bert-779f7db187e6

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی
درود

❇️الان قراره بهتون تقلب برسونم و چندتا از مهم‌ترین سوالاتی که واسه مصاحبه شغلی مربوط به پردازش زبان طبیعی پرسیده میشه بهتون بگم البته من نه، منظورم نویسنده مقالس.

لینک مقاله 👇🏻
https://medium.com/modern-nlp/nlp-interview-questions-f062040f32f7

❇️@data_hub_ir

#مقاله
#مقاله_آموزشی