مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
برای علاقه‌مندان به علم داده و کسانی که می‌خواهند به صورت خودآموز به این حوزه ورود کنند، این مخزن گیتهاب یک منبع بسیار کارآمد و کامل است. این مخزن شامل مجموعه‌ای از منابع آموزشی، دوره‌ها، کتاب‌ها و تمرین‌های عملی است که می‌تواند شما را از سطح مبتدی به حرفه‌ای در علم داده هدایت کند. این منابع بصورت جامع و مرحله‌به‌مرحله تنظیم شده‌اند و می‌توانید آن‌ها را برای یادگیری مهارت‌های مورد نیاز در حوزه علم داده، تحلیل داده‌ها و یادگیری ماشین استفاده کنید. همین حالا شروع کنید و سفری جذاب به دنیای علم داده را آغاز نمایید.

📱 GitHub Repo
👍17🔥1
اگر به دنبال ارتقا تجربیات خود در حوزه پردازش زبان طبیعی (NLP) به زبان فارسی هستید، حتماً به این لینک نگاهی بیندازید! FaMoji یک دیتاست غنی شامل بیش از ۲۰۰ هزار جفت جمله و اموجی است که به شما کمک می‌کند تا مدل‌های خود را برای تطابق متغیرهای متنی با اموجی‌های مناسب بهبود ببخشید. این دیتاست می‌تواند در پروژه‌های تحلیل احساسات، شبکه‌های اجتماعی و چت‌بات‌ها بسیار کاربردی باشد.

📱 GitHub Repo
🔥10👍3👎2
این مجموعه داده شامل متون کوتاه فارسی برچسب‌گذاری شده با احساسات مختلف است که به منظور تحلیل احساسات در زبان فارسی ایجاد شده است. با استفاده از این دیتاست، می‌توانید پروژه‌های تحلیل احساسات را در حوزه‌های مختلفی مانند شبکه‌های اجتماعی، بازخورد مشتریان یا تحلیل متون به‌کار بگیرید. این دیتاست شامل متونی با برچسب‌هایی مثل خوشحالی، ناراحتی، خشم و غیره است که برای تمرین و آموزش مدل‌های ماشین‌ لرنینگ و پردازش زبان طبیعی بسیار مفید خواهد بود.

📱 GitHub Repo
👍8
لیست کامل و جامعی از منابع فارسی برای برنامه‌نویسان! این مخزن شامل منابع ارزشمند و متنوعی است که به زبان فارسی تهیه شده‌اند و می‌توانند به بهبود مهارت‌ها و دانش فنی شما کمک کنند. منابع به دقت دسته‌بندی شده‌اند تا به راحتی قابل دسترس باشند. این لیست به خصوص برای افراد مبتدی و متوسط مناسب است و می‌تواند در آموزش، توسعه و پیشرفت حرفه‌ای شما مفید باشد.

📱 GitHub Repo
👍131🔥1
یک گنجینه بی‌نظیر از دیتاست‌های فارسی برای تحقیقات و پروژه‌های مختلف! این مخزن شامل مجموعه‌های متنوعی از داده‌های متنی، صوتی و تصویری است که به‌ویژه برای پروژه‌های پردازش زبان طبیعی، یادگیری ماشین و بینایی کامپیوتری کاربرد دارد. با استفاده از این دیتاست‌ها می‌توانید مدل‌های خود را بر روی داده‌های واقعی فارسی به خوبی آموزش دهید و نتایج بهتری کسب کنید.

📱 GitHub Repo
👍141
Forwarded from دیتاهاب
یه قدم واقعی برای خودت و آینده‌ت🩵

هوش مصنوعی مسیر جذابیه، ولی اگه ریاضی رو جدی نگیری، زود خسته میشی...
نه که بترسونیمت، ولی خودمونم دیدیم خیلی‌ها اینجا کم میارن.
نه با سخت‌گیری، نه با فرمول‌های عجیب، فقط با یه راه درست.

⚙️ این وبینار رو برای خودمون و آدم‌هایی مثل خودمون ساختیم:
کسانی که نمی‌خوان سرسری یاد بگیرن، دنبال مسیر واقعی هستن، و دوست دارن بدون ترس و شلوغ‌بازی شروع کنن.

🎙 با مهندس مبشری یاد می‌گیریم:

چرا ریاضی برای موفقیت توی پروژه‌های AI مهمه
چی باید بلد باشی که واقعا جلو بیفتی، نه اینکه فقط ظاهر قضیه رو بدونی
چطوری بدون استرس، یه مسیر یادگیری کاربردی بچینی

🗓 زمان: سه شنبه ۱۶ اردیبهشت | 🔜 ساعت: ۱۸:۰۰ تا ۱۹:۰۰
😀 برگزاری: آنلاین
🔴 اگه میخوای با خیال راحت قدم برداری اینجا ثبت‌نام کن:
🔗 ثبت‌نام وبینار

🎁 کدهای تخفیف مخصوص بچه‌های دیتاهاب:

🛍 کد community1 → ۷۲٪ تخفیف (ظرفیت خیلی محدود)
🛍 کد community2 → ۲۲٪ تخفیف (ظرفیت محدود)

😀 حواست باشه مخصوص کامیونیتی خودمونه.

😀 هر سوالی داشتی، بی‌تعارف همینجا ازمون بپرس. ما اینجاییم که مسیرت رو روشن‌تر کنیم، نه اینکه از دور نگاهت کنیم.
ثبت نام:
https://ttr.ir/2su1wn
با هم قوی‌تر می‌شیم. 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from دیتاهاب
This media is not supported in your browser
VIEW IN TELEGRAM
سلام رفقا 💙

برای همه‌ی کسایی که می‌خوان وارد دنیای هوش مصنوعی بشن و هنوز حس می‌کنن که ریاضی یه مانع جدی تو مسیرشونه، این وبینار دقیقاً برای شما طراحی شده!

وبینار ما نه فقط یه جلسه تئوری بلکه یه راهنمای واقعی برای شروع یادگیری بدون استرس و پیچیدگی هست.

🗓 زمان وبینار: سه‌شنبه ۱۶ اردیبهشت | ساعت ۱۸:۰۰ تا ۱۹:۰۰
📍 برگزاری آنلاین

🎁 برای شما که عضو کامیونیتی دیتاهاب هستید، یه کد تخفیف ویژه داریم:
community1 → فقط ۵۰ هزار تومان! (ظرفیت محدود)

🔗 لینک ثبت‌نام:
https://ttr.ir/2su1wn
3
📚 تاحالا شده بخوای پایتون رو از منبع رسمی و اصلی یادبگیری ولی توی زبان انگلیسیش گیر کنی؟

مستندات فایل python-docs کامل به فارسی ترجمه شده
چی بهتر از این؟!؟
از این رسمی تر و معتبر تر منبع ترجمه شده نداریم
اگه می‌خوای از مستندات استفاده کنی یا حتی توی ترجمه‌ها مشارکت داشته باشی، می‌تونی راحت اینجا رو بررسی کنی.

روی لینک بزن و مستقیم برو سراغش:
👉 github.com/Revisto/python-docs-fa
👍8👎4
🔍 تاحالا شده دنبال دیتاست خوب برای تحلیل احساسات متن فارسی بگردی و ناامید بشی؟

دیتاست Persian Sentiment and Emotion شامل ۱۲ هزار توییت فارسیه که با برچسب‌های احساساتی مثل شادی، غم و خشم علامت‌گذاری شده. این یعنی یه منبع خیلی خوب برای آموزش مدل‌های NLP فارسی.

📊 مشخصات:
– ۱۲,۰۰۰ نمونه
– فرمت CSV
– برچسب احساس و عاطفه
– منبع: توییتر فارسی

🔗 لینک دیتاست:
github.com/KianTohidi/Persian_Sentiment_and_Emotion

پیشنهاد می‌کنیم حتما یه نگاهی بندازی و نظرت رو بهمون بگی!
👍115🔥3
📡 WiFi Deauther — ابزاری برای تست امنیت وای‌فای

این ابزار کمک می‌کنه شبکه‌های وای‌فای اطراف رو اسکن کنی، دستگاه‌ها رو ببینی و مشکلات امنیتی رو پیدا کنی. فقط یادت باشه استفاده سالم و قانونی اهمیت داره و نه استفاده غیرمجاز.

⚙️ اجرا روی برد ESP8266
💡 کاربرد: تست نفوذ و آموزش امنیت شبکه

لینک پروژه:
github.com/lilithroseblack/wifi-deauther
👍41
معرفی میزان (MIZAN)؛ جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضهٔ بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار تیم MCINEXT با دستاورد تازه‌ای در پردازش زبان طبیعی فارسی گامی بلندتر برداشته است.

🔍 چرا میزان؟

مقایسه جامع مدل‌های برتر دنیا — ارزیابی دقیق طیف گسترده‌ای از مدل‌های متن‌باز و بسته به‌روز، با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان.
پوشش ۶ بنچمارک تخصصی — طراحی‌شده توسط تیم MCINEXT برای سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی.
دسترسی به تحلیل دقیق عملکرد — هر بنچمارک در یک تب مجزا ارائه شده و شامل بررسی مدل‌ها در تسک‌ها، دیتاست‌ها و متریک‌های متنوع است (مثل تحلیل احساسات، طبقه‌بندی موضوعی، NLI، STS و... در بخش Persian NLU).
تنوع کاربردی بالا — میزان مدل‌ها را در سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، سیستم‌های RAG، تولید محتوا و پاسخ‌گویی منطقی ارزیابی می‌کند و به پژوهشگران کمک می‌کند بهترین مدل را برای نیاز خود انتخاب کنند.


🏆 بنچمارک‌های کلیدی میزان:

Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG

Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها

PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی

PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی

Persian NLU: ارزیابی درک زبان طبیعی فارسی

Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لیدربورد میزان را مشاهده کنید:
👉 https://lnkd.in/gPWdYyYG

📖 مقاله معرفی میزان در ویرگول:
👉 https://lnkd.in/gfE9R63Q

🔗 بنچمارک FaMTEB را مشاهده کنید:
👉 https://lnkd.in/guH8e8RS
👍104
رفقا، تشخیص محتوای توهین‌آمیز تو فارسی سخته و وقت‌گیره🫠. امروز می‌خوایم یه دیتاست فوق‌العاده برای تشخیص محتوای توهین‌آمیز در فارسی رو بهتون معرفی کنیم!

با این دیتاست، می‌تونید مدل‌های هوش مصنوعی رو برای شناسایی خودکار پیام‌های نامناسب آموزش بدید و یه فضای آنلاین سالم‌تر بسازید.🤩

مشخصات و کاربردها
بیش از ۱۰ هزار توییت فارسی برچسب‌خورده.
شامل متن و برچسب‌های توهین‌آمیز (توهین/عادی) و دسته‌بندی‌های دقیق‌تر.
عالی برای تشخیص توهین و آزار کلامی و ساخت فیلترینگ خودکار.


🔗 لینک دیتاست:
github.com/golnaz76gh/pars-offensive-dataset

اگر روی پروژه‌های تشخیص محتوا کار می‌کنی، این دیتاست می‌تونه کمک بزرگی باشه. حتماً یه نگاهی بنداز!
17👍3🔥1
🎁 منابع رایگان برنامه‌نویسی برای همه!

بچه‌ها، اگه دنبال کلی منابع خفن و رایگان برای یادگیری برنامه‌نویسی هستید، این ریپوی گیت‌هاب یه گنج واقعی براتونه! 💎 از ای‌بوک‌ها و ویدیوهای آموزشی گرفته تا ابزارها و دوره‌های آنلاین... همه رایگان و مرتب و منظم دسته بندی شدن.

📚 مشخصات:
– شامل منابع رایگان برای زبان‌های مختلف برنامه‌نویسی
– دسته‌بندی شده برای یادگیری سریع‌تر
– لینک‌های مستقیم به منابع

💡 کاربردها:
– یادگیری از صفر تا پیشرفته
– تقویت مهارت‌های کدنویسی
– پیدا کردن ابزارهای رایگان و حرفه‌ای

🔗 لینک:
https://github.com/barnamenevisi/free-resources

📥 این پست رو برای هرکسی که فکر میکنی براش مفیده بفرست تا از محتوا رایگان استفاده کنند.😊
👍3
Channel photo updated
🎯 دیتاست Iranis – دیتاست فارسی برای شناسایی پلاک خودرو! 🚗

رفقا، امروز یه دیتاست فوق‌العاده براتون داریم که شامل بیش از 83,000 تصویر از اعداد و حروف فارسی موجود روی پلاک خودروهاست. این دیتاست برای پروژه‌های تشخیص کاراکتر پلاک خودرو و سیستم‌های بینایی ماشین بسیار کاربردیه!

📊 ویژگی‌ها و مشخصات:
– شامل تصاویر واقعی از پلاک خودروهای فارسی.

– بیش از 83,000 نمونه تصویری از اعداد و حروف فارسی.

– دسته‌بندی شده بر اساس اعداد، حروف و نمادهای خاص (مانند نماد ویلچر برای افراد دارای معلولیت).

💡 کاربردها:
– تشخیص کاراکترهای پلاک خودرو.

– آموزش مدل‌های بینایی ماشین.

– ساخت سیستم‌های هوشمند شناسایی خودرو.

🔗 لینک دانلود دیتاست:

github.com/alitourani/Iranis-dataset

📥 این پست رو برای کسایی که تو حوزه بینایی ماشین کار می‌کنن بفرست تا از این منبع ارزشمند استفاده کنن! 😊

#دیتاست #بینایی_ماشین #پلاک_خودرو #پردازش_تصویر #هوش_مصنوعی #تشخیص_کاراکتر #MachineLearning
👍111
🎯 ابزار مدل‌سازی موضوعات در متن‌های کوتاه فارسی! 📝

اگر با چالش تحلیل و استخراج موضوعات از متن‌های کوتاه فارسی (مثل توییت‌ها یا پیام‌های کوتاه) مواجه هستید، این ابزار می‌تواند نیاز شما را برطرف کند. با استفاده از تکنیک‌های پیشرفته مانند LDA و NMF، می‌توانید موضوعات کلیدی را از داده‌های متنی استخراج کرده و آن‌ها را در پروژه‌های خود به کار ببرید.

📊 ویژگی‌ها و مزایا:

– تمرکز بر متن‌های کوتاه: ابزار بهینه برای داده‌هایی که طول متن در آن‌ها محدود است.

– روش‌های متنوع: پشتیبانی از الگوریتم‌های مختلف مدل‌سازی موضوعات برای مقایسه عملکرد و انتخاب بهترین روش.

– قابلیت اجرا: امکان استفاده آسان در محیط‌هایی مثل Google Colab برای تست سریع و کارآمد.

💡 مناسب برای چه کسانی؟

– تحلیلگران داده و متخصصان NLP که به دنبال استخراج موضوعات از داده‌های فارسی هستند.

– کسانی که روی شبکه‌های اجتماعی، نظرسنجی‌ها یا پیام‌های کوتاه کار می‌کنند.

– پژوهشگران و توسعه‌دهندگانی که نیاز به سازماندهی داده‌های متنی دارند.

🔗 لینک ابزار و نحوه استفاده:

https://github.com/DSInCenter/topicmodel

📥 اگر نیاز به استخراج موضوعات از متن‌های کوتاه دارید، این ابزار را امتحان کنید!

#مدل_سازی_موضوعات #پردازش_زبان #NLP_فارسی #تحلیل_متن #هوش_مصنوعی #متن_کوتاه #MachineLearning
👍41
🎯 تشخیص منظور کاربر از جملات بلند و پیچیده! 🤖

اگر در حال توسعه چت‌بات یا سیستم‌های هوشمند پردازش زبان طبیعی هستید، احتمالاً با چالش تشخیص منظور اصلی کاربر از جملات طولانی و پیچیده روبرو شده‌اید. این پروژه به شما کمک می‌کند تا این چالش را مدیریت کنید و سیستم‌های هوشمندتر و دقیق‌تری طراحی کنید.

📊 ویژگی‌ها و مزایا:

– تمرکز بر تحلیل و استخراج مقصود اصلی از جملات طولانی و همراه با اطلاعات حاشیه‌ای.

– مناسب برای توسعه چت‌بات‌ها و سیستم‌های پاسخ‌گویی هوشمند.

– استفاده از داده‌های دسته‌بندی‌شده با مشخص بودن هدف اصلی کاربر.

💡 کاربردها:

– توسعه چت‌بات‌های پشتیبانی مشتری.

– سیستم‌های پاسخ‌گویی هوشمند برای خدمات تلفن همراه، بانکداری، و سایر سرویس‌ها.

– بهبود تجربه کاربری در اپلیکیشن‌های مبتنی بر مکالمه.

🔗 لینک پروژه و کدها:

https://github.com/MojtabaZarreh/Recognizing-the-user-s-intent-from-long-and-complex-sentences

📥 اگر به دنبال راه‌حلی برای تحلیل دقیق‌تر نیازهای کاربران هستید، این پروژه را بررسی کنید!

#تشخیص_مقصود #پردازش_زبان #NLP_فارسی #چت_بات #هوش_مصنوعی #تحلیل_متن #MachineLearning
3👍2🔥1
🎯 دیتاست Persian Instruct – مجموعه داده‌ای برای تنظیم دستورات به زبان فارسی! 📝

اگر به دنبال یک دیتاست باکیفیت برای انجام تسک‌های مختلف پردازش زبان طبیعی (NLP) به زبان فارسی هستید، دیتاست Semi-Alpaca Instruction Tuning می‌تواند انتخاب بسیار خوبی باشد. این دیتاست برای پروژه‌هایی مثل ترجمه ماشینی، تولید متن، و سایر کاربردها طراحی شده است.

📊 ویژگی‌های دیتاست:

– حاوی مجموعه‌ای از دستورات به زبان فارسی برای تنظیم مدل‌ها.

– مناسب برای تسک‌های متنوع NLP در زبان فارسی.

– گردآوری شده با همکاری دانشجویان دانشگاه تهران.

🔗 لینک دیتاست:

https://github.com/mostafaamiri/Persian_instruct_dataset

💡 اگر در حوزه NLP فارسی فعالیت می‌کنید، این دیتاست را از دست ندهید!

#دیتاست #NLP_فارسی #پردازش_زبان #هوش_مصنوعی #تولید_متن #ترجمه_ماشینی #MachineLearning
👍71🔥1
📊 Senti-Persian – دیتاست تحلیل احساسات فارسی!

اگه دنبال یه دیتاست حرفه‌ای برای تحلیل احساسات به زبان فارسی هستی، Senti-Persian انتخاب مناسبیه! این دیتاست شامل 67,743 کامنت برچسب‌گذاری‌شده از سایت‌های ایرانی (نماوا، فیلیمو، آپارات) و شبکه‌های اجتماعی (یوتیوب، توییتر، اینستاگرام) هست که با برچسب‌های مثبت، منفی و خنثی دسته‌بندی شده.

ویژگی‌ها:

– داده‌های واقعی + داده‌های مصنوعی تولیدشده با تکنیک GAN

– بهبود دقت تحلیل احساسات از 88.4% به 96%

– مناسب برای توسعه سیستم‌های NLP فارسی

💡 کاربردها:

– تحلیل احساسات کاربران

– بهبود سیستم‌های پیشنهاددهی

– ابزارهای هوشمند در حوزه داده

🔗 لینک پروژه:

https://github.com/engmahsa/Senti-Persian-Dataset

📥 امتحانش کن و نظرت رو برامون بنویس!

#تحلیل_احساسات #دیتاست #NLP_فارسی #هوش_مصنوعی #پردازش_زبان
👍112
📚 RAG – سیستم پرسش و پاسخ برای فایل‌های PDF فارسی!

اگه دنبال یه سیستم هوشمند برای پرسش و پاسخ از فایل‌های PDF فارسی هستی، پروژه RAG دقیقاً همون چیزی هست که نیاز داری! این پروژه، با استفاده از مدل‌های زبان بزرگ و تکنیک Retrieval-Augmented Generation، اطلاعات مربوطه رو از فایل‌های PDF استخراج می‌کنه و پاسخ‌های دقیق و مرتبط ارائه می‌ده.

ویژگی‌ها:

پشتیبانی از فایل‌های PDF فارسی
– استفاده از مدل قدرتمند orca-tau-4k-persian-alpaca-f32 برای جستجوی معنایی و تولید پاسخ
– استخراج اطلاعات مرتبط و دقیق با کمک کلاس PDFProcessor

💡 کاربردها:
– پرسش و پاسخ از اسناد فارسی
– جستجوی سریع و دقیق در فایل‌های PDF
– ابزارهای آموزشی و پژوهشی

🔗 لینک پروژه:
github.com/zaha2020/RAG

📥 امتحانش کن و نظرت رو با ما به اشتراک بذار! 😊

#پرسش_پاسخ #PDF_فارسی #هوش_مصنوعی #پردازش_زبان #NLP_فارسی
6👍2
🎙 وبینار مسیر شغلی تحلیلگر داده - با بورسیه ۱۰۰٪ بدون قرعه‌کشی!

🌟 دنیای داده پر از فرصت‌های طلاییه، ولی پیدا کردن مسیر درست وسط این شلوغی کار آسونی نیست. اگه نمی‌دونی از کجا شروع کنی یا شرکت‌ها واقعاً دنبال چی هستن، این وبینار می‌تونه نقشه راه شفاف و واقعی تو باشه.

تو این وبینار یاد می‌گیری:
– رازهای پیدا کردن نیاز واقعی شرکت‌ها و رمزگشایی آگهی‌های شغلی
– ابزارهای پولساز و مسیر خودآموزی هدفمندشون
– تشخیص منابع آموزشی خوب از محتوای زرد
– تکنیک‌های یادگیری سریع برای تبدیل شدن به یک تحلیلگر داده حرفه‌ای

🎓 حالا نوبت بورسیه ۱۰۰٪ دیتاهابه!
ما به آدم‌های اهل عمل و یادگیری باور داریم. این بورسیه بدون قرعه‌کشی و کاملاً رایگانه! فقط کافیه شرایط ساده‌اش رو ببینی و اقدام کنی.

زمان: سه‌شنبه ۳۱ تیر، ساعت ۲۰:۰۰ تا ۲۱:۳۰
💰 هزینه: ۲۳۸ هزار تومان (با بورسیه، رایگان!)
🔗 لینک ثبت‌نام و جزئیات بورسیه:
https://zaya.io/gxxr0

📥 همین حالا کلیک کن و داستان بورسیه ۱۰۰٪ رو ببین!

📊 پرشین دیتا، مرجع دیتاست‌های فارسی!
@persian_data

#تحلیل_داده #بورسیه_رایگان #یادگیری_ماشین #مسیر_شغلی
3