مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
به دنبال یادگیری Markdown به زبان فارسی هستید؟ این لینک یک آموزش جامع و کامل از مارک‌داون به زبان فارسی است. این مخزن شامل توضیحات مفصل و مثال‌های کاربردی برای تمامی سینتکس‌ها و ویژگی‌های مارک‌داون است. این مجموعه برای برنامه‌نویسان، بلاگرها و هر کسی که می‌خواهد متون خود را به صورت شکیل و تمیز فرمت کند، بسیار مفید و کاربردی است. یادگیری مارک‌داون به شما کمک می‌کند تا مستندات و متون خود را به راحتی و با کیفیت بالا ایجاد کنید.

📱 GitHub Repo
👍83
این دیتاست شامل اطلاعات ارزشمند از پتنت‌های ثبت شده در ایران است. مجموعه داده Persian-Patent-Dataset جمع‌آوری شده از منابع معتبر و کامل، توسط توسعه‌دهندگان برای استفاده پژوهشگران و علاقه‌مندان به تحلیل پتنت‌ها و نوآوری‌ها. این دیتاست شامل ویژگی‌هایی چون عنوان، خلاصه، شماره پتنت، سال ثبت و نام مخترع است. این مجموعه برای تحقیقات دانشگاهی، تحلیل‌های حقوقی و توسعه مدل‌های یادگیری ماشین در زمینه حقوق مالکیت فکری مناسب می‌باشد.

📱 GitHub Repo
👍7
راهنمای کاربردی و ساده برای ساخت چت‌بات به زبان فارسی!

این پروژه شامل یک چت‌بات ساده به زبان فارسی است که با استفاده از الگوریتم‌های پردازش زبان طبیعی (NLP) و مدل‌های ترکیبی نوشته شده است. هدف این پروژه، فراهم آوردن یک مثال عملی و آموزشی جهت پیاده‌سازی چت‌بات‌های زبان فارسی می‌باشد.

این چت‌بات برای پاسخ به سوالات متداول و ارائه اطلاعات ساده در محیط‌های کاربردی مختلف مثل وبسایت‌ها و اپلیکیشن‌ها قابل استفاده است.

با مراجعه به این لینک، می‌توانید به کدمنبع و مستندات پروژه دسترسی پیدا کنید و با استفاده از راهنماهای موجود، چت‌بات خود را بسازید.


📱 GitHub Repo
👍96🔥1
Forwarded from Farbod
من دوتا دیتاست فارسی ساختم اخیرا که جزو بزرگترین‌ها توی نوع خودشونن

دیتاست اسامی و جنسیت‌شون که شامل نگارش انگلیسی اسامی هم هست
لینک هاگینگ‌فیس و گیتهاب
https://huggingface.co/datasets/farbodbij/persian-gender-by-name
https://github.com/farbodbj/persian-gender-by-name

دیتاست فامیلی‌ها و درصد تکرارشون:
https://huggingface.co/datasets/farbodbij/iranian-surname-frequencies
https://github.com/farbodbj/iranian-surname-frequencies
👍135
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های سلامت و حتی اپلیکیشن‌های موبایل مورد استفاده قرار گیرد (التبه نیاز به بهبود دارد). همچنین قابل استفاده در پروژه‌های هوش مصنوعی و پردازش زبان طبیعی است.

📱 GitHub Repo
👍548👎4🔥1
مرجع دیتاست فارسی
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های…
از عجایب روزگار
یک کانالی هست که به صورت مستمر سعی می‌کنه جدیدترین مطالبی که به چشمش میاد، منتشر کنه که لازم نباشه هر روز توی گیتهاب سرچ کنید و صرفه جویی زمانی براتون بشه

و تا جای ممکن تبلیغ قبول نکنه
یعنی با وجود پیشنهادهای تبلیغاتی زیاد
ترجیح بده که با پست تبلیغاتی کانال شلوغ نشه
107👍14🔥2
حالا بعضی منت میزارند و لطف می کنند و دیسلاک می‌کنند
شاید عجیب باشه ولی این حرکات، آدم را دلسرد می‌کنه از ایده‌های بزرگتری که واسه کانال داره
97👍12👎3
یک پروژه فوق‌العاده برای علاقمندان به پردازش زبان طبیعی! هدف این پروژه تشخیص نیت کاربران از جملات بلند و پیچیده است. این ابزار قدرتمند می‌تواند در انواع برنامه‌های چت‌بوت، تحلیل گفتگو و حتی دستیارهای هوشمند مورد استفاده قرار گیرد. اگر به حوزه NLP علاقه دارید، این پروژه می‌تواند مرجع خوبی برای شما باشد!

📱 GitHub Repo
👍166
برای علاقه‌مندان به علم داده و کسانی که می‌خواهند به صورت خودآموز به این حوزه ورود کنند، این مخزن گیتهاب یک منبع بسیار کارآمد و کامل است. این مخزن شامل مجموعه‌ای از منابع آموزشی، دوره‌ها، کتاب‌ها و تمرین‌های عملی است که می‌تواند شما را از سطح مبتدی به حرفه‌ای در علم داده هدایت کند. این منابع بصورت جامع و مرحله‌به‌مرحله تنظیم شده‌اند و می‌توانید آن‌ها را برای یادگیری مهارت‌های مورد نیاز در حوزه علم داده، تحلیل داده‌ها و یادگیری ماشین استفاده کنید. همین حالا شروع کنید و سفری جذاب به دنیای علم داده را آغاز نمایید.

📱 GitHub Repo
👍17🔥1
اگر به دنبال ارتقا تجربیات خود در حوزه پردازش زبان طبیعی (NLP) به زبان فارسی هستید، حتماً به این لینک نگاهی بیندازید! FaMoji یک دیتاست غنی شامل بیش از ۲۰۰ هزار جفت جمله و اموجی است که به شما کمک می‌کند تا مدل‌های خود را برای تطابق متغیرهای متنی با اموجی‌های مناسب بهبود ببخشید. این دیتاست می‌تواند در پروژه‌های تحلیل احساسات، شبکه‌های اجتماعی و چت‌بات‌ها بسیار کاربردی باشد.

📱 GitHub Repo
🔥10👍3👎2
این مجموعه داده شامل متون کوتاه فارسی برچسب‌گذاری شده با احساسات مختلف است که به منظور تحلیل احساسات در زبان فارسی ایجاد شده است. با استفاده از این دیتاست، می‌توانید پروژه‌های تحلیل احساسات را در حوزه‌های مختلفی مانند شبکه‌های اجتماعی، بازخورد مشتریان یا تحلیل متون به‌کار بگیرید. این دیتاست شامل متونی با برچسب‌هایی مثل خوشحالی، ناراحتی، خشم و غیره است که برای تمرین و آموزش مدل‌های ماشین‌ لرنینگ و پردازش زبان طبیعی بسیار مفید خواهد بود.

📱 GitHub Repo
👍8
لیست کامل و جامعی از منابع فارسی برای برنامه‌نویسان! این مخزن شامل منابع ارزشمند و متنوعی است که به زبان فارسی تهیه شده‌اند و می‌توانند به بهبود مهارت‌ها و دانش فنی شما کمک کنند. منابع به دقت دسته‌بندی شده‌اند تا به راحتی قابل دسترس باشند. این لیست به خصوص برای افراد مبتدی و متوسط مناسب است و می‌تواند در آموزش، توسعه و پیشرفت حرفه‌ای شما مفید باشد.

📱 GitHub Repo
👍131🔥1
یک گنجینه بی‌نظیر از دیتاست‌های فارسی برای تحقیقات و پروژه‌های مختلف! این مخزن شامل مجموعه‌های متنوعی از داده‌های متنی، صوتی و تصویری است که به‌ویژه برای پروژه‌های پردازش زبان طبیعی، یادگیری ماشین و بینایی کامپیوتری کاربرد دارد. با استفاده از این دیتاست‌ها می‌توانید مدل‌های خود را بر روی داده‌های واقعی فارسی به خوبی آموزش دهید و نتایج بهتری کسب کنید.

📱 GitHub Repo
👍141
Forwarded from دیتاهاب
یه قدم واقعی برای خودت و آینده‌ت🩵

هوش مصنوعی مسیر جذابیه، ولی اگه ریاضی رو جدی نگیری، زود خسته میشی...
نه که بترسونیمت، ولی خودمونم دیدیم خیلی‌ها اینجا کم میارن.
نه با سخت‌گیری، نه با فرمول‌های عجیب، فقط با یه راه درست.

⚙️ این وبینار رو برای خودمون و آدم‌هایی مثل خودمون ساختیم:
کسانی که نمی‌خوان سرسری یاد بگیرن، دنبال مسیر واقعی هستن، و دوست دارن بدون ترس و شلوغ‌بازی شروع کنن.

🎙 با مهندس مبشری یاد می‌گیریم:

چرا ریاضی برای موفقیت توی پروژه‌های AI مهمه
چی باید بلد باشی که واقعا جلو بیفتی، نه اینکه فقط ظاهر قضیه رو بدونی
چطوری بدون استرس، یه مسیر یادگیری کاربردی بچینی

🗓 زمان: سه شنبه ۱۶ اردیبهشت | 🔜 ساعت: ۱۸:۰۰ تا ۱۹:۰۰
😀 برگزاری: آنلاین
🔴 اگه میخوای با خیال راحت قدم برداری اینجا ثبت‌نام کن:
🔗 ثبت‌نام وبینار

🎁 کدهای تخفیف مخصوص بچه‌های دیتاهاب:

🛍 کد community1 → ۷۲٪ تخفیف (ظرفیت خیلی محدود)
🛍 کد community2 → ۲۲٪ تخفیف (ظرفیت محدود)

😀 حواست باشه مخصوص کامیونیتی خودمونه.

😀 هر سوالی داشتی، بی‌تعارف همینجا ازمون بپرس. ما اینجاییم که مسیرت رو روشن‌تر کنیم، نه اینکه از دور نگاهت کنیم.
ثبت نام:
https://ttr.ir/2su1wn
با هم قوی‌تر می‌شیم. 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from دیتاهاب
This media is not supported in your browser
VIEW IN TELEGRAM
سلام رفقا 💙

برای همه‌ی کسایی که می‌خوان وارد دنیای هوش مصنوعی بشن و هنوز حس می‌کنن که ریاضی یه مانع جدی تو مسیرشونه، این وبینار دقیقاً برای شما طراحی شده!

وبینار ما نه فقط یه جلسه تئوری بلکه یه راهنمای واقعی برای شروع یادگیری بدون استرس و پیچیدگی هست.

🗓 زمان وبینار: سه‌شنبه ۱۶ اردیبهشت | ساعت ۱۸:۰۰ تا ۱۹:۰۰
📍 برگزاری آنلاین

🎁 برای شما که عضو کامیونیتی دیتاهاب هستید، یه کد تخفیف ویژه داریم:
community1 → فقط ۵۰ هزار تومان! (ظرفیت محدود)

🔗 لینک ثبت‌نام:
https://ttr.ir/2su1wn
3
📚 تاحالا شده بخوای پایتون رو از منبع رسمی و اصلی یادبگیری ولی توی زبان انگلیسیش گیر کنی؟

مستندات فایل python-docs کامل به فارسی ترجمه شده
چی بهتر از این؟!؟
از این رسمی تر و معتبر تر منبع ترجمه شده نداریم
اگه می‌خوای از مستندات استفاده کنی یا حتی توی ترجمه‌ها مشارکت داشته باشی، می‌تونی راحت اینجا رو بررسی کنی.

روی لینک بزن و مستقیم برو سراغش:
👉 github.com/Revisto/python-docs-fa
👍8👎4
🔍 تاحالا شده دنبال دیتاست خوب برای تحلیل احساسات متن فارسی بگردی و ناامید بشی؟

دیتاست Persian Sentiment and Emotion شامل ۱۲ هزار توییت فارسیه که با برچسب‌های احساساتی مثل شادی، غم و خشم علامت‌گذاری شده. این یعنی یه منبع خیلی خوب برای آموزش مدل‌های NLP فارسی.

📊 مشخصات:
– ۱۲,۰۰۰ نمونه
– فرمت CSV
– برچسب احساس و عاطفه
– منبع: توییتر فارسی

🔗 لینک دیتاست:
github.com/KianTohidi/Persian_Sentiment_and_Emotion

پیشنهاد می‌کنیم حتما یه نگاهی بندازی و نظرت رو بهمون بگی!
👍115🔥3
📡 WiFi Deauther — ابزاری برای تست امنیت وای‌فای

این ابزار کمک می‌کنه شبکه‌های وای‌فای اطراف رو اسکن کنی، دستگاه‌ها رو ببینی و مشکلات امنیتی رو پیدا کنی. فقط یادت باشه استفاده سالم و قانونی اهمیت داره و نه استفاده غیرمجاز.

⚙️ اجرا روی برد ESP8266
💡 کاربرد: تست نفوذ و آموزش امنیت شبکه

لینک پروژه:
github.com/lilithroseblack/wifi-deauther
👍41
معرفی میزان (MIZAN)؛ جامع‌ترین لیدربورد ارزیابی مدل‌های زبانی بزرگ (LLM) در زبان فارسی

پس از عرضهٔ بنچمارک FaMTEB برای ارزیابی مدل‌های Text Embedding، این‌بار تیم MCINEXT با دستاورد تازه‌ای در پردازش زبان طبیعی فارسی گامی بلندتر برداشته است.

🔍 چرا میزان؟

مقایسه جامع مدل‌های برتر دنیا — ارزیابی دقیق طیف گسترده‌ای از مدل‌های متن‌باز و بسته به‌روز، با هدف ایجاد یک مرجع معتبر برای فارسی‌زبانان.
پوشش ۶ بنچمارک تخصصی — طراحی‌شده توسط تیم MCINEXT برای سنجش عملکرد مدل‌ها در چت، پیروی از دستورالعمل، NLU، NLG، استدلال منطقی و دانش عمومی.
دسترسی به تحلیل دقیق عملکرد — هر بنچمارک در یک تب مجزا ارائه شده و شامل بررسی مدل‌ها در تسک‌ها، دیتاست‌ها و متریک‌های متنوع است (مثل تحلیل احساسات، طبقه‌بندی موضوعی، NLI، STS و... در بخش Persian NLU).
تنوع کاربردی بالا — میزان مدل‌ها را در سناریوهای واقعی فارسی مانند گفت‌وگوی چندمرحله‌ای، سیستم‌های RAG، تولید محتوا و پاسخ‌گویی منطقی ارزیابی می‌کند و به پژوهشگران کمک می‌کند بهترین مدل را برای نیاز خود انتخاب کنند.


🏆 بنچمارک‌های کلیدی میزان:

Persian MT-Bench: ارزیابی چت چندمرحله‌ای و کاربرد در سیستم‌های RAG

Persian IFEval: بررسی توانایی مدل‌ها در پیروی از دستورالعمل‌ها

PerCoR: اولین بنچمارک استدلال منطقی در زبان فارسی

PerMMLU: سنجش دانش عمومی و تخصصی مدل‌ها در موضوعات متنوع در زبان فارسی

Persian NLU: ارزیابی درک زبان طبیعی فارسی

Persian NLG: ارزیابی تولید زبان طبیعی فارسی

🔗 لیدربورد میزان را مشاهده کنید:
👉 https://lnkd.in/gPWdYyYG

📖 مقاله معرفی میزان در ویرگول:
👉 https://lnkd.in/gfE9R63Q

🔗 بنچمارک FaMTEB را مشاهده کنید:
👉 https://lnkd.in/guH8e8RS
👍104