مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
ی ابزار جامع و کامل برای هر کاری که بخواین روی تصویر یا متون فارسی انجام بدین، واقعا آچار فرانسه محسوب میشه


📱 GitHub Repo
👍12
Forwarded from دیتاهاب
رفقا سلام
🚀 یک هدیه باحال در انتظارتونه! 🎁

برای دریافت هدیه‌ای به ارزش 500 هزار تومان، فقط کافی‌ست 1.5 دقیقه وقت بذارید و پرسشنامه‌ی کوتاه ما رو تکمیل کنید!

📝 چطور؟

پرسشنامه خیلی آسونه، فقط چندتا گزینه انتخاب کنید و تمام.

در پایان، هدیه‌ی ما به شما تعلق می‌گیره! 🌹
پیشاپیش از همراهی و حمایت شما سپاسگزاریم! 🙏

🔗 لینک پرسش نامه

اگه نکته یا سوالی بود حتما پیام بدین @data_hub
👎9👍1
یه مجموعه کد مفید برای خلا‌صه‌سازی متون فارسی هم استخراجی و هم انتزاعی! در این ریپازیتوری، ابزارهای لازم برای خلاصه‌سازی متون بلند فارسی با استفاده از تکنیک‌های پیشرفته یادگیری ماشین و پردازش زبان طبیعی فراهم شده. این کدها می‌تونن در پروژه‌های مختلف از جمله تولید محتوا، تحلیل داده‌های متنی، و بهبود کارایی سیستم‌های پشتیبانی مشتریان استفاده بشن. با استفاده از این ابزارها، می‌تونید متون طولانی رو به راحتی و با دقت بالا خلاصه‌سازی کنید.

📱 GitHub Repo
👍8
یک پروژه کاربردی برای پرسش و پاسخ مقالات فارسی. این پروژه با استفاده از پردازش زبان طبیعی و تکنیک‌های یادگیری ماشین، به شما این امکان را می‌دهد که به سوالات مختلف در مقالات فارسی به راحتی پاسخ دهید. این ابزار می‌تواند در تحقیقات دانشگاهی، جستجوی اطلاعات یا حتی تسهیل دسترسی به اطلاعات درون سازمانی بسیار مفید باشد. دیتاست و مدل‌های استفاده شده در این پروژه کاملاً مناسب برای زبان فارسی بهینه شده‌اند.

📱 GitHub Repo
6👍2
این نوت‌بوک جالب در لینک ارائه‌شده، شامل کدها و توضیحات کاربردی برای یادگیری مبانی پایتون است. مجموعه‌ای از مثال‌های ساده و قابل فهم که به شما کمک می‌کند تا مهارت‌های برنامه‌نویسی خود را افزایش دهید. اگر در حال شروع یادگیری پایتون هستید یا نیاز به مرور مفاهیم پایه دارید، این نوت‌بوک می‌تواند بهترین مرجع برای شما باشد. ضمناً، از این نوت‌بوک می‌توانید در محیط‌های آموزشی و دوره‌های برنامه‌نویسی بهره ببرید.

📱 GitHub Repo
6🔥1
این ابزار وب‌کِرولِر فارسی برای جمع‌آوری اطلاعات از وبسایت‌های مختلف فارسی طراحی شده‌است. Persian Web Scraper با تمرکز بر زبان فارسی به شما کمک می‌کند تا داده‌های مورد نیاز خود را به صورت سریع و کارآمد استخراج کنید. این ابزار می‌تواند در پروژه‌های داده‌کاوی، تحلیل محتوا و سایر بررسی‌های مبتنی بر داده‌های اینترنتی مورد استفاده قرار گیرد.

📱 GitHub Repo
👍97🔥1
مجموعه ابزار قدرتمند برای پردازش و کار با متن‌های فارسی! با استفاده از این کتابخانه، شما می‌توانید به راحتی و به صورت کارآمد متن‌های فارسی را مورد پردازش قرار دهید. این ابزارک‌ها شامل قابلیت‌هایی نظیر توکنایز کردن، نرمال‌سازی، ریشه‌یابی و سایر عملیات مرتبط با زبان فارسی هستند که می‌تواند در پروژه‌های NLP و متن‌کاوی به شما کمک کند. با استفاده از این کتابخانه، فرآیند پردازش زبان فارسی در پروژه‌های خود را سریع‌تر و دقیق‌تر کنید.

📱 GitHub Repo
👍10
🔍 شناسایی اخبار جعلی فارسی:

این مخزن شامل مجموعه داده‌ای از اخبار جعلی به زبان فارسی است که به منظور شناسایی و تمایز اخبار واقعی از جعلی در رسانه‌ها و شبکه‌های اجتماعی ایجاد شده است. از طریق این مجموعه، پژوهشگران و توسعه‌دهندگان می‌توانند الگوریتم‌ها و مدل‌های یادگیری ماشین خود را برای تشخیص اخبار تقلبی بهبود بخشند.

📚 کاربردها:
- پروژه‌های یادگیری ماشین: آموزش مدل‌ها برای تشخیص و طبقه‌بندی اخبار جعلی.
- پردازش زبان طبیعی (NLP): تجزیه و تحلیل متون فارسی و بهبود دقت مدل‌های NLP.
- مطالعات رسانه‌ای: بررسی و تحلیل صحت اخبار منتشر شده در رسانه‌های فارسی‌زبان.

از این مجموعه داده می‌توان برای بهبود امنیت اطلاعات و جلوگیری از انتشار اطلاعات نادرست در جامعه استفاده کرد.

📱 GitHub Repo
👍105
به دنبال یادگیری Markdown به زبان فارسی هستید؟ این لینک یک آموزش جامع و کامل از مارک‌داون به زبان فارسی است. این مخزن شامل توضیحات مفصل و مثال‌های کاربردی برای تمامی سینتکس‌ها و ویژگی‌های مارک‌داون است. این مجموعه برای برنامه‌نویسان، بلاگرها و هر کسی که می‌خواهد متون خود را به صورت شکیل و تمیز فرمت کند، بسیار مفید و کاربردی است. یادگیری مارک‌داون به شما کمک می‌کند تا مستندات و متون خود را به راحتی و با کیفیت بالا ایجاد کنید.

📱 GitHub Repo
👍83
این دیتاست شامل اطلاعات ارزشمند از پتنت‌های ثبت شده در ایران است. مجموعه داده Persian-Patent-Dataset جمع‌آوری شده از منابع معتبر و کامل، توسط توسعه‌دهندگان برای استفاده پژوهشگران و علاقه‌مندان به تحلیل پتنت‌ها و نوآوری‌ها. این دیتاست شامل ویژگی‌هایی چون عنوان، خلاصه، شماره پتنت، سال ثبت و نام مخترع است. این مجموعه برای تحقیقات دانشگاهی، تحلیل‌های حقوقی و توسعه مدل‌های یادگیری ماشین در زمینه حقوق مالکیت فکری مناسب می‌باشد.

📱 GitHub Repo
👍7
راهنمای کاربردی و ساده برای ساخت چت‌بات به زبان فارسی!

این پروژه شامل یک چت‌بات ساده به زبان فارسی است که با استفاده از الگوریتم‌های پردازش زبان طبیعی (NLP) و مدل‌های ترکیبی نوشته شده است. هدف این پروژه، فراهم آوردن یک مثال عملی و آموزشی جهت پیاده‌سازی چت‌بات‌های زبان فارسی می‌باشد.

این چت‌بات برای پاسخ به سوالات متداول و ارائه اطلاعات ساده در محیط‌های کاربردی مختلف مثل وبسایت‌ها و اپلیکیشن‌ها قابل استفاده است.

با مراجعه به این لینک، می‌توانید به کدمنبع و مستندات پروژه دسترسی پیدا کنید و با استفاده از راهنماهای موجود، چت‌بات خود را بسازید.


📱 GitHub Repo
👍96🔥1
Forwarded from Farbod
من دوتا دیتاست فارسی ساختم اخیرا که جزو بزرگترین‌ها توی نوع خودشونن

دیتاست اسامی و جنسیت‌شون که شامل نگارش انگلیسی اسامی هم هست
لینک هاگینگ‌فیس و گیتهاب
https://huggingface.co/datasets/farbodbij/persian-gender-by-name
https://github.com/farbodbj/persian-gender-by-name

دیتاست فامیلی‌ها و درصد تکرارشون:
https://huggingface.co/datasets/farbodbij/iranian-surname-frequencies
https://github.com/farbodbj/iranian-surname-frequencies
👍135
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های سلامت و حتی اپلیکیشن‌های موبایل مورد استفاده قرار گیرد (التبه نیاز به بهبود دارد). همچنین قابل استفاده در پروژه‌های هوش مصنوعی و پردازش زبان طبیعی است.

📱 GitHub Repo
👍548👎4🔥1
مرجع دیتاست فارسی
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های…
از عجایب روزگار
یک کانالی هست که به صورت مستمر سعی می‌کنه جدیدترین مطالبی که به چشمش میاد، منتشر کنه که لازم نباشه هر روز توی گیتهاب سرچ کنید و صرفه جویی زمانی براتون بشه

و تا جای ممکن تبلیغ قبول نکنه
یعنی با وجود پیشنهادهای تبلیغاتی زیاد
ترجیح بده که با پست تبلیغاتی کانال شلوغ نشه
107👍14🔥2
حالا بعضی منت میزارند و لطف می کنند و دیسلاک می‌کنند
شاید عجیب باشه ولی این حرکات، آدم را دلسرد می‌کنه از ایده‌های بزرگتری که واسه کانال داره
97👍12👎3
یک پروژه فوق‌العاده برای علاقمندان به پردازش زبان طبیعی! هدف این پروژه تشخیص نیت کاربران از جملات بلند و پیچیده است. این ابزار قدرتمند می‌تواند در انواع برنامه‌های چت‌بوت، تحلیل گفتگو و حتی دستیارهای هوشمند مورد استفاده قرار گیرد. اگر به حوزه NLP علاقه دارید، این پروژه می‌تواند مرجع خوبی برای شما باشد!

📱 GitHub Repo
👍166
برای علاقه‌مندان به علم داده و کسانی که می‌خواهند به صورت خودآموز به این حوزه ورود کنند، این مخزن گیتهاب یک منبع بسیار کارآمد و کامل است. این مخزن شامل مجموعه‌ای از منابع آموزشی، دوره‌ها، کتاب‌ها و تمرین‌های عملی است که می‌تواند شما را از سطح مبتدی به حرفه‌ای در علم داده هدایت کند. این منابع بصورت جامع و مرحله‌به‌مرحله تنظیم شده‌اند و می‌توانید آن‌ها را برای یادگیری مهارت‌های مورد نیاز در حوزه علم داده، تحلیل داده‌ها و یادگیری ماشین استفاده کنید. همین حالا شروع کنید و سفری جذاب به دنیای علم داده را آغاز نمایید.

📱 GitHub Repo
👍17🔥1