مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
مجموعه ابزار قدرتمند برای پردازش و کار با متن‌های فارسی! با استفاده از این کتابخانه، شما می‌توانید به راحتی و به صورت کارآمد متن‌های فارسی را مورد پردازش قرار دهید. این ابزارک‌ها شامل قابلیت‌هایی نظیر توکنایز کردن، نرمال‌سازی، ریشه‌یابی و سایر عملیات مرتبط با زبان فارسی هستند که می‌تواند در پروژه‌های NLP و متن‌کاوی به شما کمک کند. با استفاده از این کتابخانه، فرآیند پردازش زبان فارسی در پروژه‌های خود را سریع‌تر و دقیق‌تر کنید.

📱 GitHub Repo
👍10
🔍 شناسایی اخبار جعلی فارسی:

این مخزن شامل مجموعه داده‌ای از اخبار جعلی به زبان فارسی است که به منظور شناسایی و تمایز اخبار واقعی از جعلی در رسانه‌ها و شبکه‌های اجتماعی ایجاد شده است. از طریق این مجموعه، پژوهشگران و توسعه‌دهندگان می‌توانند الگوریتم‌ها و مدل‌های یادگیری ماشین خود را برای تشخیص اخبار تقلبی بهبود بخشند.

📚 کاربردها:
- پروژه‌های یادگیری ماشین: آموزش مدل‌ها برای تشخیص و طبقه‌بندی اخبار جعلی.
- پردازش زبان طبیعی (NLP): تجزیه و تحلیل متون فارسی و بهبود دقت مدل‌های NLP.
- مطالعات رسانه‌ای: بررسی و تحلیل صحت اخبار منتشر شده در رسانه‌های فارسی‌زبان.

از این مجموعه داده می‌توان برای بهبود امنیت اطلاعات و جلوگیری از انتشار اطلاعات نادرست در جامعه استفاده کرد.

📱 GitHub Repo
👍105
به دنبال یادگیری Markdown به زبان فارسی هستید؟ این لینک یک آموزش جامع و کامل از مارک‌داون به زبان فارسی است. این مخزن شامل توضیحات مفصل و مثال‌های کاربردی برای تمامی سینتکس‌ها و ویژگی‌های مارک‌داون است. این مجموعه برای برنامه‌نویسان، بلاگرها و هر کسی که می‌خواهد متون خود را به صورت شکیل و تمیز فرمت کند، بسیار مفید و کاربردی است. یادگیری مارک‌داون به شما کمک می‌کند تا مستندات و متون خود را به راحتی و با کیفیت بالا ایجاد کنید.

📱 GitHub Repo
👍83
این دیتاست شامل اطلاعات ارزشمند از پتنت‌های ثبت شده در ایران است. مجموعه داده Persian-Patent-Dataset جمع‌آوری شده از منابع معتبر و کامل، توسط توسعه‌دهندگان برای استفاده پژوهشگران و علاقه‌مندان به تحلیل پتنت‌ها و نوآوری‌ها. این دیتاست شامل ویژگی‌هایی چون عنوان، خلاصه، شماره پتنت، سال ثبت و نام مخترع است. این مجموعه برای تحقیقات دانشگاهی، تحلیل‌های حقوقی و توسعه مدل‌های یادگیری ماشین در زمینه حقوق مالکیت فکری مناسب می‌باشد.

📱 GitHub Repo
👍7
راهنمای کاربردی و ساده برای ساخت چت‌بات به زبان فارسی!

این پروژه شامل یک چت‌بات ساده به زبان فارسی است که با استفاده از الگوریتم‌های پردازش زبان طبیعی (NLP) و مدل‌های ترکیبی نوشته شده است. هدف این پروژه، فراهم آوردن یک مثال عملی و آموزشی جهت پیاده‌سازی چت‌بات‌های زبان فارسی می‌باشد.

این چت‌بات برای پاسخ به سوالات متداول و ارائه اطلاعات ساده در محیط‌های کاربردی مختلف مثل وبسایت‌ها و اپلیکیشن‌ها قابل استفاده است.

با مراجعه به این لینک، می‌توانید به کدمنبع و مستندات پروژه دسترسی پیدا کنید و با استفاده از راهنماهای موجود، چت‌بات خود را بسازید.


📱 GitHub Repo
👍96🔥1
Forwarded from Farbod
من دوتا دیتاست فارسی ساختم اخیرا که جزو بزرگترین‌ها توی نوع خودشونن

دیتاست اسامی و جنسیت‌شون که شامل نگارش انگلیسی اسامی هم هست
لینک هاگینگ‌فیس و گیتهاب
https://huggingface.co/datasets/farbodbij/persian-gender-by-name
https://github.com/farbodbj/persian-gender-by-name

دیتاست فامیلی‌ها و درصد تکرارشون:
https://huggingface.co/datasets/farbodbij/iranian-surname-frequencies
https://github.com/farbodbj/iranian-surname-frequencies
👍135
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های سلامت و حتی اپلیکیشن‌های موبایل مورد استفاده قرار گیرد (التبه نیاز به بهبود دارد). همچنین قابل استفاده در پروژه‌های هوش مصنوعی و پردازش زبان طبیعی است.

📱 GitHub Repo
👍548👎4🔥1
مرجع دیتاست فارسی
یک چت‌بات پزشکی کاربردی که می‌تواند به سوالات مختلف کاربران در زمینه سلامت و پزشکی پاسخ دهد. این پروژه با هدف ایجاد یک ابزار مفید برای دسترسی آسان و سریع به اطلاعات پزشکی و مشاوره اولیه طراحی شده است. این چت‌بات می‌تواند در کلینیک‌ها، بیمارستان‌ها، سایت‌های…
از عجایب روزگار
یک کانالی هست که به صورت مستمر سعی می‌کنه جدیدترین مطالبی که به چشمش میاد، منتشر کنه که لازم نباشه هر روز توی گیتهاب سرچ کنید و صرفه جویی زمانی براتون بشه

و تا جای ممکن تبلیغ قبول نکنه
یعنی با وجود پیشنهادهای تبلیغاتی زیاد
ترجیح بده که با پست تبلیغاتی کانال شلوغ نشه
107👍14🔥2
حالا بعضی منت میزارند و لطف می کنند و دیسلاک می‌کنند
شاید عجیب باشه ولی این حرکات، آدم را دلسرد می‌کنه از ایده‌های بزرگتری که واسه کانال داره
97👍12👎3
یک پروژه فوق‌العاده برای علاقمندان به پردازش زبان طبیعی! هدف این پروژه تشخیص نیت کاربران از جملات بلند و پیچیده است. این ابزار قدرتمند می‌تواند در انواع برنامه‌های چت‌بوت، تحلیل گفتگو و حتی دستیارهای هوشمند مورد استفاده قرار گیرد. اگر به حوزه NLP علاقه دارید، این پروژه می‌تواند مرجع خوبی برای شما باشد!

📱 GitHub Repo
👍166
برای علاقه‌مندان به علم داده و کسانی که می‌خواهند به صورت خودآموز به این حوزه ورود کنند، این مخزن گیتهاب یک منبع بسیار کارآمد و کامل است. این مخزن شامل مجموعه‌ای از منابع آموزشی، دوره‌ها، کتاب‌ها و تمرین‌های عملی است که می‌تواند شما را از سطح مبتدی به حرفه‌ای در علم داده هدایت کند. این منابع بصورت جامع و مرحله‌به‌مرحله تنظیم شده‌اند و می‌توانید آن‌ها را برای یادگیری مهارت‌های مورد نیاز در حوزه علم داده، تحلیل داده‌ها و یادگیری ماشین استفاده کنید. همین حالا شروع کنید و سفری جذاب به دنیای علم داده را آغاز نمایید.

📱 GitHub Repo
👍17🔥1
اگر به دنبال ارتقا تجربیات خود در حوزه پردازش زبان طبیعی (NLP) به زبان فارسی هستید، حتماً به این لینک نگاهی بیندازید! FaMoji یک دیتاست غنی شامل بیش از ۲۰۰ هزار جفت جمله و اموجی است که به شما کمک می‌کند تا مدل‌های خود را برای تطابق متغیرهای متنی با اموجی‌های مناسب بهبود ببخشید. این دیتاست می‌تواند در پروژه‌های تحلیل احساسات، شبکه‌های اجتماعی و چت‌بات‌ها بسیار کاربردی باشد.

📱 GitHub Repo
🔥10👍3👎2
این مجموعه داده شامل متون کوتاه فارسی برچسب‌گذاری شده با احساسات مختلف است که به منظور تحلیل احساسات در زبان فارسی ایجاد شده است. با استفاده از این دیتاست، می‌توانید پروژه‌های تحلیل احساسات را در حوزه‌های مختلفی مانند شبکه‌های اجتماعی، بازخورد مشتریان یا تحلیل متون به‌کار بگیرید. این دیتاست شامل متونی با برچسب‌هایی مثل خوشحالی، ناراحتی، خشم و غیره است که برای تمرین و آموزش مدل‌های ماشین‌ لرنینگ و پردازش زبان طبیعی بسیار مفید خواهد بود.

📱 GitHub Repo
👍8
لیست کامل و جامعی از منابع فارسی برای برنامه‌نویسان! این مخزن شامل منابع ارزشمند و متنوعی است که به زبان فارسی تهیه شده‌اند و می‌توانند به بهبود مهارت‌ها و دانش فنی شما کمک کنند. منابع به دقت دسته‌بندی شده‌اند تا به راحتی قابل دسترس باشند. این لیست به خصوص برای افراد مبتدی و متوسط مناسب است و می‌تواند در آموزش، توسعه و پیشرفت حرفه‌ای شما مفید باشد.

📱 GitHub Repo
👍131🔥1
یک گنجینه بی‌نظیر از دیتاست‌های فارسی برای تحقیقات و پروژه‌های مختلف! این مخزن شامل مجموعه‌های متنوعی از داده‌های متنی، صوتی و تصویری است که به‌ویژه برای پروژه‌های پردازش زبان طبیعی، یادگیری ماشین و بینایی کامپیوتری کاربرد دارد. با استفاده از این دیتاست‌ها می‌توانید مدل‌های خود را بر روی داده‌های واقعی فارسی به خوبی آموزش دهید و نتایج بهتری کسب کنید.

📱 GitHub Repo
👍141
Forwarded from دیتاهاب
یه قدم واقعی برای خودت و آینده‌ت🩵

هوش مصنوعی مسیر جذابیه، ولی اگه ریاضی رو جدی نگیری، زود خسته میشی...
نه که بترسونیمت، ولی خودمونم دیدیم خیلی‌ها اینجا کم میارن.
نه با سخت‌گیری، نه با فرمول‌های عجیب، فقط با یه راه درست.

⚙️ این وبینار رو برای خودمون و آدم‌هایی مثل خودمون ساختیم:
کسانی که نمی‌خوان سرسری یاد بگیرن، دنبال مسیر واقعی هستن، و دوست دارن بدون ترس و شلوغ‌بازی شروع کنن.

🎙 با مهندس مبشری یاد می‌گیریم:

چرا ریاضی برای موفقیت توی پروژه‌های AI مهمه
چی باید بلد باشی که واقعا جلو بیفتی، نه اینکه فقط ظاهر قضیه رو بدونی
چطوری بدون استرس، یه مسیر یادگیری کاربردی بچینی

🗓 زمان: سه شنبه ۱۶ اردیبهشت | 🔜 ساعت: ۱۸:۰۰ تا ۱۹:۰۰
😀 برگزاری: آنلاین
🔴 اگه میخوای با خیال راحت قدم برداری اینجا ثبت‌نام کن:
🔗 ثبت‌نام وبینار

🎁 کدهای تخفیف مخصوص بچه‌های دیتاهاب:

🛍 کد community1 → ۷۲٪ تخفیف (ظرفیت خیلی محدود)
🛍 کد community2 → ۲۲٪ تخفیف (ظرفیت محدود)

😀 حواست باشه مخصوص کامیونیتی خودمونه.

😀 هر سوالی داشتی، بی‌تعارف همینجا ازمون بپرس. ما اینجاییم که مسیرت رو روشن‌تر کنیم، نه اینکه از دور نگاهت کنیم.
ثبت نام:
https://ttr.ir/2su1wn
با هم قوی‌تر می‌شیم. 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from دیتاهاب
This media is not supported in your browser
VIEW IN TELEGRAM
سلام رفقا 💙

برای همه‌ی کسایی که می‌خوان وارد دنیای هوش مصنوعی بشن و هنوز حس می‌کنن که ریاضی یه مانع جدی تو مسیرشونه، این وبینار دقیقاً برای شما طراحی شده!

وبینار ما نه فقط یه جلسه تئوری بلکه یه راهنمای واقعی برای شروع یادگیری بدون استرس و پیچیدگی هست.

🗓 زمان وبینار: سه‌شنبه ۱۶ اردیبهشت | ساعت ۱۸:۰۰ تا ۱۹:۰۰
📍 برگزاری آنلاین

🎁 برای شما که عضو کامیونیتی دیتاهاب هستید، یه کد تخفیف ویژه داریم:
community1 → فقط ۵۰ هزار تومان! (ظرفیت محدود)

🔗 لینک ثبت‌نام:
https://ttr.ir/2su1wn
3
📚 تاحالا شده بخوای پایتون رو از منبع رسمی و اصلی یادبگیری ولی توی زبان انگلیسیش گیر کنی؟

مستندات فایل python-docs کامل به فارسی ترجمه شده
چی بهتر از این؟!؟
از این رسمی تر و معتبر تر منبع ترجمه شده نداریم
اگه می‌خوای از مستندات استفاده کنی یا حتی توی ترجمه‌ها مشارکت داشته باشی، می‌تونی راحت اینجا رو بررسی کنی.

روی لینک بزن و مستقیم برو سراغش:
👉 github.com/Revisto/python-docs-fa
👍8👎4
🔍 تاحالا شده دنبال دیتاست خوب برای تحلیل احساسات متن فارسی بگردی و ناامید بشی؟

دیتاست Persian Sentiment and Emotion شامل ۱۲ هزار توییت فارسیه که با برچسب‌های احساساتی مثل شادی، غم و خشم علامت‌گذاری شده. این یعنی یه منبع خیلی خوب برای آموزش مدل‌های NLP فارسی.

📊 مشخصات:
– ۱۲,۰۰۰ نمونه
– فرمت CSV
– برچسب احساس و عاطفه
– منبع: توییتر فارسی

🔗 لینک دیتاست:
github.com/KianTohidi/Persian_Sentiment_and_Emotion

پیشنهاد می‌کنیم حتما یه نگاهی بندازی و نظرت رو بهمون بگی!
👍115🔥3