مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
یک لیست جامع از تمامی دیتاست هایی که واسه زبان فارسی و روی تسک SA یا تحلیل احساسات تهیه شدن


📱 GitHub Repo
👍31
🌟 یک ابزار کاربردی برای مقایسه صندوق‌های سرمایه‌گذاری ایرانی 🌟

این پروژه به شما امکان می‌دهد تا عملکرد صندوق‌های سرمایه‌گذاری مختلف در بازار سهام ایران را به سادگی و با دقت مقایسه کنید. با استفاده از این ابزار، اطلاعات ارزشمندی همچون بازدهی، نوسانات و شاخص‌های مالی دیگر به طور جامع و تحلیل‌شده در دسترس شما خواهد بود. این ابزار مناسب برای تحلیل‌گران مالی، سرمایه‌گذاران و حتی علاقه‌مندان به بازار سهام است که می‌خواهند تصمیمات هوشمندانه‌تری بگیرند.

🚀به راحتی می‌توانید از این ابزار در پروژه‌های مالی، تحلیل‌های بورس و حتی در تحقیقات خود استفاده کنید.


📱 GitHub Repo
👍1
تحلیل جامع فیلم‌های ایرانی🎥📊

این مخزن گیت‌هاب شامل تحلیل و بررسی داده‌های مربوط به فیلم‌های ایرانی است. داده‌ها از منابع معتبر جمع‌آوری شده و ویژگی‌هایی مانند عنوان فیلم، ژانر، کارگردان، سال تولید، امتیاز کاربران و فروش را شامل می‌شود. این مجموعه داده ارزشمند می‌تواند برای پروژه‌های داده‌کاوی، تحلیل‌های آماری و حتی هوش مصنوعی مورد استفاده قرار گیرد. با این داده‌ها می‌توانید شناخت بهتری از صنعت سینمای ایران پیدا کنید و الگوهای جالبی را کشف کنید.

شاد و پرانرژی باشید! 🚀

📱 GitHub Repo
👍1
Forwarded from Shahriar Shariati
انتشار مجموعه دادگان عظیم ParsBench

تیم ParsBench مجموعه‌ای بیش از ۱۰۰هزار رکورد داده سوال و جواب فارسی در بیش از ۵۰ موضوع مختلف برای Fine-tuning و Evaluation منتشر کرده است.

این مجموعه شامل دیتاست‌های زیر می‌باشد:
PersianSyntheticQA
مجموعه‌ای از ۱۰۰هزار سوال و جواب فارسی با محوریت ایران و جهان در ۵۰ موضوع مختلف. هر موضوع شامل ۲هزار سوال و جواب مجزا می‌باشد که توسط gpt-4o تولید شده است.

PersianQA (LMSYS)
دیتاست شامل ۵ هزار رکورد ترجمه‌ شده از دیتاست سوال و جواب lmsys است و شامل موضوعات مختلفی از تعاملات کاربران با مدل‌های زبانی می‌باشد.

Persian-NoRobots
نسخه ترجمه شده از دیتاست اصلی NoRobots که شامل ۱۰هزار سوال و جواب در ۱۰ دسته‌بندی مختلف مانند خلاصه‌سازی، تولید متن، گفتگو، کدنویسی و... می‌باشد.
‏نسخه اصلی این دیتاست کاملاً توسط انسان و بدون دخالت هیچ LLMای ساخته شده‌است.

PersianSyntheticEmotions
شامل تقریباً ۹هزار رکورد از متون ایجاد شده توسط gpt-4o در موضوعات مختلف است که همگی شامل برچسب احساسات در ۶ کلاس احساسات Ekman می‌باشند.

Persian-MuSR
ترجمه فارسی MuSR است که شامل حدوداً هزار سوال معمایی برای سنجش توانایی تحلیل LLM با روش CoT می‌باشد.

همچنین شما می‌توانید در این ریپازیتوری به کدهای استفاده شده برای ایجاد این دیتاست‌ها دسترسی پیدا کنید.
👍8👎1
Forwarded from دیتاهاب
#فرصت_شغلی

🟢 شرکت: دیتاهاب (data-hub.ir)
🟠 شرح موقعیت شغلی: کارشناس تولید محتوا برای شبکه های اجتماعی

〰️〰️〰️〰️〰️〰️〰️
🟠 نیازمندی ها:
❇️ تجربه در زمینه آماده سازی تقویم محتوایی و نویسندگی، به ویژه در حوزه فناوری و هوش مصنوعی
❇️ مهارت در روایت داستان و توانایی خلق محتوایی که با مخاطب ارتباط عاطفی برقرار کند.
❇️ تجربه ضبط محتوای تصویری شامل عکس و ویدئو در حد موبایل گرافی ساده (محتوای روزانه)

〰️〰️〰️〰️〰️〰️〰️
🟠مزایا: ساعت کاری شناور و با امکان دورکاری (بعضی از روزها)
در صورت نیاز، زیر نظر یک متخصص باسابقه حوزه دیجیتال مارکتینگ آموزش های لازم داده میشود و همچنین بسته های آموزشی به صورت رایگان تهیه خواهد شد.

〰️〰️〰️〰️〰️〰️〰️
🟠 معرفی شرکت: فعال در حوزه آموزش و اجرای پروژه های هوش مصنوعی

〰️〰️〰️〰️〰️〰️〰️
⭕️موقعیت شرکت: اصفهان - خیابان سلمان
⭕️حداقل سابقه کار: 1 سال
⭕️نوع همکاری: تمام وقت|پاره وقت
⭕️وضعیت نظام وظیفه: مهم نیست


ارسال رزومه به 👇
📩 info@data-hub.ir
@Data_hub
https://jobvision.ir/jobs/975930
👍2
🔻 فـــراخوان دریافت مقالات در حوزه هوش معنوی و هوش مصنوعی

🔻نشریه پژوهش‌های ادب عرفانی، در نظر دارد شماره پاییز و زمستان سال 1403 را با عنوان "هوش معنوی و هوش مصنوعی (تعامل ادبیات عرفانی و هوش مصنوعی)" منتشر نماید.

🔻علاقه‌مندان می‌توانند محورها و راهنمای ارسال مقالات را از طریق سامانه نشریه مطالعه کنند و تا تاریخ ۳۰ دی‌ماه مقالات خود را ارسال نمایند.
همچنین برای کسب اطلاعات بیشتر با راه‌های ارتباطی نشریه تماس بگیرند.

🌐 https://jpll.ui.ac.ir/
📧 jpll@res.ui.ac.ir
👍6👎21
ی ابزار جامع و کامل برای هر کاری که بخواین روی تصویر یا متون فارسی انجام بدین، واقعا آچار فرانسه محسوب میشه


📱 GitHub Repo
👍12
Forwarded from دیتاهاب
رفقا سلام
🚀 یک هدیه باحال در انتظارتونه! 🎁

برای دریافت هدیه‌ای به ارزش 500 هزار تومان، فقط کافی‌ست 1.5 دقیقه وقت بذارید و پرسشنامه‌ی کوتاه ما رو تکمیل کنید!

📝 چطور؟

پرسشنامه خیلی آسونه، فقط چندتا گزینه انتخاب کنید و تمام.

در پایان، هدیه‌ی ما به شما تعلق می‌گیره! 🌹
پیشاپیش از همراهی و حمایت شما سپاسگزاریم! 🙏

🔗 لینک پرسش نامه

اگه نکته یا سوالی بود حتما پیام بدین @data_hub
👎9👍1
یه مجموعه کد مفید برای خلا‌صه‌سازی متون فارسی هم استخراجی و هم انتزاعی! در این ریپازیتوری، ابزارهای لازم برای خلاصه‌سازی متون بلند فارسی با استفاده از تکنیک‌های پیشرفته یادگیری ماشین و پردازش زبان طبیعی فراهم شده. این کدها می‌تونن در پروژه‌های مختلف از جمله تولید محتوا، تحلیل داده‌های متنی، و بهبود کارایی سیستم‌های پشتیبانی مشتریان استفاده بشن. با استفاده از این ابزارها، می‌تونید متون طولانی رو به راحتی و با دقت بالا خلاصه‌سازی کنید.

📱 GitHub Repo
👍8
یک پروژه کاربردی برای پرسش و پاسخ مقالات فارسی. این پروژه با استفاده از پردازش زبان طبیعی و تکنیک‌های یادگیری ماشین، به شما این امکان را می‌دهد که به سوالات مختلف در مقالات فارسی به راحتی پاسخ دهید. این ابزار می‌تواند در تحقیقات دانشگاهی، جستجوی اطلاعات یا حتی تسهیل دسترسی به اطلاعات درون سازمانی بسیار مفید باشد. دیتاست و مدل‌های استفاده شده در این پروژه کاملاً مناسب برای زبان فارسی بهینه شده‌اند.

📱 GitHub Repo
6👍2
این نوت‌بوک جالب در لینک ارائه‌شده، شامل کدها و توضیحات کاربردی برای یادگیری مبانی پایتون است. مجموعه‌ای از مثال‌های ساده و قابل فهم که به شما کمک می‌کند تا مهارت‌های برنامه‌نویسی خود را افزایش دهید. اگر در حال شروع یادگیری پایتون هستید یا نیاز به مرور مفاهیم پایه دارید، این نوت‌بوک می‌تواند بهترین مرجع برای شما باشد. ضمناً، از این نوت‌بوک می‌توانید در محیط‌های آموزشی و دوره‌های برنامه‌نویسی بهره ببرید.

📱 GitHub Repo
6🔥1
این ابزار وب‌کِرولِر فارسی برای جمع‌آوری اطلاعات از وبسایت‌های مختلف فارسی طراحی شده‌است. Persian Web Scraper با تمرکز بر زبان فارسی به شما کمک می‌کند تا داده‌های مورد نیاز خود را به صورت سریع و کارآمد استخراج کنید. این ابزار می‌تواند در پروژه‌های داده‌کاوی، تحلیل محتوا و سایر بررسی‌های مبتنی بر داده‌های اینترنتی مورد استفاده قرار گیرد.

📱 GitHub Repo
👍97🔥1
مجموعه ابزار قدرتمند برای پردازش و کار با متن‌های فارسی! با استفاده از این کتابخانه، شما می‌توانید به راحتی و به صورت کارآمد متن‌های فارسی را مورد پردازش قرار دهید. این ابزارک‌ها شامل قابلیت‌هایی نظیر توکنایز کردن، نرمال‌سازی، ریشه‌یابی و سایر عملیات مرتبط با زبان فارسی هستند که می‌تواند در پروژه‌های NLP و متن‌کاوی به شما کمک کند. با استفاده از این کتابخانه، فرآیند پردازش زبان فارسی در پروژه‌های خود را سریع‌تر و دقیق‌تر کنید.

📱 GitHub Repo
👍10
🔍 شناسایی اخبار جعلی فارسی:

این مخزن شامل مجموعه داده‌ای از اخبار جعلی به زبان فارسی است که به منظور شناسایی و تمایز اخبار واقعی از جعلی در رسانه‌ها و شبکه‌های اجتماعی ایجاد شده است. از طریق این مجموعه، پژوهشگران و توسعه‌دهندگان می‌توانند الگوریتم‌ها و مدل‌های یادگیری ماشین خود را برای تشخیص اخبار تقلبی بهبود بخشند.

📚 کاربردها:
- پروژه‌های یادگیری ماشین: آموزش مدل‌ها برای تشخیص و طبقه‌بندی اخبار جعلی.
- پردازش زبان طبیعی (NLP): تجزیه و تحلیل متون فارسی و بهبود دقت مدل‌های NLP.
- مطالعات رسانه‌ای: بررسی و تحلیل صحت اخبار منتشر شده در رسانه‌های فارسی‌زبان.

از این مجموعه داده می‌توان برای بهبود امنیت اطلاعات و جلوگیری از انتشار اطلاعات نادرست در جامعه استفاده کرد.

📱 GitHub Repo
👍105
به دنبال یادگیری Markdown به زبان فارسی هستید؟ این لینک یک آموزش جامع و کامل از مارک‌داون به زبان فارسی است. این مخزن شامل توضیحات مفصل و مثال‌های کاربردی برای تمامی سینتکس‌ها و ویژگی‌های مارک‌داون است. این مجموعه برای برنامه‌نویسان، بلاگرها و هر کسی که می‌خواهد متون خود را به صورت شکیل و تمیز فرمت کند، بسیار مفید و کاربردی است. یادگیری مارک‌داون به شما کمک می‌کند تا مستندات و متون خود را به راحتی و با کیفیت بالا ایجاد کنید.

📱 GitHub Repo
👍83
این دیتاست شامل اطلاعات ارزشمند از پتنت‌های ثبت شده در ایران است. مجموعه داده Persian-Patent-Dataset جمع‌آوری شده از منابع معتبر و کامل، توسط توسعه‌دهندگان برای استفاده پژوهشگران و علاقه‌مندان به تحلیل پتنت‌ها و نوآوری‌ها. این دیتاست شامل ویژگی‌هایی چون عنوان، خلاصه، شماره پتنت، سال ثبت و نام مخترع است. این مجموعه برای تحقیقات دانشگاهی، تحلیل‌های حقوقی و توسعه مدل‌های یادگیری ماشین در زمینه حقوق مالکیت فکری مناسب می‌باشد.

📱 GitHub Repo
👍7