مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
Forwarded from دیتاهاب (Zahra Yp)
اول یادگیری هر چیزی، یک سردرگمی وجود داره و نمیدونیم از کجا شروع کنیم😩 بشر برای حل این مشکل رودمپ اختراح کرد😎
توی دیتاهاب برامون مهم بود یک نقشه راه جامع برای کسایی که دوست دارن هوش مصنوعی یاد بگیرن داشته باشیم✌🏻

🎯 پس قدیم ترا😂 کانال یوتیوب دیتاهاب رو ساختیم و دوره‌های کاربردی از پایتون و جبر خطی تا یادگیری ماشین و وب اسکرپینگ براتون به زبان فارسی آماده کردیم.

برای دسترسی به این آموزشا کافیه روی لینک زیر کلیک کنین و مطالب رو تضمینی یاد بگیرین. حتما سابسکرایب کنین که انگیزه بشه آموزش جدید بزاریم 🥳 ⬇️

💢 کانال یوتیوب دیتاهاب 💢

❇️ دیتاهاب: مشاوره، آموزش و انجام پروژه‌های هوش مصنوعی
📍اینجا کانال پرشین دیتا هست که دیتاست‌های مختلف رو میتونین برای پروژه‌هاتون پیدا کنین:
🆔 @persian_data

توی کانال دیتاهاب درباره موضوعات مختلف هوش مصنوعی حرف می‌زنیم و آموزش و ابزارهای کاربردی رو معرفی می‌کنیم:
🆔 @data_hub_ir

برای اینکه از موقعیت‌های شغلی شرکت‌های مختلف باخبر بشین، توی گروه دیتاجابز عضو بشین:
🆔 @data_jobs
Forwarded from دیتاهاب (Zahra Yp)
اولین قدم برای شروع هوش مصنوعی اینه که پایتون یاد بگیریم. ولی پایتون یک زبان چندمنظوره هست و ما همه قسمتاش رو لازم نداریم.
کافیه کتابخونه‌های مهمش که برای هوش مصنوعی هستن رو بلد باشیم که میشن:
🔸 کتابخونه Numpy
🔸 کتابخونه Pandas
🔸 کتابخونه Matplotlib

از کجا یاد بگیریم؟
💯 کافیه دوره آموزش پایتون برای هوش مصنوعی رو از کانال یوتیوب دیتاهاب ببینی👇🏻
🌐 آموزش پایتون ویژه هوش مصنوعی

🆔 @data_hub_ir
1👎1
کد و دیتاست از یک مقاله که توی acl2023 چاپ شده

حروف اضافه همیشه واسه ما فارسی زبونها داستان داره، با جایگشت های متفاوتشون معنی جمله از زمین تا اسمون متفاوت میشه
این کد و دیتاست می تونه به کتابخانه هایی مثل هضم و پارسی ور اضافه بشه
https://github.com/AramKarimi/punctuation-ambiguity-in-persian
👍1
ورودی مدل‌های یادگیری ماشین داده هست و دیتاست هم توی اینترنت زیاده. ولی بعضی وقتا میخایم روی داده خاصی کار کنیم و لازمه دیتاست رو خودمون بسازیم.

🔸 یک منبع عالی برای این کار سایت‌ها هستن که انواع داده‌ها درباره موضوعات مختلف رو دارن. با وب اسکرپینگ میتونیم این داده‌ها رو جمع کنیم.

توی دوره وب اسکرپینگ که میتونی از کانال یوتیوب دیتاهاب ببینی، با پروژه های عملی داده‌های چندتا سایت رو جمع می‌کنیم. بعد از اون، دیگه فوت و فن کار رو بلدی.

💢 آموزش پروژه محور وب اسکرپینگ 💢

🆔 @persian_data
🆔 @data_hub_ir
🆔 @data_jobs
👍6
انتشار مجموعه داده "Dollar_Rial_Price_Dataset"

در این مجموعه داده، تغییرات قیمت دلار آمریکا به ریال ایران با استفاده از خزنده ما از سال 2011 تا 2023 (در تقویم پارسی 1390 تا 1402) خزش و جمع آوری شده است. که در مجموع 3310 رکورد برای این 13 سال در مجموعه داده ثبت شده است و مناسب کارهای time series prediction برای پیش بینی قیمت دلار و پیش بینی بازارهای مالی ایران است.


نحوه دسترسی به مجموعه داده
این دیتاست در گیتهاب محمد تقی زاده بصورت کاملا رایگان برای علاقه مندان به هوش مصنوعی و بازارهای مالی جمع آوری، پیاده سازی و منتشر شده است که از 3 طریق قابل دسترسی است.
1. گیتهاب: فرمت CSV قابل دسترس است و از اینجا میتوانید دانلود کنید.
2. کگل
3. هاگینگ فیس


توضیحات خزنده و جمع آوری اطلاعات
ویژگی مهم این مجموعه داده این است که، خزنده استخراج کننده قیمت را نیز که با سلنیوم توسعه داده شده در این پروژه منتشر کردیم که می توانید در هر زمان که بخواهید برای به روز رسانی داده ها آن را اجرا کنید. منبع جمع آوری این مجموعه داده سایت https://tgju.org است.
👍6
درسته روشای هوش مصنوعی کلی پیشرفت کردن و مدلای خیلی قوی اومدن، ولی هنوزم با الگوریتمای یادگیری ماشین به راحتی میشه خیلی از مسائل رو حل کرد.

اصلا مگه میشه بگیم مهندس داده هستیم، ولی یادگیری ماشین رو بلد نباشیم 😐

با دوره یادگیری ماشین دیتاهاب میفهمی:
🔸 چطور داده‌ها رو پیش پردازش کنی
🔸 الگوریتم‌های یادگیری ماشین چی هستن و کجا استفاده کنی
🔸 از اول تا آخر یه پروژه چه کارهایی لازمه انجام بدی

روی لینک زیر کلیک کن و توی یک دوره جامع، فوت و فن یادگیری ماشین رو یاد بگیر👇🏻
آموزش یادگیری ماشین به زبان ساده با پایتون

🆔 @persian_data
🆔 @data_jobs
🆔 @data_hub_ir
1👎1
https://github.com/myeghaneh/PAMT
اولین دیتاست فارسی در زمینه Argumentation mining. حالا شاید براتون سوا ل پیش بیاد که یعنی چه؟ فرض کن در مورد یک موضوع مثل تفکیک زباله. که از چندتا زاویه دید مثبت یا منفی بهش نگاه بشه. مثلا 5تا جمله باشه که 3 تاش در جهت تشویق به تفکیک هست و 2تاش از معایبش مثل هزینه بری بگه. این مدل دیتاست کمک می کنه تا مدل تحلیل یاد بگیره
👍3
این یکی دو ماه آینده یک سری پست خفن آماده کردیم و قرار هست بیشتر فعالیت کنیم
👍8
Forwarded from دیتاهاب
🟢 پروژه هوش مصنوعی داری ولی خودت نمی‌تونی|نمی‌رسی انجام بدی؟
🟢 واسه انتخاب موضوع پایان‌نامه یا پروپوزال، نیاز به مشاوره و همفکری داری؟
🟢 می‌خوای مقاله بنویسی ولی ایده جدید به ذهنت نمی‌رسه؟

🎯 همین الان پروژه خودت رو ثبت کن تا سریع تر بتونی کارات رو تموم‌ کنی و خیالت راحت باشه.

📞 09938013176
🌐 ثبت سفارش از طریق سایت | 📲 ثبت سفارش از طریق تلگرام
👍3
https://github.com/sandstorm12/persian_readability_dataset


دیتاست فارسی که واقعا کمیابه و باید قدرشو دونست. مثلا این دیتاست واسه بحث خوانایی کلمات و متون هستش. یه کاربردش کمک به ساخت آزمون خودکار واسه زبان آموزهاست یا کمک به تولید محتوا و سئو
👍2
ما چند ماه پیش یک دیتاست فارسی برای تسک intent detection و slot filling برای زبان فارسی ساختیم که از روی همون آتیس انگلیسی هست

https://github.com/Makbari1997/Persian-Atis

https://arxiv.org/abs/2303.00408

این ها هم لینک مقاله و دیتاست هستن
👍3
اخیراً ۳ تا دیتاست از داده های توییتر رو تو لینکدینم منتشر کردم که با کوئری های
«اسنپ»، «تپسی»و «threads» گرفته شدن
هر کدوم شامل ۱۰ هزار توییت به همراه اطلاعات جانبی هر توییت (اطلاعات کاربری، تعداد لایک و ری‌توییت و کامنت و ...)
لینک پست لینکدین مربوط به دیتاست ها رو این پایین قرار میدم،
امیدوارم به دردتون بخوره


https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_snap-tapsi-10k-activity-7085971422241517568-JwBq?utm_source=share&utm_medium=member_android

https://www.linkedin.com/posts/sajad-khanbabaie-b5b38123a_threads-in-twitter-activity-7088952319853125632-7OGv?utm_source=share&utm_medium=member_android
👍9
سلام روزتون بخیر
این دیتاست رو دیروز جمع آوری کردم.
مرتبط با آگهی‌های استخدامی توی سایت جابینجاست، چیزی حدود 26 هزار داده و 16 ستون داره.

لینک گیتهاب به همراه اسکریپت و نوتبوک‌ها:
https://github.com/Hexanol777/Jobinja-Crawler
لینک کگل:
https://www.kaggle.com/datasets/maminkheneifar/jobinja-job-listings-26k
👍4
خوشحالیم که بعد از مدت‌ها، نسخه جدید هضم آماده شد. در این نسخه:

• مشکل سازگاری با ویندوز را حل کردیم.
• مستندات پروژه را کامل‌تر کردیم.
• بازنمایی‌های واژه‌ای و جمله‌ای را روی انبوه نوشته‌ها آموزش دادیم.
• نرمال‌سازی نوشته‌ها را دقیق‌تر کردیم.
• دقت تحلیل صرفی و تجزیه سطحی را افزایش دادیم.
• از برچسب‌های صرفی و نحوی یونیورسال استفاده کردیم.
• کدها را با آخرین نسخه پایتون سازگار کردیم.

🔸 توضیحات کامل‌تر در مورد نسخه جدید هضم

🔸 می‌توانید پروژه متن‌باز هضم را در GitHub تعقیب کنید:
https://github.com/roshan-research/hazm
👍7