مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.19K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
per_swear.rar
1.1 MB
توی روز عشق، علاقمون بیشتر از قبل بهتون نشون میدیم (خرس نمیخام هدیه بدم)
یه دیتاست باحال داریم ولی نه برای سانسور
لطفا این دیتا علیه خودمون استفاده نکنین
این فقط واسه کارهای پژوهشیه

همچنین سایتمون فراموش نکنین
Data-hub.ir

@persian_data
👍5
قبلا بارها از ژوپیتر نوتبوک صجت کردیم و نشون دادیم هم قدرتمند هست و هم آینده دار. در ادامه اگر میخواین فایل نوتبوک خودتون تبدیل به وب اپلیکیشن کنین گزینه های زیادی هست مثل streamlit یا فلسک که البته یکم کار باهاشون سخت هست و نیاز به دانش برنامه نویسی داره. ولی الان یک راه حل دیگه معرفی می کنیم یعنی Mercury. این ابزار پایتونی، یک مزیت مهم داره که کسایی که خیلی توی برنامه نویسی قوی نیستند هم به راحتی میتونن ازش استفاده کننن. خیلی کار باهاش آسونه.

@persian_data

https://github.com/mljar/mercury
👍2
#تجربه_شخصی
پروژ‌ه‌های علوم داده، یکم ریسکی هستند
چون معمولا خروجی دارن ولی کارفرما فقط از شما خروجی خوب میخواد
پروژه‌های دیگه مثل طراحی سایت
وقتی به خروجی برسید تقریبا کار تمومه
ولی توی علوم داده صرف رسیدن به خروجی‌ کافی نیست

توی یک پروژه واقعی، جدیدترین متدها با کلی نوآوری و خلاقیت روی یک دیتا اعلام کردیم
متاسفانه خروجی داد ولی انصافا خروجی خوب نبود
و قسمت ناراحت‌کننده این بود که کارفرما فکر می‌کرد کار خاصی انجام نشده

هم باید خروجی باشه و هم باید خروجی خوب باشه
خروجی بد، مساوی هست با نادیده گرفتن تلاش‌ها
البته توی اون پروژه با کلی بحث و مذاکره تونستیم دیتاها را تغییر بدیم و نتایج خوب شد

ولی شما مثلا توی پروژ‌ه‌های تحت وب نگران خروجی و دقت و recall و امثالهم نیستید
و این سختی و حساس بودن پروژه‌های علوم داده نشون میده

@persian_data
👍16
یک بار واسه همیشه
قبل از قرار دادن کدها توی گیتهاب یک سر به این سایت بزنیم که چه لایسنسی (مربوط به بحث کپی رایت) برای کارمون مناسب تر هستش تا فردا روز دردسر درست نشه و مشخص کنیم دیگران اجازه دارن چه نوع استفاده هایی از کد و دیتا ما داشته باشن
https://choosealicense.com/

@persian_data
پارستدکس(Parstdex) با زبان پایتون نوشته شده و هدفش استخراج عبارت‌های نشان دهنده‌ی تاریخ و زمان از متن است. استخراج چنین عباراتی کاربرد‌های زیادی دارد برای مثال استخراج تاریخ و زمان ملاقات در ایمیل‌ها، پنهان‌سازی تاریخ و زمان از متن از جهات privacy، استخراج زمان یک وظیفه در برنامه‌های مدیریت کار (مثل Microsoft Todo) و غیره.
پارستدکس در دسته ابزار‌های rule-based قرار می‌گیره که با استفاده از پترن‌های مختلف، regex های زیادی رو تولید می‌کنه و بر اساس regex های تولیدشده مارکر‌های زمانی و تاریخی رو از متن استخراج می‌کند.

@persian_data

https://github.com/kargaranamir/parstdex/
👍2
خب توی کار با متون، همیشه یکی از چالش‌های اصلی جملات محاوره هست چون مدلمان روی داده‌های رسمی مثل اخبار خوب عمل می کنه ولی روی متون محاوره آبروریزی می کنه. یک دیتاست جالب واسه متون محاوره فارسی پیدا کردم که خیلی باحال و کار راه اندازه ...
حتماً یک نگاه بهش بندازین

@persian_data

https://iasbs.ac.ir/~ansari/lscp/fa/index.html
👍2
میخام یک دیتاست تازه از تنور درآمده معرفی کنم که واسه زبان فارسیه
یکی از پایه ای ترین مباحث NLI هست که کاربرد زیادی داره مثلا وقتی شما از برت استفاده کنید، برت در سطح کلمه هست و در سطح جمله نتایج بیخود و به درد نخوره، حالا چیکار باید کرد؟ باید به سمت آموزش برت در سطح جمله از طریق مواردی مثل nli بود به کمک این دیتاست میشه به راحتی چنین کاری کرد....

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/ZahraGhasemi-AI/FarSick
این کتابخانه مثل یک API برای دریافت اخرین اخبار از خبرگزاری های مهم فارسی زبان داخلی و خارجی است. دریافت عناوین خبر به همراه متن اصلی با تاخیر بین ۲ تا ۶ ثانیه. به راحتی و بدون نوشتن کرالر از صفر، میشه یک دیتاست خوب جمع و جور کرد. البته خب خیلی به درد کارهای پژوهشی مثل مقاله و پایان نامه میخوره.

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/hamid/iranian-news-agencies-crawler
👍1
deepـlearning.pdf
5.6 MB
این کتاب برای افراد مبتدی که هیچ آشنایی با یادگیری عمیق ندارند در نظر گرفته شده است تا خوانندگان را با یک دوره‌یِ فوقِ سریع در یادگیری عمیق آماده کند. تنها انتظار ما از خوانندگان این است که از قبل مهارت‌های برنامه‌نویسی اولیه در زبان پایتون را داشته باشند. این راهنمایِ کوتاه، در نظر گرفته شده است تا شما را به عنوان یک مبتدی با درک درستی از موضوع، از جمله تجربه‌یِ عملیِ ملموس در توسعه مدل‌ها، مجهز کند. از این‌رو، اگر در حال حاضر بالاتر از سطح مبتدی هستید، این کتاب مناسب شما نیست!

لطفا به اشتراک بگذارید👈🏻 @persian_data

کتاب در۶ فصل تنظیم شده است که شامل فصل‌های زیر می‌باشد:
فصل اول: مقدمه‌ای بر یادگیری عمیق
فصل دوم: پیش‌نیازها
فصل سوم: شبکه‌های عصبی پیش‌خور
فصل چهارم: شبکه‌های عصبی کانولوشنی
فصل پنجم: شبکه‌های عصبی بازگشتی
فصل ششم: شبکه متخاصم مولد
چگونه به کمک گیت‌هاب، وب‌سایت شخصی یا شرکتی رایگان بسازیم؟
اگر برای معرفی خودتان، محصول یا شرکت خود، نیاز به ایجاد وب‌سایت دارید ولی سادگی و سرعت برایتان مهم باشد و بخواهید به‌صورت رایگان و بدون کدنویسی یک وب‌سایت ایجاد کنید، پیشنهاد ما استفاده از گیت‌هاب است که لازم نیست هزینه‌ای برای سرور و دامنه پرداخت شود.

ادامه مطلب در آدرس زیر
https://data-hub.ir/how-to-host-a-website-on-github/

لطفا به اشتراک بگذارید👈🏻 @persian_data
سلام خسته نباشید. امیدوارم حالتون خیلی خوب باشه.

من این دیتاست رو خودم خزش کردم و ممکنه برای بقیه هم مفید باشه. دیتاست حاوی ۳۴۰MB متن است.

دیتاست مجموعه اخبار تسنیم نیوز هست که اخبار label نوع خبر هم دارند. خود خزشگر رو داخل گیت هابم به آدرس زیر گذاشتم
https://github.com/pourmand1376/TasnimNewsCrawler
و دیتاست هم در kaggle اپلود شده است.
https://www.kaggle.com/datasets/amirpourmand/tasnimdataset

لطفا به اشتراک بگذارید👈🏻 @persian_data
در این مدت، تا الان دوستان زیادی لطف داشتند و دیتاست یا کتاب‌های خودشان را برای معرفی در کانال برای ما ارسال کردند. یکی از دوستانی که قبلاً به پیشنهاد خودشان دیتاستشان را در کانال معرفی کردیم، اخیراً پیام داده و تشکر کردند چون از یکی از دیتاست های دیگر کانال در پروژه کاری خودشان استفاده کرده بودند و کارشان راه افتاده بود. این مثال واقعی از اثربخشی به‌اشتراک‌گذاری است که مثل یک چرخه به همدیگر کمک می‌کنیم. اگر دیتاست خوبی ملاحظه کردید یا خودتان دیتا مناسبی تهیه کردید برای ما ارسال کنید در صورت مناسب بودن در کانال قرار خواهیم داد.
ای دی ادمین: @Data_hub
👍6
مرجع دیتاست فارسی pinned «در این مدت، تا الان دوستان زیادی لطف داشتند و دیتاست یا کتاب‌های خودشان را برای معرفی در کانال برای ما ارسال کردند. یکی از دوستانی که قبلاً به پیشنهاد خودشان دیتاستشان را در کانال معرفی کردیم، اخیراً پیام داده و تشکر کردند چون از یکی از دیتاست های دیگر کانال…»
Persian Book Template for Publication
یکی از بچه های دانشگاه علم صنعت، یک کار باحال انجام دادند و قالب مخصوص انتشار کتاب به اشتراک گذاشتن
فرمت قالب latex هست و به راحتی می تونین ازش استفاده کنید

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/alirezaqazavi/Persian_Book_Template_for_Nashr
یک کار جالب که کارمون خیلی راحت تر می کنه
اگر از این سایت به اون سایت، از این خونه به اون خونه
دنبال فرصت های دکترای فول فاند بودین، این خزشگر میخواد کارتون آسون تر کنه و نتایج جستجو در قالب فایل اکسل تحویلتون بده

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/Aghababaei/PhD-Seeker
👍2
Forwarded from دیتاهاب (محمد)
بهترین کتاب یادگیری ماشین 👨🏻‍💻👩🏻‍💻

فرض کنید شما با مجموعه‌ای همکاری می‌کنید و بعد از مدتی تصمیم به قطع همکاری می‌گیرید. اصولا بعد از همکاری محصولات شما باید از روی سایتشان برداشته شود. با اینکه هیچ مالکیت حقوقی و معنوی نداشته و صرفا واسطه فروش بودند، ولی متاسفانه چنین کاری انجام نمی‌شود😐. بارها قول داده ولی زیر قولشان می‌زنند و حتی بدون اجازه و رضایت شما، محصولاتی که تمام زحمتش با شماست به فروش گذاشته و صفر ریال نصیب شما می‌شود🤷🏻‍♂️.

بنابراین تصمیم گرفتیم کتاب یادگیری ماشین از طریق وب سایت دیتاهاب به فروش برسانیم 🥳. اگر تمایلی به خرید و حمایت از دیتاهاب دارید از طریق لینک زیر اقدام کنید:
https://data-hub.ir/?p=5405

به مناسبت برگزاری نمایشگاه کتاب و ترویج کتابخوانی، به مدت یک هفته براتون تخفیف ۱۰۰ درصدی در نظر گرفتیم.
کد تخفیف 😍: mlbookfree

در مورد کتاب:
این کتاب قطعا یکی از بهترین‌ کتاب ها با موضوع یادگیری ماشین است‌.
زمان انتخاب کتاب برای ترجمه، معیارهایی مثل سادگی و شیوایی کتاب اهمیت داشت. کتابی که حتی یک روزه میشه مطالعه کرد ولی مروری بر تمام مباحث ضروری یادگیری ماشین است.
👍3👎1
Forwarded from MohammadReza KarimiNejad
شماره هاي رند تهران كه در سايت rond.ir وجود داشتن رو به شكل يك ديتاست دراوردم. اين ديتاست خيلي ميتونه به اين كمك كنه كه شما چطور از يك شماره تلفن الگو استخراج كنيد و به كمك اون قيمت رو تخمين بزنيد. همينطور يك فيلد اضافه هست كه نحوه خواندن اين شماره تلفن توسط مردم رو اوردم. اگه براتون جالبه خودتونو امتحان كنيد و منو upvote كنيد.

https://www.kaggle.com/datasets/mokar2001/tehran-easytoremember-phone-number-price
Forwarded from MohammadReza KarimiNejad
پياده سازي موارد زير در پايتون كه به صورت فصل بندي شده در گيت هاب شير شده:

نظریه مجموعه‌ها
ترکیبیات و شمارش
مبانی احتمال
احتمال شرطی
داده و مقدمه‌ای بر آمار
متغیرهای تصادفی و توزیع‌ها
انواع نمودار
توزیع توأم
داده پرت و نرمال‌سازی
کوواریانس و همبستگی
تحليل رگرسیون
انواع تخمین آماری
تست‌های آمار
تست‌های توزیع


https://github.com/mokar2001/Statistics-Cheat-Sheet
👍3
لیست شرکت های پذیرای دورکاری
لیست شرکتهایی که به هر نحوی پذیرای دورکاری هستند. ممکن است شرکت اصلی در ایران باشد یا در خارج از ایران. اما نیروهای آن مقیم ایران هستند و امکان دورکاری چه به صورت کامل و چه موقت امکان پذیر است.

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/iranremote/awesome-iran-remote
👍7👎1
مشکل رایجی که معمولا توی گروه های تلگرامی می بینیم. طرف می پرسه "کسی اینجا پایتون بلده؟" خب این مدل سوال کردن خیلی نتیجه بخش نیست.
چون سوال پرسیدن خودش یک هنره که باید یاد بگیریم. قبل از سوال پرسیدن داخل هر گروه و انجمنی یک مرتبه این صفحه گیتهاب بخونیم تا با اصول سوال پرسیدن آشنا بشیم و زودتر و بهتر به جواب سوال هامون بریم

لطفا به اشتراک بگذارید👈🏻 @persian_data

https://github.com/erfanmola/DontAskToAsk