مرجع دیتاست فارسی – Telegram
مرجع دیتاست فارسی
3.18K subscribers
24 photos
2 videos
22 files
350 links
لطفا برای معرفی و درج دیتاست خود داخل کانال به @data_hub پیام دهید.
Download Telegram
تایپیست » یک اکستنشن برای مرورگر جهت آموزش تایپ ده‌انگشتی با کمک هوش مصنوعی و تحلیل آماری. در این برنامه رفتار تایپی کاربر بررسی شده لغاتی به کاربر پیشنهاد می‌گردد که کاربر نیاز بیشتری به تمرین آن لغات دارد.

📱 Extension

📱 GitHub Repo
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
#موقت

رفقا قراره از هفته آینده بترکونیم و هفته ای 3تا محتوا بزاریم
کمربندها محکم ببندید ک تابستون داغی در پیش داریم
این پست های طی 3 مرحله فیلتر شدن و سعی شد که فقط مطالب فوق کاربردی مطرح بشه

حتما حتما Share کنید تا یک حالی هم به ما داده باشید
👍21
انتشار دیتاست بزرگ سایت باسلام
توسط تیم Rade AI

🔍 شامل اطلاعات فروش و مشخصات 2.4 میلیون محصول موجود در سایت باسلام
به همراه دیتاست 3.3 میلیونی کامنت های محصولات.

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/basalam-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/BaSalam_comments_products
لازم به ذکر است
این اطلاعات صرفا جهت اهداف بیزنسی تیم در تاریخ فروردین 1403 جمع آوری شده
👍17
نسخه کوانتایز شده و سبک شده مدل جدید درنا

من این مدل LLM رو که برای زبان فارسی هست کوانتایز کردم (ما به ایشون: دمت گرم ک چنین کار خوبی کردی)

در این نسخه علاوه بر کوانتیز سرعت Generation مدل نیز با مکانیزم Flash Attention ارتقاء یافته است و همچنین این مدل بر خلاف کوانتایزهای متداول نظیر GGUF که وابسته به کتابخانه هستند نظیر Candle و LlamaCpp مستقل از کتابخانه هست و به راحتی مانند مدل‌های کوانتایز نشده لود می‌شود

https://huggingface.co/amirMohammadi/Dorna-Llama3-8B-Instruct-Quantized4Bit
👍141
این یکی مخصوص دانشجوها،
https://lightning.ai

۲۲ ساعت GPU رایگان
اجرا توی بکگراند (بدون قطع شدن)
حافظه و رم هم رایگان هست
نیاز به Credit Card, ... هم نداره


اگر از ایمیل .edu یا .org استفاده کنید درجا دسترسی برای شما باز میشه
اما اگر ندارید هم مشکلی نداره، نهایتاً ۲-۳ روز طول می‌کشه تا دسترسی شما باز بشه. (بد نیست با چندتا ایمیل درخواست دسترسی بدید، همین حالا)

Milad Saberian
👍6
اگه برای پوزیشن های تکنیکال مثل software engineering، ماشین لرنینگ، دیتا ساینس و data engineering اقدام میکنید، یکی از مهمترین قسمتهای مصاحبه سؤال در مورد system design است. این ریپو کلی ویدیو و مطلب آموزشی داره از آسون به سخت

https://github.com/ashishps1/awesome-system-design-resources?tab=readme-ov-file

Morteza Sharifi
👍5
انتشار دیتاست بزرگ محصولات و کامنت های دیجیکالا


🔍 نکات برجسته مجموعه داده:
- بیش از 1.2 میلیون محصول در چندین ویژگی از جمله قیمت، امتیاز محصول، تعداد آرا، دسته بندی، نام تجاری و موارد دیگر
- مجموعه ای گسترده با بیش از 6 میلیون کامنت محصول، شامل متن کامنت، تاریخ کامنت، امتیاز دهی کاربر، مزایا و معایب ثبت شده توسط کاربر و ...

هم اکنون دانلود کنید:
این مجموعه داده در Kaggle و Hugging Face قابل دسترسی است.

⬇️ لینک دانلود از Kaggle:
https://www.kaggle.com/datasets/radeai/digikala-comments-and-products

⬇️ لینک دانلود از Hugging Face:
https://huggingface.co/datasets/RadeAI/Digikala_comments_products

این دیتاست رو برای اهداف بیزینسی تیممون در تابستان 1402 جمع آوری کردیم و الان برای استفاده محققین و فعالین حوزه دیتا منتشرش کردیم.

Rade AI
👍12
یه سایتی هست به نام hashtag#ناکامولوژی 🤷
که میاد استارتاپ هایی که شکست خوردن رو کامل معرفی می‌کنه و علت شکست رو هم عنوان می‌کنه👌
می‌تونه برای مقابله با خوش بینی بیش از حد و انتخاب مسیر درست خیلی کمک کننده باشه.
اینکه صرفا چشممون به استارت آپ های قوی نره و فکر نکنیم فقط شروع کردن مهمه!🤔
خیلی چیزا هست که می‌تونه یه پروژه خیلی قوی رو زمین بزنه💥
خوندن داستان های شکست به اندازه ی خوندن داستان های موفقیت ضروریه!ولو بیشتر

nakamology.ir

Elmira Niraneh
👍14
انتشار دیتاست‌ها و LLMهای فاین‌تیون شده اختصاصی باسلام
+ به همراه کد و بلاگ تجربه مهندسی


آدم‌ها در باسلام می‌تونن خودشون محصولاتشون رو تعریف کنند. در نتیجه استاندارد ثابتی برای محتوا وجود نداره. یکی از چالش‌هایی که ما در تیم matchmaking باسلام داشتیم این بود که چطور از دل این دیتای بدون ساختار، دیتای ساختاریافته استخراج کنیم که بتونیم در الگوریتم‌های جستجو و دیسکاوری ازشون استفاده کنیم.

برای حل این مسئله ما از مدل‌های زبانی بزرگ (LLM) استفاده کردیم. از اون جا که احتمال دادیم پلتفرم‌های دیگه‌ای هم ممکنه مسئله یا چالش‌های مشابهی به خصوص در زبان فارسی داشته باشند، تصمیم گرفتیم کد، دیتاست‌ها و LLM های فاین تیون شده رو Open Source کنیم.

دیتاست‌ها از جنس Instruction-tuning هستند و همچنین مدل‌ها، فاین‌تیون شده‌ی مدل llama-2.

لینک کالکشن هاگینگ‌فیس مدل‌ها و دیتاست‌ها:
https://huggingface.co/collections/BaSalam/product-catalog-generator-6654e4b5c7ff1a0216849ff8

لینک کد Train مدل:
https://github.com/basalam/product-catalog-generator

لینک بلاگ تجربه مهندسی:
https://vrgl.ir/RZxJY

Mohammadreza Esmaeilian
👍14
اگه آلمان مقصد جذابیه براتون این سایت های مهم کلی بهتون کمک می‌کنن:

و قبلش این و بگم که برای محتوای بیشتر دباره کار تو محیط بین المللی می‌تونید تلگرام کی‌ورک رو هم دنبال کنید:
⁩1. www.uni-assist.de یونی اسیست
2. www.studienkollegs.de لیست کالج ها
3. www.teheran.diplo.de سفارت آلمان در تهران
4. www.hochschulkompass.de جستجوی دانشگاه و رشته
5. www.studieren.de جستجوی دانشگاه و رشته
6. www.dsit.org.ir موسسه گوته
7. www.pdexp.com پست پ د ا
8. www.tntiran.com پست تی ان تی
9. www.dhl.co.ir پست دی اچ ال
10. www.karapost.com کاراپست
11. www.study-in.de جستجوی دانشگاه و رشته
12. www.daad-iran.org دآآد ایران
13. www.daad.de دآآد
14. www.gate-germany.de
15. grad.saorg.ir دانشگاه های مورد تایید وزارت علوم
16. www.hochschulstart.de وابسته به اسیست
17. www.studis-online.de
18. www.howtogermany.com
19. www.numbeo.com هزینه زندگی و مشخصات رفاهی شهر ها
20. www.expatistan.com هزینه زندگی در شهر ها
21. www.lebenslauf.com نوشتن زندگی نامه
22. https://lnkd.in/dXm6jPCv
23. https://lnkd.in/dMH2ZMY6
24. www.testas.de تست آس
25. www.testdaf.de تست داف
26. en.dsh-germany.com د اس ها
27. www.skyscanner.net موتور جستجوی پرواز
28. www.applyabroad.org فروم
29. www.academiacafe.com یه فروم دیگه
30. www.stexx.eu بانک اطلاعاتی تحصیل در همه جا
31. www.topuniversities.com (QS)رده بندی دانشگاه ها
32. https://lnkd.in/diCwRhmY رده بندی دانشگاه ها
33. europass.cedefop.europa.eu وبسایت حرفه ای برای نوشتن رزومه
34. www.deutschland.de در مورد آلمان
35. www.worldatlas.com اطلاعات عمومی کشور ها
36. www.gehalt.de درآمد مشاغل مختلف در آلمان به طور میانگین
37. www.studienwahl.de راهنمای تحصیل در آلمان

برای جستجوی خانه و وگ و هاستل و ...

1. www.airbnb.com
2. www.wg-gesucht.de
3. www.homestay.com
4. www.immowelt.de
5. www.wohnungsmarkt24.de
6. www.immobilienscout24.de
7. www.immonet.de
8. www.studenten-wg.de
9. https://lnkd.in/dFTX2Qaj
10. www.wohngemeinschaft.de
11. www.wohnung-fuer-dich.de
12. www.wg-suche.de
13. www.quoka.de
14. Studierendenwerk der Unis
15. Sonntag, Kurier und andere Zeitungen
16. Facebook (Wohnungssuche/wg - wohnungsbörse / wg- Wohnungsmarkt + esme shahr)
17. www.hostelbookers.com
18. www.hostelworld.com
19. www.studenten-wg.de
20. www.booking.com

برای پرداخت هزینه های اپلای و ...(بدون فیلتر شکن وارد شوید!)
1. www.assist-pay.ir
2. www.parsianpay.com
3. www.tehranpayment.com

مفید برای یادگیری زبان و آموزشی:
1. www.memrise.com
2. www.fluentu.com
3. www.coursera.org

خرید اجناس دسته دوم در آلمان :

1. www.gebraucht.de
2. www.ebay-kleinanzeigen.de
3. www.shpock.com

سایت های خوب کاریابی :
1. www.Indeed.de
2. www.Jobrapido.de
3. www.stepstone.de
4. www.jobtopus.de

Shadi Sepehri
👍12
چون حجم پروژه زبان فارسی باستان زیاده و در آینده قراره وسیع تر بشه و خب مسلما در یک ریپازیتوری گیتهاب جا نمیشه؛ به همین علت براش یک اورگانیزیشن (organization) ساختم.

اگه کسی علاقه داشته باشه میتونه روی این پروژه کار کنه؛ بهم ایمیل بزنید تا من در آینده شما رو عضو لیست People کنم، خیلی هم خوشحال میشم🥰.

کارهای غیر فنی و غیر کدی هم زیاد دارم؛ مثلا پیدا کردن کتاب های خوب، مقاله، ساختن world list برای این زبان، جمع آوری دیتای عکس از کتیبه ها یا دیتای متنی از زبان فارسی باستان و ....

https://github.com/Electronic-Persian-Old-Library
👍9
آیا به تجزیه و تحلیل موسیقی علاقه دارید؟ این پروژه گیت‌هاب برای شماست! 🎶
پروژه Music Analyzer به شما امکان می‌دهد تا به تجزیه و تحلیل و پردازش داده‌های موسیقی بپردازید. این ابزار می‌تواند ویژگی‌های مختلف موسیقی را استخراج کرده و اطلاعات مفیدی را در اختیار شما قرار دهد. از این پروژه می‌توانید در پژوهش‌های خود، توسعه اپلیکیشن‌های موسیقی 🎵، یا حتی در پروژه‌های یادگیری ماشین 🤖 استفاده کنید.
برای دسترسی به این ابزار کارآمد، از لینک زیر استفاده کنید:

📱 GitHub Repo
👍8
دیتاست مربوط به instructهای فارسی مناسب برای فاین تیون کردن مدل های زبانی

📱 GitHub Repo
👍9
اگر به حوزه پردازش زبان طبیعی (NLP) و مدل‌های زبانی هوش مصنوعی علاقه‌مندید، این مجموعه داده برای شماست! این پروژه با هدف ارزیابی عملکرد ChatGPT برای زبان فارسی ایجاد شده است. شامل مجموعه‌ای متنوع از سوالات و پاسخ‌ها به زبان فارسی می‌باشد که می‌تواند در پروژه‌های مرتبط با توسعه مدل‌های AI و NLP بسیار کاربردی باشد. می‌توانید از این دیتاست برای ارزیابی و بهبود مدل‌های زبان فارسی در اپلیکیشن‌های چت‌بوت، ترجمه ماشینی و سایر کاربردهای مشابه استفاده کنید.

📱 GitHub Repo
👍8
مجموعه‌ای جامع از کلمات در تمامی زبان‌ها! این ریپازیتوری شامل یک دیتاست بزرگ و کلیه کلمات موجود در زبان‌های مختلف است. برای محققین و علاقه‌مندان به پردازش زبان طبیعی (NLP) و مطالعات زبان‌شناسی می‌تواند بسیار مفید واقع شود. از این دیتاست در پروژه‌های ترجمه خودکار، تشخیص زبان، و تحلیل متنی می‌توانید استفاده کنید.

📱 GitHub Repo
👍3
مجموعه تصاویری از جملات فارسی، شامل 2000 تصویر با کیفیت بالا که حاوی متون فارسی در سبک‌ها و فونت‌های مختلف هستند. این دیتاست برای پروژه‌های پردازش تصویر، OCR و تحلیل متون بسیار مفید است. هدف از ایجاد این مجموعه، ارائه منبعی غنی برای تحقیق و توسعه الگوریتم‌های تشخیص و خواندن متون فارسی در تصاویر است.

📱 GitHub Repo
👍7
PHate is a Persian multi-label hate speech dataset curated for hate speech detection tasks. It includes annotations with annotator rationales, providing valuable insights into the annotators' decision-making process. The dataset comprises 7K data.

📱 GitHub Repo
👍2
این دیتاست شامل مجموعه‌ای از داده‌های فینگلیش (فارسی با الفبای لاتین) می‌باشد که برای استفاده در پروژه‌های تحلیل متن و پردازش زبان طبیعی بسیار مفید است. دیتاست شامل ۲۰۰۰ جمله و بیش از ۵۰۰۰ کلمه مختلف است که از منابع مختلف جمع‌آوری شده‌اند. از این مجموعه داده می‌توان در پروژه‌های تبدیل فینگلیش به فارسی، ساخت مدل‌های زبانی، و حتی بهبود سیستم‌های پیشنهاد دهنده کلمات استفاده کرد.

📱 GitHub Repo
👍7
ترجمه سایت محبوب w3schools

این مخزن شامل مجموعه‌ای جامع از نکات و دستورالعمل‌های پایه‌ای پایتون به زبان فارسی است. مناسب برای کسانی که تازه وارد دنیای برنامه‌نویسی شده‌اند یا به دنبال تمرین و تقویت مهارت‌های اولیه خود در پایتون هستند. با این مخزن می‌توانید مباحث مختلف شامل متغیرها، توابع، حلقه‌ها و استثناها را به طریقی ساده و روان یاد بگیرید. مناسب برای دانش‌آموزان، دانشجویان و هر کسی که می‌خواهد پایتون را از صفر تا صد بیاموزد و در پروژه‌های ساده خود استفاده کند.

📱 GitHub Repo
👍5
The data was meticulously collected from Telegram, focusing on public channels. These channels were identified and curated by our team of agents, dedicated to exploring and discovering relevant content.

Dataset Statistics:
Largest Available Corpus to Date
Average Length of Document: 46 tokens
Number of Documents: 188,874,296
Number of Channels Scraped: 58,000
Uncompressed Size: 123 GB
Channels List: Available in channels.json

📱 GitHub Repo
👍6