NEW BOT Телеграм, страница

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

Channel created

11:15

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

معرفی:
آزمایشگاه پردازش گفتار (Speech Processing Lab) یکی از آزمایشگاه‌های تحقیقاتی دانشکده کامپیوتر دانشگاه صنعتی شریف است. حوزه اصلی پژوهشی در این آزمایشگاه پردازش سیگنال‌های دیجیتال مخصوصاً سیگنال گفتار است. از زمینه‌های تحقیقاتی که در این آزمایشگاه انجام می‌شود می‌توان به توسعه سامانه‌های بازشناسی گفتار فارسی (تبدیل گفتار به متن) و بازشناسی گوینده با استفاده از صدا اشاره کرد. اولین و مهمترین محصول این آزمایشگاه نرم‌افزار تایپ گفتاری نویسا (NEVISA) است که بهترین سامانه‌ی بازشناسی گفتار فارسی است.
برای آشنایی با سایر محصولات و اطلاعات بیشتر می‌توانید به آدرس زیر مراجعه کنید.
http://spl.ce.sharif.edu

3.65K viewsedited 20:08

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

انگیزه جمع‌آوری دادگان گفتاری:
داشتن دادگان استاندارد پیش‌نیاز تمامی پژوهش‌هاست. در زمینه پردازش گفتار نیز داشتن چنین دادگانی دغدغه پژوهشکران است. متاسفانه دادگان استاندارد خوبی برای زبان فارسی وجود ندارد و علاوه‌بر این داده‌های موجود برای زبان انگلیسی به سختی در دسترس پژوهشگران ایرانی است. در حال حاضر برای بازشناسی گوینده دو دادگان استاندرد وجود دارد که متعلق به گوگل و ماکروسافت هستند که بصورت انحصاری از آنها استفاده می‌کنند و به خاطر تحریم‌ها و مباحث سیاسی حاضر به همکاری با ما نمی‌شوند.
از این رو بر آن شدیم یک دادگان استاندارد دو زبانه برای بازشناسی گوینده جمع‌آوری کنیم تا بتوانیم این مشکل را حل کنیم. بعد از ماه‌ها سعی و تلاش و طراحی یک دادگان استاندارد، یک برنامه اندروئید نوشته شد تا بتوان توسط آن جمع‌آوری دادگان را انجام داد. هدف ما جمع‌آوری دادگان از بیش از ده هزار نفر گوینده است. دادگان گوگل بیش از صد هزار و ماکروسافت در حدود بیست هزار گوینده دارند. امید است با کمک شما هموطنان عزیر دادگانی در حد این دو جمع‌آوری کنیم. برای ترغیب شما و همچنین تشکر از همکاری شما جوایزی نیز در نظر گرفته شده است.
با معرفی برنامه به دوستان و آشنایان خود ما در این مهم یاری کنید.
@spl_data_collection

4.65K viewsedited 21:24

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

با توجه به سوالات مطرح شده در رابطه با جملات موجود در نرم ‌افزار، به نکات زیر توجه کنید:
🔹برای هر مرحله ضبط، ۲۴ عبارت در نظر گرفته شده است. از این تعداد ۵ جمله فارسی ثابت هستند که در هر ضبط تکرار می‌شوند. سه عبارت نیز دنباله تصادفی ماه‌های سال هستند که ممکن است شامل تمام ماه‌ها باشند و یا دنباله سه‌تایی از ماه‌ها.
🔹در صورتی که بتوانید انگلیسی بخوانید ۵ جمله ثابت انگلیسی وجود دارد که می‌توانید قبل از بیان به آنها گوش دهید. سه دنباله تصادفی هم از ارقام انگلسی وجود دارد که ممکن است شامل تمام ارقام باشند و یا اینکه دنباله چهارتایی از ارقام.
🔹باقی عبارات بصورت اتوماتیک از متون خبری استخراج شده‌اند. به خاطر اینکه تعداد آنها خیلی زیاد هست امکان بررسی دستی برای آنها وجود نداشت و به همین خاطر ممکن است اشتباه تایپی و مفهومی در آنها وجود داشته باشد. در صورتی که اشتباهی در آنها وجود داشت لطفاً یا همان طور که جمله نوشته شده آن را بخوانید (با اشتباه) یا با استفاده از دکمه "رد کردن" از آن عبارت عبور کنید.

3.33K views19:26

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

🔰 مقدمه 🔰
مراحل رشد گفتاری یک بچه رو در نظر بگیرید. معمولاً بچه‌ها یکی دو سال اول زندگی‌شون نمیتونن صحبت کنند و فقط گوش میدن. بعد کم‌کم شروع به ادای کلمات و بعد جملات ساده می‌کنند و به مرور تجربه تکلم‌شون و قدرت جمله‌سازی‌شون بالا میره.

دامنه کلماتی هم که بچه استفاده می‌کنه به همین بستگی داره که چی بشنوه. مثلاً بچه‌ها با مامان و بابا که پرتکرارترین کلمه‌های شنیده شده‌شون هست شروع می‌کنند. اما کلمات سختی مثل "مصحح"، "تغلیظ"، "شهود" و ... که نشنیدند رو بعدها کم‌کم یاد خواهند گرفت.

معمولاً زبان‌ها لهجه‌های مختلفی دارند. مثلاً در همین زبان فارسی خودمون لهجه‌های متعددی هست که یک کلمه رو به شکل‌های مختلفی ادا میکنن. بچه‌ها هم همون لهجه رو از خانواده یاد میگیرند.

این مقدمه رو گفتم که بتونین یک تصوری از نحوه زبان‌آموزی داشته باشین.

🔰 درخواست همکاری 🔰
حالا یک نرم‌افزار کامپیوتری ( که بهش گفته میشه مبدل گفتار به نوشتار ) هم شبیه بچه‌ها "خودش" یاد میگیره که چه کلمه‌ای چطور تلفظ میشه. فقط باید نحوه ادای اون کلمه رو مثل بچه‌ها بشنوه و هر چه بیشتر بشنوه ( یعنی از تعداد افراد بیشتری با صداهای متفاوت، صدای زن و مرد، صدای نازک و کلفت و ... ) بهتر میتونه بین صداهای مختلف تمایز قایل بشه و نرم‌افزار قدرتمندتری خواهد شد و با دقت بهتری میتونه گفتار رو برامون تایپ کنه، حتی اگر با لهجه براش صحبت کنیم.

بنابراین الان شما نقش والدین مجازی این نرم‌افزار رو دارین. یک سری جملات از پیش تعیین شده رو میخونین و صدای شما ضبط میشه. بعداً نرم‌افزار مدنظر میفهمه که مثلاً فلان جمله اینطور بیان میشه. هرچی تعداد افراد بیشتری براش پدری/مادری کنند و جملات رو بخونن، قدرت تشخیص و تمایز اون بالاتر میره و نرم‌افزار بهتری خواهد شد.

حالا اگر می‌خواهید برای این طفل نوپا پدری/مادری کنید به کانال زیر برید و برنامه اندروئید ضبط صدا رو نصب کنید. در پایان هم به قید قرعه جوایز زیر به والدین عزیز اهدا میشه.
۱. سه تمام سکه بهار آزادی
۲. شش نیم سکه بهار آزادی
۳. دوازده ربع سکه بهار آزادی
۴. ۱۰۰ عدد تندیس دانشگاه صنعتی شریف
👇👇👇👇👇👇
https://news.1rj.ru/str/spl_data_collection

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

آزمایشگاه پردازش گفتار، دانشکده کامپیوتر، دانشگاه صنعتی شریف.
ارسال آخرین اخبار و همچنین آمارهای مختلف درباره جمع‌آوری دادگان گفتاری.
ارتباط به ادمین و طرح سوال از طریق آی‌دی زیر:
@spl_admin

15K views00:24

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

🔰 با سلام خدمت همراهان عزیز 🔰
برای دسترسی راحت‌تر به برنامه ضبط گفتاری آخرین نسخه از آن (۱.۱.۳) در کافه بازار هم قرار گرفت. برای بروزرسانی و یا نصب برنامه می‌توانید از بازار هم استفاده کنید.
لطفا ما را به آشنایان خود معرفی کنید.
👇👇👇👇👇
https://cafebazaar.ir/app/edu.sharif.spl.splrecordingapp/?l=fa

@spl_data_collection

6.31K viewsedited 21:56

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

وضعیت سطح تحصیلات شرکت‌کنندگان در پروژهٔ جمع‌آوری دادگان گفتاری
👇دانلود آخرین نسخه از برنامه در این پست 👇
https://news.1rj.ru/str/spl_data_collection/33

2.6K viewsedited 17:54

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

1:50

This media is not supported in your browser

VIEW IN TELEGRAM

توضیحاتی در رابطه با پردازش گفتار پخش شده از برنامهٔ چرخ شبکهٔ ۴ سیما در تاریخ ۲۵ مرداد با حضور دکتر حسین صامتی.
👇نسخهٔ کامل در پست زیر👇
https://news.1rj.ru/str/spl_data_collection_winners/8

4.21K viewsedited 22:22

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

3:06

This media is not supported in your browser

VIEW IN TELEGRAM

توضیحات دکتر حسین صامتی رئیس دانشکدهٔ کامپیوتر و مسئول آزمایشگاه پردازش گفتار شریف در رابطه با جمع‌آوری دادگان گفتاری و دعوت از مردم برای شرکت در آن، پخش شده از برنامهٔ چرخ شبکهٔ ۴

6.23K viewsedited 22:41

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

🌹همراهان عزیز، سلام 🌹

📣 با توجه به بازخوردهای دریافت شده و به منظور ترغیب بیشتر شما برای معرفی برنامه به آشنایان خود، جوایز جدیدی برای معرفین پروژه در نظر گرفته شده است. همچنین تعدادی بن اشتراک فیلیمو (آپارات) هم از این شرکت به پروژه اختصاص داده شد که به جوایز ماهیانه اضافه شدند. انشاالله با همکاری شما و با افزایش تعداد شرکت‌کنندگان بتوانیم اسپانسرهای بهتری برای پروژه پیدا کنیم.

🏆 جوایز ماهیانه:
1️⃣ یک ربع سکه بهار آزادی 🥉
2️⃣ پنج تندیس دانشگاه صنعتی شریف
3️⃣ پنج اشتراک فیلیمو (آپارات) برای دیدن فیلم

🏆 جوایز نهایی:
1️⃣ یک تمام سکه بهار آزادی 🥇
2️⃣ شش نیم سکه بهار آزادی 🥈
3️⃣ چهل تندیس دانشگاه صنعتی شریف
4️⃣ دو تمام سکه بهار آزادی 🥇 (قرعه‌کشی بین افراد با ۶۴ ضبط)

🏆 جوایز بهترین معرف:
1️⃣ یک نیم سکه بهار آزادی برای بهترین معرف (بدون قرعه‌کشی)🥈
2️⃣ دویست هزار تومان، قرعه‌کشی بین افرادی که ۸ نفر را معرفی کرده‌اند.
3️⃣ چهارصد هزار تومان، قرعه‌کشی بین افرادی که ۱۶ نفر را معرفی کرده‌اند.
توجه: جوایز بهترین معرف بصورت مجزا بوده و ممکن است یک فرد علاوه‌بر جوایز بالا، جایزهٔ بهترین معرف را نیز برنده شود.

📣 شرط شرکت در قرعه‌کشی کامل کردن ۱۶ سری ضبط

👇دانلود آخرین نسخه از برنامه در پست زیر👇
https://news.1rj.ru/str/spl_data_collection/75

3.05K viewsedited 17:18

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

🔰راهنمای معرفی پروژه به آشنایان🔰

✅ در نسخهٔ جدید در بالای صفحهٔ اصلی برنامه شناسهٔ شما نشان داده شده است که آشنایان شما در زمان ثبت‌نام باید آن را در قسمت شناسهٔ معرف که در نسخهٔ جدید به فرم ثبت‌نام اضافه شده است وارد کنند.

✅ برای معرفی پروژه می‌توانید یا خودتان شناسه را به آشنایان اطلاع دهید و یا اینکه از دکمهٔ مربوطه در پایین صفحهٔ اصلی استفاده کنید. با زدن دکمهٔ معرفی می‌توانید پیام معرفی پروژه را توسط تلگرام و یا دیگر نرم‌افزارهای ارسال پیام برای آشنایان خود ارسال کنید. شناسهٔ شما در متن پیام ارسالی وجود دارد. توجه شود که از پیامک برای این منظور استفاده نکنید که برای شما هزینه خواهد داشت.

✅ در صورتی که قبلاً پروژه را معرفی کرده‌اید می‌توانید از آشنایان خود بخواهید بعد از بروزرسانی به نسخهٔ جدید و از قسمت تصحیح اطلاعات کاربر شناسهٔ شما را وارد کنند.

✅ با معرفی پروژه به آشنایان خود علاوه‌بر اینکه می‌توانید جایزهٔ بهترین معرف را ببرید شانس شما در برنده شدن جوایز دیگر نیز بیشتر می‌شود. هر ضبطی که توسط آشنایان شما انجام شود برای شما نیز امتیاز حساب می‌شود.

✅ لطفاً در حد امکان به تعداد بیشتری از آشنایان خود پروژه را معرفی کنید و از آنها هم بخواهید پروژه را به دیگران معرفی کنند تا بتوانیم به تعداد شرکت‌کنندهٔ ایده‌آل برسیم. شما حامیان اصلی پروژه هستید و برای موفقیت بعد از خدا امید ما به همکاری شماست. اگر هر فرد ۱۰ نفر را به پروژه بیاورد قطعاً پروژه با موفقیت به اتمام خواهد رسید.

☑️ در صورت داشتن هر گونه سوال و پیشنهاد در این رابطه آن را با آی‌دی @spl_admin در میان بگذارید.

🆔 @spl_data_collection

3.2K views17:46

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

📣 ضبط صدا انجام دهید، سکهٔ طلا جایزه ببرید🥇
👇دریافت برنامهٔ اندروئید و عضویت در کانال پروژهٔ ضبط صدای آزمایشگاه پردازش گفتار «دانشگاه صنعتی شریف» در پست زیر 👇
https://news.1rj.ru/str/spl_data_collection/75

9.51K views11:17

جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف

🌹 درود بر همراهان عزیز 🌹
📣 لطفاً این مطلب را بطور کامل بخوانید.

✅ #دردـدل
همان‌طور که احتمالاً می‌دانید [ و از قرعه‌کشی‌ها هم مشخص است ] بیش از ۷ ماه از شروع رسمی پروژهٔ جمع‌آوری دادگان گفتاری می‌گذرد و تنها کمتر از ۵ ماه دیگر تا پایان آن مانده است. در این مدّت به منظور جذب حامی (اسپانسر)، برای این پروژهٔ ملّی، از حدود ۲۰ شرکت خصوصی و ارگان دولتی درخواست یاری کردیم. متأسّفانه — با وجود ادعّای مبالغه‌آمیزشان درباره‌ی میل به پیشرفت کشور و پاسداری از هوّیت ملّی — اکثر آنها برای پیش‌بردِ کار کوچک‌ترین گامی برنداشتند و تنها فیلیمو ۵۰ بن اشتراک برای شرکت‌کنندگان درنظر گرفت.

ما (پژوهش‌گرانِ آزمایشگاه پردازش گفتار دانشگاه صنعتی شریف) برای ادای رسالتی که به‌سبب میهن‌دوستی و دانش‌اندوزی بر دوش گرفته‌ایم، حدود ۵۰ میلیون تومان از منابع شخصی خود را در راه این پروژه هزینه کردیم، به امید این‌که با کمک هم‌میهنان عزیزمان بتوانیم بخشی از کاستی‌های انکارناشدنی در زمینه‌ی پردازش گفتار زبان پارسی را رفع کنیم.

ایدهٔ کلّی این پروژه از طرح‌های مشابه خارجی گرفته شده است که به آن Crowdsourcing (=جمع‌سپاری) می‌گویند و از مهمترین آنها می‌توان به پروژهٔ «موزیلا» برای زبان انگلیسی اشاره کرد (voice.mozilla.org). در خارج از کشور پروژه‌های بنیادینِ این‌چنینی، حامیان متعدّدی دارند که در راستای تعالی همه‌جانبه‌ی کار، پیوسته هزینه می‌کنند. برای نمونه دانشگاه سنگاپور به‌منظور گردآوری دادگان گفتاری از «تنها ۳۰۰ گوینده» «۷۰هزار دلار» هزینه کرده است. امّا متأسّفانه در کشور ما تحرّکات علمی، به‌ویژه پژوهش‌های بنیادین، برای «مدّعیان خدمت به مردم» چندان اهمّیّتی ندارد.

✅ #درخواست
با وجود تلاش بسیار، گویا نتوانسته‌ایم آن‌گونه که باید، شرکت در پروژه را جذّاب کنیم. تا کنون کاربران زیادی برنامه‌ی جمع‌آوری دادگان را نصب کرده‌اند، امّا در کمال ناباوری، برای ضبط صدا اقدام نکرده‌اند یا فقط یک سری ضبط انجام داده‌اند. حتّیٰ بیش از نصف اعضای کنونی کانال هم، شمار اندکی ضبط انجام داده‌اند. علاوه‌براین، از هر ۱۰۰۰ نفر دعوت‌شده به پروژه، تنها یک نفر برنامه را نصب می‌کند!

ما روزانه ساعت‌ها وقت خود را در شبکه‌های مجازی و ... به‌راحتی هدر می‌دهیم، در حالی‌که صرف حدود ۴ دقیقه در روز برای پیش‌بردِ یک پروژه‌ی ملّی تا این حد برای‌مان دشوار است!!! اگر در آینده، دیگر محقّقان کشور از تجربه‌ی تلاش بیهوده‌ی ما در این پروژه آگاه شوند، آیا دیگر انگیزه‌ای برای انجام پژوهش‌های بنیادین خواهند یافت یا این‌که عزم خود را برای رفتن از این خاک جزم خواهند ‌کرد؟ ای کاش به‌جای هزاران گلایه از عقب‌ماندگی کشور، هر یک از ما یک گام برای پیشرفت کشور بردارد!

✅ جان مطلب این‌که:
تنها سرمایه‌ی حقیقی ما، شما دوستانِ همراه و همدل هستید. در این پروژه به ۱۵۰۰ شرکت‌کننده با دست‌کم ۱۶ سری ضبط صدا نیاز داریم که حدود نیمی از این تعداد، اکنون عضو کانال هستند. اگر هر یک از دوستان، حداقل ۲ نفر فعّال را دعوت کند، پروژه در کم‌تر از یک ماه با موفّقیّت به پایان می‌رسد.

خواهش دیگر و مهم‌تر این‌که صمیمانه انتقاد و پیشنهادهای خود را برای جذّاب کردن برنامه به‌منظور مشارکت دیگران از طریق آی‌دی @spl_admin با ما در میان بگذارید. همچنین اگر ابهامی در رابطه با پروژه دارید آن را نیز با همین آی‌دی مطرح کنید.

🆔 @spl_data_collection

11.8K viewsedited 19:07

About

Blog

Apps

Platform