جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف – Telegram
جمع‌آوری دادگان گفتاری دانشگاه صنعتی شریف
261 subscribers
5 photos
2 videos
12 links
آزمایشگاه پردازش گفتار، دانشکده کامپیوتر، دانشگاه صنعتی شریف.
ارسال آخرین اخبار و همچنین آمارهای مختلف درباره جمع‌آوری دادگان گفتاری.
ارتباط به ادمین و طرح سوال از طریق آی‌دی زیر:
@spl_admin
Download Telegram
معرفی:
آزمایشگاه پردازش گفتار (Speech Processing Lab) یکی از آزمایشگاه‌های تحقیقاتی دانشکده کامپیوتر دانشگاه صنعتی شریف است. حوزه اصلی پژوهشی در این آزمایشگاه پردازش سیگنال‌های دیجیتال مخصوصاً سیگنال گفتار است. از زمینه‌های تحقیقاتی که در این آزمایشگاه انجام می‌شود می‌توان به توسعه سامانه‌های بازشناسی گفتار فارسی (تبدیل گفتار به متن) و بازشناسی گوینده با استفاده از صدا اشاره کرد. اولین و مهمترین محصول این آزمایشگاه نرم‌افزار تایپ گفتاری نویسا (NEVISA) است که بهترین سامانه‌ی بازشناسی گفتار فارسی است.
برای آشنایی با سایر محصولات و اطلاعات بیشتر می‌توانید به آدرس زیر مراجعه کنید.
http://spl.ce.sharif.edu
انگیزه جمع‌آوری دادگان گفتاری:
داشتن دادگان استاندارد پیش‌نیاز تمامی پژوهش‌هاست. در زمینه پردازش گفتار نیز داشتن چنین دادگانی دغدغه پژوهشکران است. متاسفانه دادگان استاندارد خوبی برای زبان فارسی وجود ندارد و علاوه‌بر این داده‌های موجود برای زبان انگلیسی به سختی در دسترس پژوهشگران ایرانی است. در حال حاضر برای بازشناسی گوینده دو دادگان استاندرد وجود دارد که متعلق به گوگل و ماکروسافت هستند که بصورت انحصاری از آنها استفاده می‌کنند و به خاطر تحریم‌ها و مباحث سیاسی حاضر به همکاری با ما نمی‌شوند.
از این رو بر آن شدیم یک دادگان استاندارد دو زبانه برای بازشناسی گوینده جمع‌آوری کنیم تا بتوانیم این مشکل را حل کنیم. بعد از ماه‌ها سعی و تلاش و طراحی یک دادگان استاندارد، یک برنامه اندروئید نوشته شد تا بتوان توسط آن جمع‌آوری دادگان را انجام داد. هدف ما جمع‌آوری دادگان از بیش از ده هزار نفر گوینده است. دادگان گوگل بیش از صد هزار و ماکروسافت در حدود بیست هزار گوینده دارند. امید است با کمک شما هموطنان عزیر دادگانی در حد این دو جمع‌آوری کنیم. برای ترغیب شما و همچنین تشکر از همکاری شما جوایزی نیز در نظر گرفته شده است.
با معرفی برنامه به دوستان و آشنایان خود ما در این مهم یاری کنید.
@spl_data_collection
با توجه به سوالات مطرح شده در رابطه با جملات موجود در نرم ‌افزار، به نکات زیر توجه کنید:
🔹برای هر مرحله ضبط، ۲۴ عبارت در نظر گرفته شده است. از این تعداد ۵ جمله فارسی ثابت هستند که در هر ضبط تکرار می‌شوند. سه عبارت نیز دنباله تصادفی ماه‌های سال هستند که ممکن است شامل تمام ماه‌ها باشند و یا دنباله سه‌تایی از ماه‌ها.
🔹در صورتی که بتوانید انگلیسی بخوانید ۵ جمله ثابت انگلیسی وجود دارد که می‌توانید قبل از بیان به آنها گوش دهید. سه دنباله تصادفی هم از ارقام انگلسی وجود دارد که ممکن است شامل تمام ارقام باشند و یا اینکه دنباله چهارتایی از ارقام.
🔹باقی عبارات بصورت اتوماتیک از متون خبری استخراج شده‌اند. به خاطر اینکه تعداد آنها خیلی زیاد هست امکان بررسی دستی برای آنها وجود نداشت و به همین خاطر ممکن است اشتباه تایپی و مفهومی در آنها وجود داشته باشد. در صورتی که اشتباهی در آنها وجود داشت لطفاً یا همان طور که جمله نوشته شده آن را بخوانید (با اشتباه) یا با استفاده از دکمه "رد کردن" از آن عبارت عبور کنید.
🔰 مقدمه 🔰
مراحل رشد گفتاری یک بچه رو در نظر بگیرید. معمولاً بچه‌ها یکی دو سال اول زندگی‌شون نمیتونن صحبت کنند و فقط گوش میدن. بعد کم‌کم شروع به ادای کلمات و بعد جملات ساده می‌کنند و به مرور تجربه تکلم‌شون و قدرت جمله‌سازی‌شون بالا میره.

دامنه کلماتی هم که بچه استفاده می‌کنه به همین بستگی داره که چی بشنوه. مثلاً بچه‌ها با مامان و بابا که پرتکرارترین کلمه‌های شنیده شده‌شون هست شروع می‌کنند. اما کلمات سختی مثل "مصحح"، "تغلیظ"، "شهود" و ... که نشنیدند رو بعدها کم‌کم یاد خواهند گرفت.

معمولاً زبان‌ها لهجه‌های مختلفی دارند. مثلاً در همین زبان فارسی خودمون لهجه‌های متعددی هست که یک کلمه رو به شکل‌های مختلفی ادا میکنن. بچه‌ها هم همون لهجه رو از خانواده یاد میگیرند.

این مقدمه رو گفتم که بتونین یک تصوری از نحوه زبان‌آموزی داشته باشین.

🔰 درخواست همکاری 🔰
حالا یک نرم‌افزار کامپیوتری ( که بهش گفته میشه مبدل گفتار به نوشتار ) هم شبیه بچه‌ها "خودش" یاد میگیره که چه کلمه‌ای چطور تلفظ میشه. فقط باید نحوه ادای اون کلمه رو مثل بچه‌ها بشنوه و هر چه بیشتر بشنوه ( یعنی از تعداد افراد بیشتری با صداهای متفاوت، صدای زن و مرد، صدای نازک و کلفت و ... ) بهتر میتونه بین صداهای مختلف تمایز قایل بشه و نرم‌افزار قدرتمندتری خواهد شد و با دقت بهتری میتونه گفتار رو برامون تایپ کنه، حتی اگر با لهجه براش صحبت کنیم.

بنابراین الان شما نقش والدین مجازی این نرم‌افزار رو دارین. یک سری جملات از پیش تعیین شده رو میخونین و صدای شما ضبط میشه. بعداً نرم‌افزار مدنظر میفهمه که مثلاً فلان جمله اینطور بیان میشه. هرچی تعداد افراد بیشتری براش پدری/مادری کنند و جملات رو بخونن، قدرت تشخیص و تمایز اون بالاتر میره و نرم‌افزار بهتری خواهد شد.

حالا اگر می‌خواهید برای این طفل نوپا پدری/مادری کنید به کانال زیر برید و برنامه اندروئید ضبط صدا رو نصب کنید. در پایان هم به قید قرعه جوایز زیر به والدین عزیز اهدا میشه.
۱. سه تمام سکه بهار آزادی
۲. شش نیم سکه بهار آزادی
۳. دوازده ربع سکه بهار آزادی
۴. ۱۰۰ عدد تندیس دانشگاه صنعتی شریف
👇👇👇👇👇👇
https://news.1rj.ru/str/spl_data_collection
🔰 با سلام خدمت همراهان عزیز 🔰
برای دسترسی راحت‌تر به برنامه ضبط گفتاری آخرین نسخه از آن (۱.۱.۳) در کافه بازار هم قرار گرفت. برای بروزرسانی و یا نصب برنامه می‌توانید از بازار هم استفاده کنید.
لطفا ما را به آشنایان خود معرفی کنید.
👇👇👇👇👇
https://cafebazaar.ir/app/edu.sharif.spl.splrecordingapp/?l=fa

@spl_data_collection
وضعیت سطح تحصیلات شرکت‌کنندگان در پروژهٔ جمع‌آوری دادگان گفتاری
👇دانلود آخرین نسخه از برنامه در این پست 👇
https://news.1rj.ru/str/spl_data_collection/33
This media is not supported in your browser
VIEW IN TELEGRAM
توضیحاتی در رابطه با پردازش گفتار پخش شده از برنامهٔ چرخ شبکهٔ ۴ سیما در تاریخ ۲۵ مرداد با حضور دکتر حسین صامتی.
👇نسخهٔ کامل در پست زیر👇
https://news.1rj.ru/str/spl_data_collection_winners/8
This media is not supported in your browser
VIEW IN TELEGRAM
توضیحات دکتر حسین صامتی رئیس دانشکدهٔ کامپیوتر و مسئول آزمایشگاه پردازش گفتار شریف در رابطه با جمع‌آوری دادگان گفتاری و دعوت از مردم برای شرکت در آن، پخش شده از برنامهٔ چرخ شبکهٔ ۴
🌹همراهان عزیز، سلام 🌹

📣 با توجه به بازخوردهای دریافت شده و به منظور ترغیب بیشتر شما برای معرفی برنامه به آشنایان خود، جوایز جدیدی برای معرفین پروژه در نظر گرفته شده است. همچنین تعدادی بن اشتراک فیلیمو (آپارات) هم از این شرکت به پروژه اختصاص داده شد که به جوایز ماهیانه اضافه شدند. انشاالله با همکاری شما و با افزایش تعداد شرکت‌کنندگان بتوانیم اسپانسرهای بهتری برای پروژه پیدا کنیم.

🏆 جوایز ماهیانه:
1️⃣ یک ربع سکه بهار آزادی 🥉
2️⃣ پنج تندیس دانشگاه صنعتی شریف
3️⃣ پنج اشتراک فیلیمو (آپارات) برای دیدن فیلم

🏆 جوایز نهایی:
1️⃣ یک تمام سکه بهار آزادی 🥇
2️⃣ شش نیم سکه بهار آزادی 🥈
3️⃣ چهل تندیس دانشگاه صنعتی شریف
4️⃣ دو تمام سکه بهار آزادی 🥇 (قرعه‌کشی بین افراد با ۶۴ ضبط)

🏆 جوایز بهترین معرف:
1️⃣ یک نیم سکه بهار آزادی برای بهترین معرف (بدون قرعه‌کشی)🥈
2️⃣ دویست هزار تومان، قرعه‌کشی بین افرادی که ۸ نفر را معرفی کرده‌اند.
3️⃣ چهارصد هزار تومان، قرعه‌کشی بین افرادی که ۱۶ نفر را معرفی کرده‌اند.
توجه: جوایز بهترین معرف بصورت مجزا بوده و ممکن است یک فرد علاوه‌بر جوایز بالا، جایزهٔ بهترین معرف را نیز برنده شود.

📣 شرط شرکت در قرعه‌کشی کامل کردن ۱۶ سری ضبط

👇دانلود آخرین نسخه از برنامه در پست زیر👇
https://news.1rj.ru/str/spl_data_collection/75
🔰راهنمای معرفی پروژه به آشنایان🔰

در نسخهٔ جدید در بالای صفحهٔ اصلی برنامه شناسهٔ شما نشان داده شده است که آشنایان شما در زمان ثبت‌نام باید آن را در قسمت شناسهٔ معرف که در نسخهٔ جدید به فرم ثبت‌نام اضافه شده است وارد کنند.

برای معرفی پروژه می‌توانید یا خودتان شناسه را به آشنایان اطلاع دهید و یا اینکه از دکمهٔ مربوطه در پایین صفحهٔ اصلی استفاده کنید. با زدن دکمهٔ معرفی می‌توانید پیام معرفی پروژه را توسط تلگرام و یا دیگر نرم‌افزارهای ارسال پیام برای آشنایان خود ارسال کنید. شناسهٔ شما در متن پیام ارسالی وجود دارد. توجه شود که از پیامک برای این منظور استفاده نکنید که برای شما هزینه خواهد داشت.

در صورتی که قبلاً پروژه را معرفی کرده‌اید می‌توانید از آشنایان خود بخواهید بعد از بروزرسانی به نسخهٔ جدید و از قسمت تصحیح اطلاعات کاربر شناسهٔ شما را وارد کنند.

با معرفی پروژه به آشنایان خود علاوه‌بر اینکه می‌توانید جایزهٔ بهترین معرف را ببرید شانس شما در برنده شدن جوایز دیگر نیز بیشتر می‌شود. هر ضبطی که توسط آشنایان شما انجام شود برای شما نیز امتیاز حساب می‌شود.

لطفاً در حد امکان به تعداد بیشتری از آشنایان خود پروژه را معرفی کنید و از آنها هم بخواهید پروژه را به دیگران معرفی کنند تا بتوانیم به تعداد شرکت‌کنندهٔ ایده‌آل برسیم. شما حامیان اصلی پروژه هستید و برای موفقیت بعد از خدا امید ما به همکاری شماست. اگر هر فرد ۱۰ نفر را به پروژه بیاورد قطعاً پروژه با موفقیت به اتمام خواهد رسید.

☑️ در صورت داشتن هر گونه سوال و پیشنهاد در این رابطه آن را با آی‌دی @spl_admin در میان بگذارید.

🆔 @spl_data_collection
📣 ضبط صدا انجام دهید، سکهٔ طلا جایزه ببرید🥇
👇دریافت برنامهٔ اندروئید و عضویت در کانال پروژهٔ ضبط صدای آزمایشگاه پردازش گفتار «دانشگاه صنعتی شریف» در پست زیر 👇
https://news.1rj.ru/str/spl_data_collection/75