فناوری تشخیص صدا و تشخیص گفتار

فناوری تشخیص صدا و تشخیص گفتار مبتنی بر نرم افزار و تکنولوژی بدون تماس بیومتریک هستند. به همین دلیل در بین سایر تکنولوژی های بیومتریک، به عنوان آسان ترین عامل شناسایی هویت شناخته شده است. با افزایش محبوبیت فناوری اینترنت اشیا ، فناوری تشخیص گفتار نیز در بین افراد جایگاه متمایزی کسب کرده است. تکنولوژی تشخیص صدا، همچنین فرمان صوتی نیز نامیده می شود زیرا به کاربران اجازه می دهد تا با صحبت کردن با فناوری ارتباط برقرار کرده و آنها را کنترل نمایند. امروزه استفاده از فناوری تشخیص صدا به قدری در دستگاه های تلفن همراه رایج شده است که کار با آن خیلی آسانتر از قبل فراهم شده است. فناوری تشخیص گفتار فرصت های شگفت انگیزی برای سازمان ها ایجاد می کند و نسبت به سایر روش ها از درجه اطمینان بالاتری برخوردار است.

آنچه در ادامه می آموزید

تفاوت فناوری تشخیص صدا و تشخیص گفتار
ویدیو فناوری تشخیص صدا و تشخیص گفتار Alexa
فناوری تشخیص گفتار چگونه عمل می کند؟
کاربردهای عملی تشخیص صدا و تشخیص گفتار
چالش های پیش روی فناوری تشخیص گفتار

تفاوت فناوری تشخیص صدا و تشخیص گفتار

تشخیص صدا و تشخیص گفتارBiometric voice and speech recognition دو روش مجزا از هم هستند که به دلیل وابستگی به صدای انسان، به میزان قابل توجهی از جهاتی با یکدیگر شباهت دارند. اولین قدم برای شناخت این تکنولوژی بیومتریک درک تفاوت اصلی بین تشخیص صدا Voice Recognition و گفتار است. توانایی سیستم برای پردازش "آنچه که یک نفر می گوید" تشخیص صدا و "تایید شخص سخنران" مبتنی بر فیزیولوژیک و رفتار صوتی او جهت تایید هویت، تشخیص گفتار نامیده می شود. در حقیقت، تشخیص گفتار یک تکنولوژی رابط کاربری است که با اندازه گیری صدای کاربر هنگام صحبت کردن، می تواند فاکتورهای بیولوژیکی یکتایی را با هم ترکیب نموده و صدای منحصر به فردی را تولید و ذخیره نماید.

بر اساس نظرسنجی Unisys (شرکت جهانی در حوزه فناوری اطلاعات)، فناوری های بیومتریک بر اساس اولویت مصرف کنندگان عبارتند از: تشخیص صدا (32٪)، عنبیه چشم (10٪) است. این رتبه بندی تایید می کند که افراد هنگام انتخاب یک فناوری بیومتریک راحتی و آشنایی را ترجیح می دهند.

ویدیو فناوری تشخیص صدا و تشخیص گفتار Alexa

فناوری تشخیص گفتار چگونه عمل می کند؟

فناوری تشخیص گفتار (Speech Recognition Technology) پس از ساخت یک مدل دیجیتال از صدای فرد می تواند به عنوان الگویی از صدای فرد ذخیره شود. واژه ها و عبارات به انواع مختلف الگوهای فرکانس تقسیم می شوند که با یکدیگر ترکیب می شوند و روش منحصر بفردی از صحبت کردن را توصیف می کنند. این الگوها در پایگاه داده جهت تطبیق با دیگر انواع داده های بیومتریک ذخیره می شوند.

این سیستم ها می توانند وابسته به متن، یا مستقل از متن باشند و یا گاهی ترکیبی از آنها. به عنوان مثال می توانند جهت شناسایی پرسنل در دستگاه های حضور و غیاب و کنترل دسترسی مورد استفاده قرار گیرند. در سیستم های وابسته به متن، اعداد یا عبارت کلمه عبور بیان شده با نمونه ای از کلمات مشابه که به هنگام ثبت نام ذخیره شده بود، مقایسه می گردد و کاربر تایید یا رد می گردد . تکنولوژی مستقل از متن نیازی به بیان کلمه عبور خاصی ندارد بلکه ویژگی های صوتی منحصر به فرد شخص سخنران به هنگام صحبت تحلیل و سپس شناسایی می شود.

دستگاه حضور و غیاب تشخیص چهره

کاربردهای عملی تشخیص صدا و تشخیص گفتار

فناوری تشخیص صدا و تشخیص گفتار در تمام دستگاه ها در ابتدا نیازمند یک میکروفون برای شنیدن است. احتمالا شما اپلیکیشن تشخیص صدا در تلفن همراه خود دارید. در گوشی های اندروید اپلیکیشن OK Google و در ویندوز 10 برنامه Cortana شرکت مایکروسافت می توانند جستجو و وظایف اصلی را بر اساس فرمان صوتی انجام دهند.(مانند پخش کردن موزیک، برقراری تماس تلفنی، جستجوی اینترنتی و...)
جهت حفاظت و دسترسی فیزیکی نیز می توان از تکنولوژی تشخیص گفتار استفاده کرد، به عنوان مثال برای ورود کارکنان به قسمت انبار یا آزمایشگاهها کاربرانی که قبلا هویت خود را با فناوری تشخیص گفتار ثبت نموده اند، اکنون می توانند از مکان هایی که در پروفایل شان تعریف شده است به آسانی تردد نمایند. احراز هویت با شناسایی گفتار همراه با GPS برای ردیابی نگهبانان امنیتی جهت اطمینان از اینکه واقعا سر پست خود هستند و شخص دیگری به جای آنها حاضر نشده است، بسیار مورد استفاده می باشد.
اپلیکیشن بانکی USAA از تشخیص چهره و تشخیص صدا استفاده می کند تا شرایط آسان و در عین حال امنی را برای مشتریان فراهم نماید که در این میان فناوری تشخیص گفتار قدرت بالایی در تشخیص زودهنگام نسبت به سایر عامل های شناسایی تشخیص هویت دارد.
از آنجایی که کاربرد تمام انواع بیومتریک در حال افزایش است، احراز هویت مبتنی بر صدا یک رویکردی است که به نظر می رسد کاربران در مقابل این فناوری مقاومت کمتری نسبت به سایر تکنولوژی ها نشان می دهند زیرا این فناوری بدون تماس بوده و کاربران بسیار آسان با آن ارتباط برقرار می کنند.
به رسمیت شناختن صدا جهت احراز هویت به طور چشمگیری در مرکز تماس(Call Center) نتایج خوبی در برداشته است. Swisscom، یکی از بزرگترین ارتباطات مخابراتی در سوئیس، به تازگی فناوری تشخیص گفتار را در مرکز تماس خود را راه اندازی نموده است.

چالش های پیش روی فناوری تشخیص گفتار

چالش های مختلفی بر دقت تشخیص گفتار تاثیر می گذارد. این چالش ها شامل نمونه های صوتی با کیفیت پایین و ضعیف هستند. همچنین تنوع در صدای کاربران به دلیل بیماری مانند سرما خوردگی و یا تغییرات خلق و خو، سر و صدای شدید پس زمینه به عنوان تماس گیرنده با سیستم گشت و نگهبانی جهت تایید هویت و تغییر در تکنولوژی انتقال تماس نظیر دیجیتال و آنالوگ، ارتقا به مدار و میکروفون و... از جمله مواردی است که می تواند بر تشخیص گفتار به هنگام شناسایی تاثیر گذارد.