فناوری تشخیص گفتار و تشخیص صدا

فناوری تشخیص گفتار و تشخیص صدا

تکنولوژی تشخیص صدا یا تشخیص گفتار ؟

تشخیص صدا و گفتار فناوری های مبتنی بر نرم افزار و تکنولوژی بدون تماس هستند. به همین دلیل در بین سایر تکنولوژی های بیومتریک، به عنوان آسان ترین عامل شناسایی هویت شناخته شده است. تشخیص صدا و گفتار دو روش مجزا از هم هستند که به دلیل وابستگی به صدای انسان، به میزان قابل توجهی از جهاتی با یکدیگر شباهت دارند.

اولین قدم برای شناخت این تکنولوژی بیومتریک درک تفاوت اصلی بین تشخیص صدا و گفتار است. توانایی سیستم برای پردازش "آنچه که یک نفر می گوید" تشخیص صدا و "تایید شخص سخنران" مبتنی بر فیزیولوژیک و رفتار صوتی او جهت تایید هویت، تشخیص گفتار نامیده می شود. در حقیقت، تشخیص گفتار یک تکنولوژی رابط کاربری است که با اندازه گیری صدای کاربر هنگام صحبت کردن، می تواند فاکتورهای بیولوژیکی یکتایی را با هم ترکیب نموده و صدای منحصر به فردی را تولید و ذخیره نماید.

بر اساس نظرسنجی Unisys(شرکت جهانی در حوزه فناوری اطلاعات)، فناوری های بیومتریک بر اساس اولویت مصرف کنندگان عبارتند از: تشخیص صدا (32٪)، اثر انگشت (27٪)، اسکن چهره (20٪)، هندسه دست (12٪) و اسکن عنبیه چشم (10٪) است. این رتبه بندی تایید می کند که افراد هنگام انتخاب یک تکنولوژی بیومتریک راحتی و آشنایی را ترجیح می دهند.

فناوری تشخیص گفتار در حال تغییر دادن دنیای پیرامون ما است. با افزایش فناوری اینترنت اشیا، تشخیص گفتار جایگاه مناسبی پیدا کرده است. در جهان امروز تلفن های همراه به طور فزاینده ای به یکی از رابط های حیاتی تبدیل شده است. تکنولوژی تشخیص صدا همچنین فرمان صوتی نیز نامیده می شود زیرا به کاربران اجازه می دهد تا با صحبت کردن با فناوری ارتباط برقرار کرده و آنها را کنترل نمایند. امروزه استفاده از فناوری تشخیص صدا به قدری در دستگاه های تلفن همراه رایج شده است که کار با آن خیلی آسانتر از قبل فراهم شده است. تکنولوژی تشخیص گفتار فرصت های شگفت انگیزی برای سازمان ها ایجاد می کند و نسبت به سایر روش های از درجه اطمینان بالاتری برخوردار است.

فناوری تشخیص گفتار چگونه عمل می کند؟

فناوری تشخیص گفتار پس از ساخت یک مدل دیجیتال از صدای فرد می تواند به عنوان الگویی از صدای فرد ذخیره شود. واژه ها و عبارات به انواع مختلف الگوهای فرکانس تقسیم می شوند که با یکدیگر ترکیب می شوند و روش منحصر بفردی از صحبت کردن را توصیف می کنند. این الگوها در پایگاه داده جهت تطبیق با دیگر انواع داده های بیومتریک ذخیره می شوند.

این سیستم ها می توانند وابسته به متن، یا مستقل از متن باشند و یا گاهی ترکیبی از آنها. به عنوان مثال می توانند جهت شناسایی پرسنل در دستگاه های کنترل دسترسی و حضور و غیاب مورد استفاده قرار گیرند. در سیستم های وابسته به متن، اعداد یا عبارت کلمه عبور بیان شده با نمونه ای از کلمات مشابه که به هنگام ثبت نام ذخیره شده بود، مقایسه می گردد و کاربر تایید یا رد می گردد . تکنولوژی مستقل از متن نیازی به بیان کلمه عبور خاصی ندارد بلکه ویژگی های صوتی منحصر به فرد شخص سخنران به هنگام صحبت تحلیل و سپس شناسایی می شود.

کاربردهای عملی تشخیص صدا و گفتار:

  • فناوری تشخیص صدا و گفتار در تمام دستگاه ها در ابتدا نیازمند یک میکروفون برای شنیدن است. احتمالا شما اپلیکیشن تشخیص صدا در تلفن همراه خود دارید. در گوشی های اندروید اپلیکیشن OK Google و در ویندوز10 برنامه Cortana شرکت مایکروسافت می توانند جستجو و وظایف اصلی را بر اساس فرمان صوتی انجام دهند.(مانند پخش کردن موزیک، برقراری تماس تلفنی، جستجوی اینترنتی و...)
  • جهت حفاظت و دسترسی فیزیکی نیز می توان از تکنولوژی تشخیص گفتار استفاده کرد، به عنوان مثال برای ورود کارکنان به قسمت انبار یا آزمایشگاهها کاربرانی که قبلا هویت خود را با فناوری تشخیص گفتار ثبت نموده اند، اکنون می توانند از مکان هایی که در پروفایلشان تعریف شده است به آسانی تردد نمایند. تایید هویت با شناسایی گفتار همراه با GPS برای ردیابی نگهبانان امنیتی جهت اطمینان از اینکه واقعا سر پست خود هستند و شخص دیگری به جای آنها حاضر نشده است، بسیار مورد استفاده می باشد.
  • اپلیکیشن بانکی USAA از تشخیص چهره و تشخیص صدا استفاده می کند تا شرایط آسان و در عین حال امنی را برای مشتریان فراهم نماید که در این میان فناوری تشخیص گفتار قدرت بالایی در تشخیص زودهنگام نسبت به سایر عامل های شناسایی تشخیص هویت دارد.
  • از آنجایی که کاربرد تمام انواع بیومتریک در حال افزایش است، احراز هویت مبتنی بر صدا یک رویکردی است که به نظر می رسد کاربران در مقابل این فناوری مقاومت کمتری نسبت به سایر تکنولوژی ها نشان می دهند زیرا این فناوری بدون تماس بوده و کاربران بسیار آسان با آن ارتباط برقرار می کنند.
  • به رسمیت شناختن صدا جهت احراز هویت به طور چشمگیری در مرکز تماس(Call Center) نتایج خوبی در برداشته است. Swisscom، یکی از بزرگترین ارتباطات مخابراتی در سوئیس، به تازگی فناوری تشخیص گفتار را در مرکز تماس خود را راه اندازی نموده است.

چالش های پیش روی فناوری تشخیص گفتار:

چالش های مختلفی بر دقت تشخیص گفتار تاثیر می گذارد. این چالش ها شامل نمونه های صوتی با کیفیت پایین و ضعیف هستند. همچنین تنوع در صدای کاربران به دلیل بیماری مانند سرما خوردگی و یا تغییرات خلق و خو، سر و صدای شدید پس زمینه به عنوان تماس گیرنده با سیستم گشت و نگهبانی جهت تایید هویت و تغییر در تکنولوژی انتقال تماس نظیر دیجیتال و آنالوگ، ارتقا به مدار و میکروفون و... از جمله مواردی است که می تواند بر تشخیص گفتار به هنگام شناسایی تاثیر گذارد.

سایر مقالات: