صدای دیپ فیک Deepfake Voices

صدای دیپ فیک Deepfake Voices

Deepfakes، هم فناوری مورد استفاده برای ایجاد آن و هم نحوه استفاده مردم از آن، به موضوعی داغ تبدیل شده است که اغلب در مطبوعات منتشر می شود. این فناوری در را به روی موجی از راه حل های جدید و خلاقانه باز کرده است که بر بسیاری از صنایع تاثیر می گذارد. با این حال، پرسشهای جدی در مورد استفاده اخلاقی نیز ایجاد کرده است، که عمدتا ناشی از اخبار منفی و سواستفاده آشکار از فناوری است.

دیپ فیک به چه معناست؟ اگر به دنبال سر منشا اصلی معنای دیپ فیک باشید، از اینکه بدانید deep fake از دنیای Reddit آمده است، شگفت زده خواهید شد. در ابتدا کاربری این اصطلاح را ابداع کرد و از آن به عنوان نام خود استفاده کرد. امروزه، این کلمه به گونه ای تکامل یافته است که هر محتوایی را که به عنوان رسانه مصنوعی (فیلم، عکس و صدا) طبقه بندی می شود، در بر می گیرد. با استفاده از نوعی فناوری هوش مصنوعی به نام یادگیری عمیق Deep Learning، میتوانید تصویر یا ویدیویی ایجاد کنید که شباهت اصلی یک شخص را با دیگری عوض کند.

در اواخر دهه 90، یک مقاله دانشگاهی که مفهوم دیپ فیک را بررسی میکرد، برنامهای را ارائه داد که اولین نمونه از چیزی است که امروز آن را فناوری Deepfake می نامند. پس از انتشار این مقاله مطالعه در مورد این فناوری در اوایل دهه 2000 متوقف شد و از سال 2010 این تحقیقات مجددا افزایش یافت که عمدتا بر توسعه قابلیت های

فناوری تشخیص چهره
تمرکز داشت.

این موضوع با انتشار دو مقاله دیگر تغییر کرد، یکی در سال 2016 و دیگری در سال 2017 این مقالات با استفاده از سخت افزار درجه یک، قدرت ایجاد دیپ فیک را تایید کردند که این فناوری به سرعت به برنامه های حرفه ای و عملی تر تبدیل شد.

یکی از استفاده های برنامه دیپ فیک، تکرار یا شبیه سازی صدای یک فرد است که تکرار سرآشپز مشهور، مستندساز سفر و نویسنده آنتونی بودین بود که صدایش شبیهسازی شد و در مستندی درباره زندگیاش استفاده شد. در حالی که مردم می توانند از این فناوری برای احیای صداهایی که دیگر در میان ما نیستند استفاده کنند، این امر باعث ایجاد سوالات اخلاقی می شود.

صداهای Deepfake چیست؟

صدای Deepfake که شبیه سازی صدا یا صدای مصنوعی نیز نامیده می شود، از هوش مصنوعی برای تولید یک کلون از صدای یک فرد استفاده می کند. این فناوری به حدی پیشرفت کرده است که می تواند صدای انسان را با دقت بسیار زیادی در لحن و شباهت تکرار کند.

ایجاد صدای مصنوعی به رایانه‌های پیشرفته با کارت‌های گرافیکی قدرتمند، استفاده از قدرت محاسبات ابری نیاز دارد. با استفاده از سخت‌افزار محاسباتی قدرتمندتر، می‌توانید فرآیند رندر را تسریع کنید، که بسته به دستگاه شما ممکن است هفته‌ها، روزها تا ساعت‌ها طول بکشد.

برای شبیه سازی صدای یک نفر، باید داده های آموزشی برای ورودی مدل های هوش مصنوعی داشته باشید. این داده‌ها اغلب ویس ضبط شده اصلی هستند که نمونه‌ای عالی از صحبت کردن فرد مورد نظر را ارائه می‌دهند. هوش مصنوعی می‌تواند از این داده‌ها برای ارائه صدایی معتبر استفاده کند، که سپس می‌تواند برای گفتن هر چیزی که تایپ می‌کنید، تبدیل متن به گفتار text-to-speech یا گفتار به گفتار speech-to-speech استفاده ‌شود.

مطالب پیشنهادی

مطالب پربازدید