Void، راهکاری برای جلوگیری از فریب دستیارهای صوتی
مجرمان میتوانند صدای ضبط شده یک فرد را هنگام صحبت با دستیارهای صوتی مثل الکسا یا دستیار گوگل (Google Assistant) ضبط کنند و بعداً آن صدا را بازپخش کنند و خود را به جای فرد اصلی جا بزنند.
Void، راهکاری برای جلوگیری از فریب دستیارهای صوتی
مجرمان میتوانند صدای ضبط شده یک فرد را هنگام صحبت با دستیارهای صوتی مثل الکسا یا دستیار گوگل (Google Assistant) ضبط کنند و بعداً آن صدا را بازپخش کنند و خود را به جای فرد اصلی جا بزنند. علاوه بر این، آنها میتوانند تکههای صحبت فرد را به هم بچسبانند تا اشخاص ثالث را فریب دهند. |
تیم Data61 از موسسه CSIRO استرالیا با همکاری شرکت سامسونگ و دانشگاه Sungkyunkwan کره جنوبی، راهکاری را برای تشخیص صدای واقعی از ضبط شده ابداع کردهاند که در مقالهای منتشر شده است. این راهکار که Void (Voice liveliness detection، تشخیص زنده بودن صدا) نامگذاری شده را میتوان داخل نرمافزار گوشی هوشمند یا دستیار صوتی تعبیه کرد. این فناوری، تفاوتهای بین توان طیفی صدای زنده انسان و صدای پخش شده از طریق بلندگو را شناسایی میکند. افراد از دستیارهای صوتی برای خرید آنلاین، برقراری تماس تلفنی، ارسال پیام، کنترل وسایل خانه هوشمند و دسترسی به خدمات بانکی استفاده میکنند. محمد اعجاز احمد، محقق امنیت سایبری Data61 و نویسنده اول مقاله میگوید با رواج فناوریهای صوتی در زندگی روزمره، تکنولوژیهای حافظ محرمانگی هر روز اهمیت بیشتری در بهبود حریم خصوصی و امنیت مصرفکننده پیدا میکنند. وی میافزاید: «هرچند جعل صدا از سادهترین حملات به حساب میآید، زیرا تنها شامل ضبط کردن صدای قربانی است، اما تشخیص آن بسیار دشوار است، چرا که صدای ضبط شده خصوصیات بسیار مشابهی با صدای زنده قربانی دارد. Void تکنولوژی است که بازی را تغییر میدهد و امکان تشخیص کارا و دقیق را فراهم میکند تا مانع سوء استفاده از دستورات صوتی ضبط شده افراد گردد». تکنیکهای موجود تشخیص جعل صدا معمولاً از یادگیری عمیق استفاده میکنند اما Void از طیف نگار یا اسپکتروگرام صوت بهره میبرد. طیف نگار یک نمودار بصری است که طیف فرکانسهای صدا را در بازههای زمانی مختلف نشان میدهد. این تکنیک، خروجی بسیار دقیقی تولید میکند که حمله را 8 بار سریعتر و با 153 برابر حافظه کمتر از روشهای یادگیری عمیق تشخیص میدهد و در نتیجه راهکار سبک و قابل قبولی برای استفاده در تجهیزات هوشمند است. Void روی دو مجموعه دادگان آزمایش شده است، یکی از آنها توسط خود نویسندگان مقاله ساخته شده و دیگری AVSpoof 2017 نام دارد. دقت روی این دو مجموعه به ترتیب 99.7 و 88.4 درصد است. معیار AUC بر روی آنها نیز به ترتیب 0.99 و 0.94 است. Adnene Guabtni دانشمند ارشد Data61 برای حفاظت از دادهها در هنگام کار با دستیارهای صوتی نکات زیر را یادآور میشود:
منبع: CSIRO و Void: A fast and light voice liveness detection system |