Void، راهکاری برای جلوگیری از فریب دستیارهای صوتی

مجرمان می‌توانند صدای ضبط شده یک فرد را هنگام صحبت با دستیارهای صوتی مثل الکسا یا دستیار گوگل (Google Assistant) ضبط کنند و بعداً آن صدا را بازپخش کنند و خود را به جای فرد اصلی جا بزنند.

1401/01/06 - 21:59
تعداد بازدید: 998

Void، راهکاری برای جلوگیری از فریب دستیارهای صوتی

مجرمان می‌توانند صدای ضبط شده یک فرد را هنگام صحبت با دستیارهای صوتی مثل الکسا یا دستیار گوگل (Google Assistant) ضبط کنند و بعداً آن صدا را بازپخش کنند و خود را به جای فرد اصلی جا بزنند. علاوه بر این، آن‌ها می‌توانند تکه‌های صحبت فرد را به هم بچسبانند تا اشخاص ثالث را فریب دهند.

تیم Data61 از موسسه CSIRO استرالیا با همکاری شرکت سامسونگ و دانشگاه Sungkyunkwan کره جنوبی، راهکاری را برای تشخیص صدای واقعی از ضبط شده ابداع کرده‌اند که در مقاله‌ای منتشر شده است. این راهکار که Void (Voice liveliness detection، تشخیص زنده بودن صدا) نامگذاری شده را می‌توان داخل نرم‌افزار گوشی هوشمند یا دستیار صوتی تعبیه کرد. این فناوری، تفاوت‌های بین توان طیفی صدای زنده انسان و صدای پخش شده از طریق بلندگو را شناسایی می‌کند.

افراد از دستیارهای صوتی برای خرید آنلاین، برقراری تماس تلفنی، ارسال پیام، کنترل وسایل خانه هوشمند و دسترسی به خدمات بانکی استفاده می‌کنند. محمد اعجاز احمد، محقق امنیت سایبری Data61 و نویسنده اول مقاله می‌گوید با رواج فناوری‌های صوتی در زندگی روزمره، تکنولوژی‌های حافظ محرمانگی هر روز اهمیت بیشتری در بهبود حریم خصوصی و امنیت مصرف‌کننده پیدا می‌کنند.

وی می‌افزاید: «هرچند جعل صدا از ساده‌ترین حملات به حساب می‌آید، زیرا تنها شامل ضبط کردن صدای قربانی است، اما تشخیص آن بسیار دشوار است، چرا که صدای ضبط شده خصوصیات بسیار مشابهی با صدای زنده قربانی دارد. Void تکنولوژی است که بازی را تغییر می‌دهد و امکان تشخیص کارا و دقیق را فراهم می‌کند تا مانع سوء استفاده از دستورات صوتی ضبط شده افراد گردد».

تکنیک‌های موجود تشخیص جعل صدا معمولاً از یادگیری عمیق استفاده می‌کنند اما Void از طیف نگار یا اسپکتروگرام صوت بهره می‌برد. طیف نگار یک نمودار بصری است که طیف فرکانس‌های صدا را در بازه‌های زمانی مختلف نشان می‌دهد. این تکنیک، خروجی بسیار دقیقی تولید می‌کند که حمله را 8 بار سریع‌تر و با 153 برابر حافظه کمتر از روش‌های یادگیری عمیق تشخیص می‌دهد و در نتیجه راهکار سبُک و قابل قبولی برای استفاده در تجهیزات هوشمند است.

Void روی دو مجموعه دادگان آزمایش شده است، یکی از آن‌ها توسط خود نویسندگان مقاله ساخته شده و دیگری AVSpoof 2017 نام دارد. دقت روی این دو مجموعه به ترتیب 99.7 و 88.4 درصد است. معیار AUC بر روی آن‌ها نیز به ترتیب 0.99 و 0.94 است.

Adnene Guabtni دانشمند ارشد Data61 برای حفاظت از داده‌ها در هنگام کار با دستیارهای صوتی نکات زیر را یادآور می‌شود:

دستیار صوتی را طوری تنظیم کنید که با یک عمل فیزیکی مثل فشردن یک دکمه فعال شود.
در مورد تجهیزات همراه اطمینان حاصل کنید که دستیار صوتی تنها وقتی فعال شود که قفل دستگاه باز باشد.
هنگام خروج از خانه همه دستیارهای صوتی خانگی را خاموش کنید تا خطر حمله هنگامی که در خانه نیستید کاهش یابد.
به طور مرتب داده‌های صوتی خود را که توسط گوگل، اپل یا آمازون ذخیره شده‌اند پاک کنید.
از دستورات صوتی برای مورد خرید آنلاین یا مجازسنجی (authorization) استفاده نکنید. ممکن است مجرمان صدای شما را هنگام صدور دستور پرداخت ضبط کنند و بعداً آن را بازپخش کنند.

منبع: CSIRO و Void: A fast and light voice liveness detection system

کلمات کلیدی