
La technologie de filtrage de la parole équilibre la confidentialité et l’utilité dans les appareils intelligents
Crédit: Domaine public UNSPLASH / CC0
Le son est une puissante source d’informations. En formant des algorithmes pour identifier des signatures sonores distinctes, le son peut révéler ce qu’une personne fait, qu’il s’agisse de cuisiner, d’aspirateur ou de laver la vaisselle. Et bien qu’il soit précieux dans certains contextes, l’utilisation du son pour identifier les activités s’accompagne de problèmes de confidentialité, car les microphones peuvent révéler des informations sensibles.
Pour permettre la détection audio sans compromettre la vie privée, les chercheurs de l’Université Carnegie Mellon ont développé un filtre à disque, appelé Kirigami, qui peut détecter et supprimer des segments de discours humains collectés par des capteurs audio avant d’être utilisés pour la reconnaissance des activités.
“Les données contenues dans le son peuvent aider à alimenter des applications précieuses telles que la reconnaissance des activités, la surveillance de la santé et même la détection de l’environnement. Cependant, ces données peuvent également être utilisées pour envahir la vie privée des gens”, a déclaré Sudershan Boovaraghavan, qui a obtenu son doctorat. du Département des systèmes de logiciels et de sociétés (S3D) à l’École d’informatique de CMU. “Kirigami peut être installé sur une variété de capteurs avec un microphone déployé sur le terrain pour filtrer la parole avant que les données ne soient envoyées du capteur, protégeant ainsi la vie privée des gens.”
De nombreuses techniques existantes pour préserver la confidentialité dans la détection audio impliquent de modifier ou de transformer les données, notamment certaines fréquences du spectre audio ou la formation de l’ordinateur pour ignorer la parole humaine. Bien que ces méthodes soient assez efficaces pour rendre les conversations indéchiffrables pour l’homme, l’IA générative a des questions compliquées. Des programmes de reconnaissance vocale comme Whisper by Openai peuvent reconstituer des fragments de conversations à partir d’audio traité qui étaient autrefois impénératifs.
“Compte tenu de la grande quantité de données que ces modèles ont, certaines des techniques antérieures laisseraient suffisamment d’informations résiduelles, de petits extraits, qui peuvent aider à récupérer une partie du contenu de la parole”, a déclaré Yuvraj Agarwal, professeur agrégé de S3D, du Human-Computer Institute Institute (HCII) et du Département de génie électrique et informatique au Collège d’ingénierie. “Kirigami peut empêcher ces modèles d’avoir accès à ces extraits.”
Dans le monde d’aujourd’hui, des appareils comme les haut-parleurs intelligents qui hiérarchisent l’utilité à la vie privée peuvent essentiellement écouter tout ce que les gens disent. Bien que l’option la plus agressive de préservation de la confidentialité soit d’éviter d’utiliser des microphones, une telle action empêcherait les gens de récolter les avantages d’un milieu de détection puissant. Agarwal et ses collaborateurs voulaient trouver une solution pour les développeurs qui leur permettrait d’équilibrer la confidentialité et l’utilité.
L’intuition des chercheurs était de concevoir un filtre léger qui pouvait fonctionner même sur les microcontrôleurs les plus petits et les plus abordables. Ce filtre pourrait alors identifier et supprimer le contenu de la parole probable afin que les données sensibles ne quittent jamais l’appareil – ce qui est souvent appelé traitement sur le bord.
Le filtre fonctionne comme un simple classificateur binaire pour savoir s’il y a un discours dans l’audio. L’équipe a conçu le filtre en analysant empiriquement le taux de reconnaissance du contenu de la parole divulgués à partir de modèles de reconnaissance vocale automatiques basés sur un apprentissage en profondeur.
Kirigami équilibre également à quel point il supprime de manière agressive le contenu vocal possible avec un seuil configurable. Avec un seuil agressif, le filtre privilégie la suppression de la parole, mais peut également couper un audio de non-super-espèce qui pourrait être utile pour d’autres applications. Avec un seuil moins agressif, le filtre permet à plus de sons environnementaux et d’activité de passer pour de meilleures valeurs d’application, mais augmente le risque qu’un contenu lié à la parole le rend au-delà du capteur.
“Kirigami supprime la majeure partie du contenu de la parole, mais pas les autres sons ambiants qui vous soucient de la reconnaissance des activités”, a déclaré Haozhe Zhou, un doctorant S3D qui a dirigé le projet avec Boovaraghavan. “Vous pouvez toujours le coupler avec des techniques antérieures pour vous donner une confidentialité supplémentaire.”
Les chercheurs explorent actuellement de nombreuses applications utiles pour la détection des activités. Par exemple, Mayank Goel, professeur agrégé de S3D et du HCII, utilise la détection de l’audio pour rappeler aux personnes vivant avec la démence des tâches quotidiennes, surveiller les enfants atteints d’un trouble de déficit / hyperactivité pour l’attention pour les anomalies comportementales et évaluer les étudiants pour des signes de dépression.
“Ce ne sont que des exemples qui se font dans nos laboratoires”, a déclaré Goel. “Vous trouverez des scénarios similaires dans le monde entier où vous avez besoin de données non invasives de la personne sur sa vie quotidienne.”
Alors que l’intérêt pour l’infrastructure domestique intelligente et l’Internet des choses continue de croître, l’équipe estime que les développeurs pourraient facilement modifier Kirigami pour répondre à leurs besoins de confidentialité uniques.
Des articles détaillant Kirigami sont apparus à la fois dans les actes de l’ACM sur les technologies interactives, mobiles, portables et omniprésentes et ACM Mobicom ’24: Actes de la 30e conférence internationale annuelle sur l’informatique et le réseautage mobiles.
Plus d’informations:
Haozhe Zhou et al, filtrage de la parole à disposition pour la reconnaissance de l’activité acoustique préservant la vie privée, Actes de la 30e conférence internationale annuelle sur l’informatique et le réseautage mobiles (2024). Doi: 10.1145 / 3636534.3698865
Sudershan Boovaraghavan et al, Kirigami: filtrage de la parole légers pour la reconnaissance d’activité préservant la confidentialité à l’aide de l’audio, Actes de l’ACM sur les technologies interactives, mobiles, portables et omniprésentes (2024). Doi: 10.1145 / 3643502
Fourni par l’Université Carnegie Mellon
Citation: Protection de la confidentialité audio: la technologie de filtrage de la parole équilibre la confidentialité et l’utilité dans les appareils intelligents (2025, 21 avril) récupéré le 21 avril 2025 de
Ce document est soumis au droit d’auteur. Outre toute émission équitable aux fins d’études privées ou de recherche, aucune pièce ne peut être reproduite sans l’autorisation écrite. Le contenu est fourni uniquement à des fins d’information.