Корпус политик конфиденциальности веб-сервисов и устройств Интернета Вещей для анализа информированности субъектов персональных данных
Ключевые слова:
персональные данные, политики конфиденциальности, корпус документов, семантический анализ, латентное размещение ДирихлеАннотация
Информация о том, какие персональные данные собираются и обрабатываются различными устройствами и цифровыми сервисами, представлена в политиках конфиденциальности, однако, как показывают исследования, пользователи крайне редко их читают и, как следствие, не осознают, какие риски информационной безопасности, связанные с обработкой персональных данных, возникают. Решение проблемы повышения информированности субъектов персональных данных связано с разработкой методов поддержки принятия решений, которые представляют политики конфиденциальности в виде, более простом для понимания, например, в виде количественных оценок рисков и пиктограмм и позволяют принимать осознанные решения. Их разработка требует наличия структурированного и размеченного корпуса документов. В настоящей работе систематизируются корпусы политик конфиденциальности, находящиеся в открытом доступе, показываются их отличительные характеристики, такие как год создания, объем и наличие аннотаций. Также представлено описание нового корпуса документов, написанных на русском языке, даются результаты структурного и семантического анализа собранных политик безопасности, и выполняется сравнение с корпусом политик конфиденциальности, написанных на английском языке. Показано, что описание сценариев хранения, сбора и обработки данных в документах на русском языке составляет всего 25% объема текста документа, что может говорить об отсутствии деталей о том, какие типы данных собираются, какие механизмы для сбора используются, и каковы сроки их хранения, что влияет на “прозрачность” использования персональных данных.
Литература
2. Американские власти оштрафовали Avast за распространение персональных данных пользователей. URL: https://xakep.ru/2024/02/26/avast-ftc (дата обращения 20.05.2024).
3. Number of Internet of Things (IoT) connections worldwide from 2022 to 2023, with forecasts from 2024 to 2033. URL: https://www.statista.com/statistics/1183457/iot-connected-devices-worldwide (дата обращения 20.05.2024).
4. Самодолов А.П., Самодолова О.А., Николаенко Е.В. Особенности развития “умных домов” в России // Вестник ЮУрГУ. Серия: Строительство и архитектура. 2021. Т. 21. № 2. С. 78–85.
5. Отчет об уязвимостях в устройствах Интернета Вещей. URL: https://www.cnet.com/home/security/your-home-security-camera-could-be-hacked-so-treat-it-that-way (дата обращения 20.05.2024).
6. Mitigating Smart Meter Security Risk: A Privacy-preserving Approach. URL: https://eepower.com/technical-articles/mitigating-smart-meter-security-risk-a-privacy-preserving-approach/ (дата обращения 20.05.2024).
7. Alanazi F., Kim J., Cotilla-Sanchez E. Load Oscillating Attacks of Smart Grids: Vulnerability Analysis // IEEE Access. 2023. vol. 11. pp. 36538–36549. DOI: 10.1109/access.2023.3266249.
8. Steinfeld N. “I agree to the terms and conditions”: (How) do users read privacy policies online? An eye-tracking experiment // Computers in Human Behavior. 2016. vol. 55. part B. pp. 992–1000. DOI: 10.1016/j.chb.2015.09.038.
9. Karegar F., Pettersson J.S., Fischer-Hubner S. The Dilemma of User Engagement in Privacy Notices: Effects of Interaction Modes and Habituation on User Attention // ACM Transactions on Privacy and Security (TOPS). 2020. vol. 23. no. 1. pp. 1–38. DOI: 10.1145/3372296.
10. Регламент Европейского регулирования персональных данных. URL: http://data.europa.eu/eli/reg/2016/679/oj (дата обращения 20.05.2024).
11. Harkous H., Fawaz K, Lebret R, Schaub F, Shin KG, Aberer K. Polisis: automated analysis and presentation of privacy policies using deep learning // Proceedings of the 27th USENIX Security Symposium. 2018. pp. 531–548.
12. Novikova E., Doynikova E., Kotenko I. P2Onto: Making Privacy Policies Transparent // Computer Security, CyberICPS SECPRE ADIoT 2020, Proceedings of the International Workshop on Attacks and Defenses for Internet-of-Things. 2020. pp. 235–252.
13. Kuznetzov M., Novikova E. Towards application of text mining techniques to the analysis of the privacy policies // Proceedings of the 10th Mediterranean Conference on Embedded Computing. 2021. pp. 1–4. DOI: 10.1109/meco52532.2021.9460130.
14. Ahmad W., Chi J., Tian Y., Chang K.-W. PolicyQA: A Reading Comprehension Dataset for Privacy Policies // Proceedings of the Findings of the Association for Computational Linguistics (EMNLP). 2020. pp. 743–749.
15. Harkous H., et al. Polisis: automated analysis and presentation of privacy policies using deep learning // Proceedings of the 27th USENIX Conference on Security Symposium. 2018. pp. 531–548.
16. Zaeem R.N., German R.L., Barber K.S. PrivacyCheck: Automatic Summarization of Privacy Policies Using Data Mining // ACM Transactions on Internet Technology. 2018. vol. 18. vol. 4. DOI: 10.1145/3127519.
17. Kuznetsov M., et al. Privacy Policies of IoT Devices: Collection and Analysis // Sensors. 2022. vol. 22. no. 5. DOI: 10.3390/s22051838.
18. Правила защиты конфиденциальности детей в Интернете. URL: https://www.ftc.gov/legal-library/browse/rules/childrens-online-privacy-protection-rule-coppa (дата обращения 20.05.2024).
19. Palmirani M., Martoni M., Rossi A., Bartolini C., Robaldo L. Legal ontology for modelling GDPR concepts and norms // Legal Knowledge and Information Systems. Amsterdam: IOS Press. 2018. vol. 313. pp. 91–100. DOI: 10.3233/978-1-61499-935-5-91.
20. Pandit H.J., O’Sullivan D., Lewis D. An Ontology Design Pattern for Describing Personal Data in Privacy Policies // 9th Workshop on Ontology Design and Patterns. 2018. vol. 2195. pp. 29–39.
21. Oltramari A., Piraviperumal D., Schaub F., Wilson S., Cherivirala S., Norton T.B., Russel N.C., Story P., Reidenberg, Sadeh N. PrivOnto: a semantic framework for the analysis of privacy policies // Semantic Web. 2018. vol. 9. no. 2. pp. 185–203.
22. Cano-Benito J., Cimmino A., Garcia-Castro R. Toward the ontological modeling of smart contracts: A solidity use case // IEEE Access. 2021. vol. 9. pp. 140156–140172. DOI: 10.1109/access.2021.3115577.
23. Wilson Ah., et al. The Creation and Analysis of a Website Privacy Policy Corpus // Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. pp. 1330–1340. DOI: 10.18653/v1/P16-1126.
24. Zimmeck S., et al. MAPS: scaling privacy compliance analysis to a million apps // In Proceedings on Privacy Enhancing Technologies 2019. vol. 3. pp. 66–86. DOI: 10.2478/popets-2019-0037.
25. Kumar V.H., Iyengar R., Nisal N., Feng Y., Habib H., Story P., Cherivirala S., Nagan M., Cranor L., Wilson S., Schaud F., Sadeh N. Finding a Choice in a Haystack: Automatic Extraction of Opt-Out Statements from Privacy Policy Text // Proceedings of The Web Conference. 2020. pp. 1943–1954. DOI: 10.1145/3366423.3380262.
26. Hosseini M.B., Heaps J., Slavin R., Niu J., Breaux T. Ambiguity and Generality in Natural Language Privacy Policies // IEEE 29th International Requirements Engineering Conference (RE). 2021. pp. 70–81. DOI: 10.1109/RE51729.2021.00014.
27. Hosseini M.B., Breaux T., Slavin R., Niu J., Wang X. Analyzing Privacy Policies through Syntax-Driven Semantic Analysis of Information Types // Information and Software Technology Journal. 2021. vol. 138. DOI: 10.1016/j.infsof.2021.106608.
28. Веб-страница проекта Usable Privacy Policy. URL: https://usableprivacy.org (дата обращения 21.05.2024).
29. Веб-сайт Amazon Alexa. URL: https://www.alexa.com (дата обращения 22.05.2024).
30. Poplavska E., Norton T.B., Wilson S., Sadeh N. From Prescription to Description: Mapping the GDPR to a Privacy Policy Corpus Annotation Scheme // Proceedings of the 33rd International Conference on Legal Knowledge and Information Systems. 2020. pp. 243–246.
31. Веб-сайт сервиса Google Play. URL: https://play.google.com/store (дата обращения 24.05.2024).
32. Amos R., Acar G., Kshirsagar M., Narayanan A., Mayer J. Privacy Policies over Time: Curation and Analysis of a Million-Document Dataset // Proceedings of the Web Conference. 2021. pp. 2165–2176. DOI: 10.1145/3442381.3450048.
33. Zaeem R.N., Barber K.S. A Large Publicly Available Corpus of Website Privacy Policies Based on DMOZ // In Proceedings of the Eleventh ACM Conference on Data and Application Security and Privacy. 2021. pp. 143–148. DOI: 10.1145/3422337.3447827.
34. Веб-директория Curlie. URL: https://curlie.org (дата обращения 26.05.2024).
35. Srinath M., Wilson S., Giles C. Privacy at Scale: Introducing the PrivaSeer Corpus of Web Privacy Policies // Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. 2021. pp. 6829–6839. DOI: 10.18653/v1/2021.acl-long.532.
36. Веб-сайт Amazon. URL: https://www.amazon.com (дата обращения 26.05.2024).
37. Веб-сайт Walmart. URL: https://www.walmart.com/ (дата обращения 28.05.2024).
38. Hamid A., Samidi H.R., Finin T., Pappachan P., Yus R. PrivacyLens: A Framework to Collect and Analyze the Landscape of Past, Present, and Future Smart Device Privacy Policies // arXiv pradprint arXiv.2308.05890. 2023.
39. Ravichander A., Black A., Wilson S., Norton T., Sadeh N. Question Answering for Privacy Policies: Combining Computational and Legal Perspectives // Proceedings of 2019 Conference on Empirical Methods in Natural Language Processing. 2019. pp. 4947–4958. DOI: 10.18653/v1/D19-1500.
40. Веб-сайт аналитической площадки Mail.ru Top. https://top.mail.ru (дата обращения 02.06.2024).
41. Веб-сайт аналитической площадки Rambler Top-100. https://top100.rambler.ru (дата обращения 02.06.2024).
42. Политика безопасности компании Huawei. https://www.huawei.com/eu/privacy-policy (дата обращения 02.06.2024).
43. Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. 2003. vol. 3. pp. 993–1022.
44. Веб-сайт библиотеки NLTK. URL: https://www.nltk.org (дата обращения 02.06.2024).
Опубликован
Как цитировать
Раздел
Copyright (c) Михаил Дмитриевич Кузнецов, Евгения Сергеевна Новикова
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.
Авторы, которые публикуются в данном журнале, соглашаются со следующими условиями: Авторы сохраняют за собой авторские права на работу и передают журналу право первой публикации вместе с работой, одновременно лицензируя ее на условиях Creative Commons Attribution License, которая позволяет другим распространять данную работу с обязательным указанием авторства данной работы и ссылкой на оригинальную публикацию в этом журнале. Авторы сохраняют право заключать отдельные, дополнительные контрактные соглашения на неэксклюзивное распространение версии работы, опубликованной этим журналом (например, разместить ее в университетском хранилище или опубликовать ее в книге), со ссылкой на оригинальную публикацию в этом журнале. Авторам разрешается размещать их работу в сети Интернет (например, в университетском хранилище или на их персональном веб-сайте) до и во время процесса рассмотрения ее данным журналом, так как это может привести к продуктивному обсуждению, а также к большему количеству ссылок на данную опубликованную работу (Смотри The Effect of Open Access).