1. डेटा मास्किंग की अवधारणा
डेटा मास्किंग को डेटा मास्किंग के रूप में भी जाना जाता है। जब हमने मास्किंग नियम और नीतियां दी हैं तो यह संवेदनशील डेटा जैसे मोबाइल फोन नंबर, बैंक कार्ड नंबर और अन्य जानकारी को परिवर्तित, संशोधित या कवर करने की एक तकनीकी विधि है। इस तकनीक का उपयोग मुख्य रूप से संवेदनशील डेटा को सीधे अविश्वसनीय वातावरण में उपयोग करने से रोकने के लिए किया जाता है।
डेटा मास्किंग सिद्धांत: डेटा मास्किंग को मूल डेटा विशेषताओं, व्यावसायिक नियमों और डेटा प्रासंगिकता को बनाए रखना चाहिए ताकि यह सुनिश्चित किया जा सके कि बाद के विकास, परीक्षण और डेटा विश्लेषण मास्किंग से प्रभावित नहीं होंगे। मास्किंग से पहले और बाद में डेटा की स्थिरता और वैधता सुनिश्चित करें।
2. डेटा मास्किंग वर्गीकरण
डेटा मास्किंग को स्टैटिक डेटा मास्किंग (एसडीएम) और डायनेमिक डेटा मास्किंग (डीडीएम) में विभाजित किया जा सकता है।
स्टेटिक डेटा मास्किंग (एसडीएम): स्थैतिक डेटा मास्किंग के लिए उत्पादन वातावरण से अलगाव के लिए एक नए गैर-उत्पादन वातावरण डेटाबेस की स्थापना की आवश्यकता होती है। संवेदनशील डेटा को उत्पादन डेटाबेस से निकाला जाता है और फिर गैर-उत्पादन डेटाबेस में संग्रहीत किया जाता है। इस तरह, असंवेदनशील डेटा को उत्पादन वातावरण से अलग किया जाता है, जो व्यावसायिक आवश्यकताओं को पूरा करता है और उत्पादन डेटा की सुरक्षा सुनिश्चित करता है।
डायनामिक डेटा मास्किंग (डीडीएम): इसका उपयोग आम तौर पर वास्तविक समय में संवेदनशील डेटा को असंवेदनशील बनाने के लिए उत्पादन वातावरण में किया जाता है। कभी-कभी, विभिन्न स्थितियों में एक ही संवेदनशील डेटा को पढ़ने के लिए विभिन्न स्तरों पर मास्किंग की आवश्यकता होती है। उदाहरण के लिए, अलग-अलग भूमिकाएँ और अनुमतियाँ अलग-अलग मास्किंग योजनाएँ लागू कर सकती हैं।
डेटा रिपोर्टिंग और डेटा उत्पाद मास्किंग एप्लिकेशन
ऐसे परिदृश्यों में मुख्य रूप से आंतरिक डेटा निगरानी उत्पाद या बिलबोर्ड, बाहरी सेवा डेटा उत्पाद और डेटा विश्लेषण पर आधारित रिपोर्ट, जैसे व्यावसायिक रिपोर्ट और परियोजना समीक्षा शामिल हैं।
3. डेटा मास्किंग समाधान
सामान्य डेटा मास्किंग योजनाओं में शामिल हैं: अमान्यकरण, यादृच्छिक मूल्य, डेटा प्रतिस्थापन, सममित एन्क्रिप्शन, औसत मूल्य, ऑफसेट और राउंडिंग, आदि।
रद्द करना: अमान्यकरण का तात्पर्य संवेदनशील डेटा के एन्क्रिप्शन, काट-छाँट या छिपाव से है। यह योजना आम तौर पर वास्तविक डेटा को विशेष प्रतीकों (जैसे *) से बदल देती है। ऑपरेशन सरल है, लेकिन उपयोगकर्ता मूल डेटा के प्रारूप को नहीं जान सकते हैं, जो बाद के डेटा अनुप्रयोगों को प्रभावित कर सकता है।
यादृच्छिक मूल्य: यादृच्छिक मान संवेदनशील डेटा के यादृच्छिक प्रतिस्थापन को संदर्भित करता है (संख्याएं अंकों को प्रतिस्थापित करती हैं, अक्षर अक्षरों को प्रतिस्थापित करते हैं, और वर्ण वर्णों को प्रतिस्थापित करते हैं)। यह मास्किंग विधि कुछ हद तक संवेदनशील डेटा के प्रारूप को सुनिश्चित करेगी और बाद के डेटा अनुप्रयोग की सुविधा प्रदान करेगी। कुछ सार्थक शब्दों, जैसे लोगों और स्थानों के नाम, के लिए मास्किंग शब्दकोशों की आवश्यकता हो सकती है।
डेटा प्रतिस्थापन: डेटा प्रतिस्थापन शून्य और यादृच्छिक मानों को मास्क करने के समान है, सिवाय इसके कि विशेष वर्णों या यादृच्छिक मानों का उपयोग करने के बजाय, मास्किंग डेटा को एक विशिष्ट मान से बदल दिया जाता है।
सममित एन्क्रिप्शन: सममित एन्क्रिप्शन एक विशेष प्रतिवर्ती मास्किंग विधि है। यह एन्क्रिप्शन कुंजी और एल्गोरिदम के माध्यम से संवेदनशील डेटा को एन्क्रिप्ट करता है। सिफरटेक्स्ट प्रारूप तार्किक नियमों में मूल डेटा के अनुरूप है।
औसत: औसत योजना का उपयोग अक्सर सांख्यिकीय परिदृश्यों में किया जाता है। संख्यात्मक डेटा के लिए, हम पहले उनके माध्य की गणना करते हैं, और फिर माध्य के चारों ओर असंवेदनशील मानों को यादृच्छिक रूप से वितरित करते हैं, इस प्रकार डेटा का योग स्थिर रहता है।
ऑफसेट और राउंडिंग: यह विधि रैंडम शिफ्ट द्वारा डिजिटल डेटा को बदल देती है। ऑफसेट राउंडिंग डेटा की सुरक्षा बनाए रखते हुए रेंज की अनुमानित प्रामाणिकता सुनिश्चित करती है, जो पिछली योजनाओं की तुलना में वास्तविक डेटा के करीब है, और बड़े डेटा विश्लेषण के परिदृश्य में इसका बहुत महत्व है।
अनुशंसित मॉडल "एमएल-एनपीबी-5660"डेटा मास्किंग के लिए
4. आमतौर पर उपयोग की जाने वाली डेटा मास्किंग तकनीकें
(1). सांख्यिकीय तकनीकें
डेटा नमूनाकरण और डेटा एकत्रीकरण
- डेटा नमूनाकरण: डेटा सेट के प्रतिनिधि उपसमूह का चयन करके मूल डेटा सेट का विश्लेषण और मूल्यांकन डी-आइडेंटिफिकेशन तकनीकों की प्रभावशीलता में सुधार करने के लिए एक महत्वपूर्ण तरीका है।
- डेटा एकत्रीकरण: माइक्रोडेटा में विशेषताओं पर लागू सांख्यिकीय तकनीकों (जैसे सारांश, गिनती, औसत, अधिकतम और न्यूनतम) के संग्रह के रूप में, परिणाम मूल डेटा सेट में सभी रिकॉर्ड का प्रतिनिधि है।
(2). क्रिप्टोग्राफी
क्रिप्टोग्राफी डिसेन्सिटाइजेशन की प्रभावशीलता को बढ़ाने या बढ़ाने के लिए एक सामान्य तरीका है। विभिन्न प्रकार के एन्क्रिप्शन एल्गोरिदम अलग-अलग डिसेन्सिटाइजेशन प्रभाव प्राप्त कर सकते हैं।
- नियतात्मक एन्क्रिप्शन: एक गैर-यादृच्छिक सममित एन्क्रिप्शन। यह आमतौर पर आईडी डेटा को संसाधित करता है और आवश्यक होने पर सिफरटेक्स्ट को मूल आईडी पर डिक्रिप्ट और पुनर्स्थापित कर सकता है, लेकिन कुंजी को ठीक से संरक्षित करने की आवश्यकता होती है।
- अपरिवर्तनीय एन्क्रिप्शन: हैश फ़ंक्शन का उपयोग डेटा को संसाधित करने के लिए किया जाता है, जिसका उपयोग आमतौर पर आईडी डेटा के लिए किया जाता है। इसे सीधे डिक्रिप्ट नहीं किया जा सकता है और मैपिंग संबंध को सहेजा जाना चाहिए। इसके अलावा, हैश फ़ंक्शन की सुविधा के कारण, डेटा टकराव हो सकता है।
- होमोमोर्फिक एन्क्रिप्शन: सिफरटेक्स्ट होमोमोर्फिक एल्गोरिदम का उपयोग किया जाता है। इसकी विशेषता यह है कि सिफरटेक्स्ट ऑपरेशन का परिणाम डिक्रिप्शन के बाद प्लेनटेक्स्ट ऑपरेशन के समान ही होता है। इसलिए, इसका उपयोग आमतौर पर संख्यात्मक क्षेत्रों को संसाधित करने के लिए किया जाता है, लेकिन प्रदर्शन कारणों से इसका व्यापक रूप से उपयोग नहीं किया जाता है।
(3). सिस्टम प्रौद्योगिकी
दमन तकनीक उन डेटा आइटमों को हटा देती है या उन्हें सुरक्षित कर देती है जो गोपनीयता सुरक्षा को पूरा नहीं करते हैं, लेकिन उन्हें प्रकाशित नहीं करते हैं।
- मास्किंग: यह विशेषता मान को छिपाने के लिए सबसे आम डिसेन्सिटाइजेशन विधि को संदर्भित करता है, जैसे कि प्रतिद्वंद्वी संख्या, आईडी कार्ड को तारांकन चिह्न से चिह्नित किया जाता है, या पता छोटा कर दिया जाता है।
- स्थानीय दमन: विशिष्ट विशेषता मानों (कॉलम) को हटाने, गैर-आवश्यक डेटा फ़ील्ड को हटाने की प्रक्रिया को संदर्भित करता है;
- रिकॉर्ड दमन: विशिष्ट रिकॉर्ड (पंक्तियों) को हटाने, गैर-आवश्यक डेटा रिकॉर्ड को हटाने की प्रक्रिया को संदर्भित करता है।
(4). छद्म नाम प्रौद्योगिकी
स्यूडोमैनिंग एक डी-आइडेंटिफिकेशन तकनीक है जो प्रत्यक्ष पहचानकर्ता (या अन्य संवेदनशील पहचानकर्ता) को बदलने के लिए छद्म नाम का उपयोग करती है। छद्म नाम तकनीकें प्रत्यक्ष या संवेदनशील पहचानकर्ताओं के बजाय प्रत्येक व्यक्तिगत सूचना विषय के लिए अद्वितीय पहचानकर्ता बनाती हैं।
- यह मूल आईडी के अनुरूप स्वतंत्र रूप से यादृच्छिक मान उत्पन्न कर सकता है, मैपिंग तालिका को सहेज सकता है, और मैपिंग तालिका तक पहुंच को सख्ती से नियंत्रित कर सकता है।
- आप छद्मनाम बनाने के लिए एन्क्रिप्शन का भी उपयोग कर सकते हैं, लेकिन डिक्रिप्शन कुंजी को ठीक से रखना होगा;
इस तकनीक का व्यापक रूप से बड़ी संख्या में स्वतंत्र डेटा उपयोगकर्ताओं के मामले में उपयोग किया जाता है, जैसे ओपन प्लेटफ़ॉर्म परिदृश्य में ओपनआईडी, जहां विभिन्न डेवलपर्स एक ही उपयोगकर्ता के लिए अलग-अलग ओपनआईडी प्राप्त करते हैं।
(5). सामान्यीकरण तकनीक
सामान्यीकरण तकनीक एक डी-आइडेंटिफिकेशन तकनीक को संदर्भित करती है जो डेटा सेट में चयनित विशेषताओं की ग्रैन्युलैरिटी को कम करती है और डेटा का अधिक सामान्य और अमूर्त विवरण प्रदान करती है। सामान्यीकरण तकनीक को लागू करना आसान है और रिकॉर्ड-स्तरीय डेटा की प्रामाणिकता की रक्षा कर सकता है। इसका उपयोग आमतौर पर डेटा उत्पादों या डेटा रिपोर्ट में किया जाता है।
- राउंडिंग: इसमें चयनित विशेषता के लिए राउंडिंग बेस का चयन करना शामिल है, जैसे ऊपर या नीचे की ओर फोरेंसिक, परिणाम 100, 500, 1 के, और 10 के
- ऊपर और नीचे कोडिंग तकनीक: दहलीज के ऊपर (या नीचे) मानों को शीर्ष (या नीचे) स्तर का प्रतिनिधित्व करने वाली सीमा से बदलें, जिससे "X से ऊपर" या "X से नीचे" का परिणाम प्राप्त होता है।
(6). यादृच्छिकीकरण तकनीक
एक प्रकार की डी-आइडेंटिफिकेशन तकनीक के रूप में, रैंडमाइजेशन तकनीक रैंडमाइजेशन के माध्यम से किसी विशेषता के मूल्य को संशोधित करने को संदर्भित करती है, ताकि रैंडमाइजेशन के बाद का मूल्य मूल वास्तविक मूल्य से अलग हो। यह प्रक्रिया एक हमलावर की उसी डेटा रिकॉर्ड में अन्य विशेषता मानों से एक विशेषता मान प्राप्त करने की क्षमता को कम कर देती है, लेकिन परिणामी डेटा की प्रामाणिकता को प्रभावित करती है, जो उत्पादन परीक्षण डेटा के साथ आम है।
पोस्ट करने का समय: सितम्बर-27-2022