1. डेटा मास्किंग की अवधारणा
डेटा मास्किंग को डेटा मास्किंग के नाम से भी जाना जाता है। यह संवेदनशील डेटा जैसे मोबाइल फोन नंबर, बैंक कार्ड नंबर और अन्य जानकारी को बदलने, संशोधित करने या कवर करने की एक तकनीकी विधि है, जब हमने मास्किंग नियम और नीतियां दी हों। इस तकनीक का इस्तेमाल मुख्य रूप से संवेदनशील डेटा को अविश्वसनीय वातावरण में सीधे इस्तेमाल होने से रोकने के लिए किया जाता है।
डेटा मास्किंग सिद्धांत: डेटा मास्किंग को मूल डेटा विशेषताओं, व्यावसायिक नियमों और डेटा प्रासंगिकता को बनाए रखना चाहिए ताकि यह सुनिश्चित किया जा सके कि बाद के विकास, परीक्षण और डेटा विश्लेषण मास्किंग से प्रभावित न हों। मास्किंग से पहले और बाद में डेटा की स्थिरता और वैधता सुनिश्चित करें।
2. डेटा मास्किंग वर्गीकरण
डेटा मास्किंग को स्थैतिक डेटा मास्किंग (एसडीएम) और गतिशील डेटा मास्किंग (डीडीएम) में विभाजित किया जा सकता है।
स्थैतिक डेटा मास्किंग (एसडीएम): स्टेटिक डेटा मास्किंग के लिए उत्पादन वातावरण से अलगाव के लिए एक नए गैर-उत्पादन वातावरण डेटाबेस की स्थापना की आवश्यकता होती है। संवेदनशील डेटा को उत्पादन डेटाबेस से निकाला जाता है और फिर गैर-उत्पादन डेटाबेस में संग्रहीत किया जाता है। इस तरह, असंवेदनशील डेटा को उत्पादन वातावरण से अलग कर दिया जाता है, जो व्यावसायिक आवश्यकताओं को पूरा करता है और उत्पादन डेटा की सुरक्षा सुनिश्चित करता है।
डायनेमिक डेटा मास्किंग (DDM): इसका उपयोग आम तौर पर वास्तविक समय में संवेदनशील डेटा को असंवेदनशील बनाने के लिए उत्पादन वातावरण में किया जाता है। कभी-कभी, अलग-अलग स्थितियों में एक ही संवेदनशील डेटा को पढ़ने के लिए मास्किंग के विभिन्न स्तरों की आवश्यकता होती है। उदाहरण के लिए, अलग-अलग भूमिकाएँ और अनुमतियाँ अलग-अलग मास्किंग योजनाओं को लागू कर सकती हैं।
डेटा रिपोर्टिंग और डेटा उत्पाद मास्किंग अनुप्रयोग
ऐसे परिदृश्यों में मुख्य रूप से आंतरिक डेटा निगरानी उत्पाद या बिलबोर्ड, बाहरी सेवा डेटा उत्पाद और डेटा विश्लेषण पर आधारित रिपोर्ट, जैसे व्यवसाय रिपोर्ट और परियोजना समीक्षा शामिल हैं।
3. डेटा मास्किंग समाधान
सामान्य डेटा मास्किंग योजनाओं में शामिल हैं: अमान्यकरण, यादृच्छिक मान, डेटा प्रतिस्थापन, सममित एन्क्रिप्शन, औसत मान, ऑफसेट और राउंडिंग, आदि।
रद्द करना: अमान्यकरण का तात्पर्य संवेदनशील डेटा को एन्क्रिप्ट करना, काटना या छिपाना है। यह योजना आम तौर पर वास्तविक डेटा को विशेष प्रतीकों (जैसे *) से बदल देती है। ऑपरेशन सरल है, लेकिन उपयोगकर्ता मूल डेटा के प्रारूप को नहीं जान सकते हैं, जो बाद के डेटा अनुप्रयोगों को प्रभावित कर सकता है।
यादृच्छिक मान: यादृच्छिक मान संवेदनशील डेटा के यादृच्छिक प्रतिस्थापन को संदर्भित करता है (संख्याएँ अंकों को प्रतिस्थापित करती हैं, अक्षर अक्षरों को प्रतिस्थापित करते हैं, और वर्ण वर्णों को प्रतिस्थापित करते हैं)। यह मास्किंग विधि एक निश्चित सीमा तक संवेदनशील डेटा के प्रारूप को सुनिश्चित करेगी और बाद के डेटा अनुप्रयोग को सुविधाजनक बनाएगी। कुछ सार्थक शब्दों, जैसे लोगों और स्थानों के नाम के लिए मास्किंग शब्दकोशों की आवश्यकता हो सकती है।
डेटा प्रतिस्थापनडेटा प्रतिस्थापन शून्य और यादृच्छिक मानों को मास्क करने के समान है, सिवाय इसके कि विशेष वर्णों या यादृच्छिक मानों का उपयोग करने के बजाय, मास्किंग डेटा को एक विशिष्ट मान के साथ प्रतिस्थापित किया जाता है।
सममित एन्क्रिप्शनसममित एन्क्रिप्शन एक विशेष प्रतिवर्ती मास्किंग विधि है। यह एन्क्रिप्शन कुंजियों और एल्गोरिदम के माध्यम से संवेदनशील डेटा को एन्क्रिप्ट करता है। सिफरटेक्स्ट प्रारूप तार्किक नियमों में मूल डेटा के अनुरूप है।
औसतऔसत योजना का उपयोग अक्सर सांख्यिकीय परिदृश्यों में किया जाता है। संख्यात्मक डेटा के लिए, हम पहले उनके माध्य की गणना करते हैं, और फिर माध्य के चारों ओर असंवेदनशील मानों को यादृच्छिक रूप से वितरित करते हैं, इस प्रकार डेटा का योग स्थिर रहता है।
ऑफसेट और राउंडिंग: यह विधि डिजिटल डेटा को यादृच्छिक बदलाव द्वारा बदलती है। ऑफसेट राउंडिंग डेटा की सुरक्षा को बनाए रखते हुए रेंज की अनुमानित प्रामाणिकता सुनिश्चित करती है, जो पिछली योजनाओं की तुलना में वास्तविक डेटा के करीब है, और बड़े डेटा विश्लेषण के परिदृश्य में इसका बहुत महत्व है।
अनुशंसित मॉडल "एमएल-एनपीबी-5660" डेटा मास्किंग के लिए
4. आमतौर पर इस्तेमाल की जाने वाली डेटा मास्किंग तकनीकें
(1). सांख्यिकीय तकनीक
डेटा नमूनाकरण और डेटा एकत्रीकरण
- डेटा नमूनाकरण: डेटा सेट के प्रतिनिधि उपसमूह का चयन करके मूल डेटा सेट का विश्लेषण और मूल्यांकन, डी-आइडेंटिफिकेशन तकनीकों की प्रभावशीलता में सुधार करने के लिए एक महत्वपूर्ण तरीका है।
- डेटा एकत्रीकरण: सांख्यिकीय तकनीकों (जैसे योग, गणना, औसत, अधिकतम और न्यूनतम) के संग्रह के रूप में माइक्रोडेटा में विशेषताओं पर लागू किया जाता है, परिणाम मूल डेटा सेट में सभी रिकॉर्ड का प्रतिनिधि होता है।
(2). क्रिप्टोग्राफी
क्रिप्टोग्राफी असंवेदनशीलता को कम करने या असंवेदनशीलता की प्रभावशीलता को बढ़ाने का एक सामान्य तरीका है। विभिन्न प्रकार के एन्क्रिप्शन एल्गोरिदम अलग-अलग असंवेदनशीलता प्रभाव प्राप्त कर सकते हैं।
- नियतात्मक एन्क्रिप्शन: एक गैर-यादृच्छिक सममित एन्क्रिप्शन। यह आमतौर पर आईडी डेटा को संसाधित करता है और आवश्यकता पड़ने पर सिफरटेक्स्ट को मूल आईडी में डिक्रिप्ट और पुनर्स्थापित कर सकता है, लेकिन कुंजी को ठीक से संरक्षित करने की आवश्यकता होती है।
- अपरिवर्तनीय एन्क्रिप्शन: हैश फ़ंक्शन का उपयोग डेटा को प्रोसेस करने के लिए किया जाता है, जिसका उपयोग आमतौर पर आईडी डेटा के लिए किया जाता है। इसे सीधे डिक्रिप्ट नहीं किया जा सकता है और मैपिंग रिलेशनशिप को सहेजा जाना चाहिए। इसके अलावा, हैश फ़ंक्शन की विशेषता के कारण, डेटा टकराव हो सकता है।
- होमोमोर्फिक एन्क्रिप्शन: सिफरटेक्स्ट होमोमोर्फिक एल्गोरिथ्म का उपयोग किया जाता है। इसकी विशेषता यह है कि डिक्रिप्शन के बाद सिफरटेक्स्ट ऑपरेशन का परिणाम प्लेनटेक्स्ट ऑपरेशन के समान ही होता है। इसलिए, इसका उपयोग आमतौर पर संख्यात्मक फ़ील्ड को संसाधित करने के लिए किया जाता है, लेकिन प्रदर्शन कारणों से इसका व्यापक रूप से उपयोग नहीं किया जाता है।
(3). सिस्टम टेक्नोलॉजी
दमन प्रौद्योगिकी उन डेटा आइटमों को हटा देती है या छिपा देती है जो गोपनीयता सुरक्षा को पूरा नहीं करते, लेकिन उन्हें प्रकाशित नहीं करती।
- मास्किंग: यह विशेषता मान को मास्क करने के लिए सबसे आम विसंवेदनशीलता विधि को संदर्भित करता है, जैसे कि प्रतिद्वंद्वी संख्या, आईडी कार्ड को तारांकन चिह्न के साथ चिह्नित किया जाता है, या पता काट दिया जाता है।
- स्थानीय दमन: विशिष्ट विशेषता मानों (कॉलम) को हटाने, गैर-आवश्यक डेटा फ़ील्ड को हटाने की प्रक्रिया को संदर्भित करता है;
- रिकॉर्ड दमन: विशिष्ट रिकॉर्ड (पंक्तियों) को हटाने, गैर-आवश्यक डेटा रिकॉर्ड को हटाने की प्रक्रिया को संदर्भित करता है।
(4). छद्म नाम प्रौद्योगिकी
स्यूडोमैनिंग एक डी-आइडेंटिफिकेशन तकनीक है जो प्रत्यक्ष पहचानकर्ता (या अन्य संवेदनशील पहचानकर्ता) को बदलने के लिए छद्म नाम का उपयोग करती है। छद्म नाम तकनीक प्रत्यक्ष या संवेदनशील पहचानकर्ताओं के बजाय प्रत्येक व्यक्तिगत सूचना विषय के लिए अद्वितीय पहचानकर्ता बनाती है।
- यह मूल आईडी के अनुरूप स्वतंत्र रूप से यादृच्छिक मान उत्पन्न कर सकता है, मैपिंग तालिका को सहेज सकता है, और मैपिंग तालिका तक पहुंच को सख्ती से नियंत्रित कर सकता है।
- आप छद्म नाम बनाने के लिए एन्क्रिप्शन का भी उपयोग कर सकते हैं, लेकिन डिक्रिप्शन कुंजी को ठीक से रखने की आवश्यकता है;
इस प्रौद्योगिकी का उपयोग बड़ी संख्या में स्वतंत्र डेटा उपयोगकर्ताओं के मामले में व्यापक रूप से किया जाता है, जैसे कि ओपन प्लेटफॉर्म परिदृश्य में ओपनआईडी, जहां विभिन्न डेवलपर्स एक ही उपयोगकर्ता के लिए अलग-अलग ओपनआईडी प्राप्त करते हैं।
(5). सामान्यीकरण तकनीक
सामान्यीकरण तकनीक एक डी-आइडेंटिफिकेशन तकनीक को संदर्भित करती है जो डेटा सेट में चयनित विशेषताओं की बारीकियों को कम करती है और डेटा का अधिक सामान्य और सारगर्भित विवरण प्रदान करती है। सामान्यीकरण तकनीक को लागू करना आसान है और यह रिकॉर्ड-स्तर के डेटा की प्रामाणिकता की रक्षा कर सकती है। इसका उपयोग आमतौर पर डेटा उत्पादों या डेटा रिपोर्ट में किया जाता है।
- राउंडिंग: इसमें चयनित विशेषता के लिए राउंडिंग बेस का चयन करना शामिल है, जैसे ऊपर या नीचे फोरेंसिक, जिसके परिणामस्वरूप 100, 500, 1K और 10K परिणाम प्राप्त होते हैं
- शीर्ष और तल कोडिंग तकनीक: सीमा से ऊपर (या नीचे) मानों को शीर्ष (या तल) स्तर का प्रतिनिधित्व करने वाली सीमा से बदलें, जिससे "X से ऊपर" या "X से नीचे" परिणाम प्राप्त होगा
(6). यादृच्छिकीकरण तकनीक
एक तरह की डी-आइडेंटिफिकेशन तकनीक के रूप में, रैंडमाइजेशन तकनीक रैंडमाइजेशन के माध्यम से किसी विशेषता के मूल्य को संशोधित करने को संदर्भित करती है, ताकि रैंडमाइजेशन के बाद का मूल्य मूल वास्तविक मूल्य से अलग हो। यह प्रक्रिया एक हमलावर की उसी डेटा रिकॉर्ड में अन्य विशेषता मूल्यों से एक विशेषता मूल्य प्राप्त करने की क्षमता को कम करती है, लेकिन परिणामी डेटा की प्रामाणिकता को प्रभावित करती है, जो उत्पादन परीक्षण डेटा के साथ आम है।
पोस्ट करने का समय: सितम्बर-27-2022