1. डेटा मास्किंग की अवधारणा
डेटा मास्किंग को डेटा मास्किंग भी कहा जाता है। यह एक तकनीकी तरीका है जिससे संवेदनशील डेटा, जैसे मोबाइल फ़ोन नंबर, बैंक कार्ड नंबर और अन्य जानकारी, को मास्किंग नियमों और नीतियों के तहत परिवर्तित, संशोधित या छुपाया जा सकता है। इस तकनीक का इस्तेमाल मुख्य रूप से संवेदनशील डेटा को अविश्वसनीय वातावरण में सीधे इस्तेमाल होने से रोकने के लिए किया जाता है।
डेटा मास्किंग सिद्धांत: डेटा मास्किंग को मूल डेटा विशेषताओं, व्यावसायिक नियमों और डेटा प्रासंगिकता को बनाए रखना चाहिए ताकि यह सुनिश्चित हो सके कि आगे का विकास, परीक्षण और डेटा विश्लेषण मास्किंग से प्रभावित न हो। मास्किंग से पहले और बाद में डेटा की एकरूपता और वैधता सुनिश्चित करें।
2. डेटा मास्किंग वर्गीकरण
डेटा मास्किंग को स्थैतिक डेटा मास्किंग (एसडीएम) और गतिशील डेटा मास्किंग (डीडीएम) में विभाजित किया जा सकता है।
स्थैतिक डेटा मास्किंग (एसडीएम)स्थैतिक डेटा मास्किंग के लिए, उत्पादन परिवेश से अलग करने के लिए एक नए गैर-उत्पादन परिवेश डेटाबेस की स्थापना आवश्यक है। संवेदनशील डेटा को उत्पादन डेटाबेस से निकाला जाता है और फिर गैर-उत्पादन डेटाबेस में संग्रहीत किया जाता है। इस प्रकार, असंवेदनशील डेटा को उत्पादन परिवेश से अलग कर दिया जाता है, जो व्यावसायिक आवश्यकताओं को पूरा करता है और उत्पादन डेटा की सुरक्षा सुनिश्चित करता है।
डायनेमिक डेटा मास्किंग (DDM): इसका उपयोग आमतौर पर उत्पादन परिवेश में वास्तविक समय में संवेदनशील डेटा को असंवेदनशील बनाने के लिए किया जाता है। कभी-कभी, एक ही संवेदनशील डेटा को अलग-अलग परिस्थितियों में पढ़ने के लिए मास्किंग के विभिन्न स्तरों की आवश्यकता होती है। उदाहरण के लिए, अलग-अलग भूमिकाएँ और अनुमतियाँ अलग-अलग मास्किंग योजनाएँ लागू कर सकती हैं।
डेटा रिपोर्टिंग और डेटा उत्पाद मास्किंग अनुप्रयोग
ऐसे परिदृश्यों में मुख्य रूप से आंतरिक डेटा निगरानी उत्पाद या बिलबोर्ड, बाहरी सेवा डेटा उत्पाद और डेटा विश्लेषण पर आधारित रिपोर्ट, जैसे व्यवसाय रिपोर्ट और परियोजना समीक्षा शामिल हैं।
3. डेटा मास्किंग समाधान
सामान्य डेटा मास्किंग योजनाओं में शामिल हैं: अमान्यकरण, यादृच्छिक मान, डेटा प्रतिस्थापन, सममित एन्क्रिप्शन, औसत मान, ऑफसेट और राउंडिंग, आदि।
रद्द करनाअमान्यकरण का अर्थ है संवेदनशील डेटा को एन्क्रिप्ट करना, काटना या छिपाना। यह योजना आमतौर पर वास्तविक डेटा को विशेष प्रतीकों (जैसे *) से बदल देती है। यह प्रक्रिया सरल है, लेकिन उपयोगकर्ता मूल डेटा का प्रारूप नहीं जान सकते, जिससे बाद के डेटा अनुप्रयोगों पर असर पड़ सकता है।
यादृच्छिक मानयादृच्छिक मान संवेदनशील डेटा के यादृच्छिक प्रतिस्थापन को संदर्भित करता है (संख्याएँ अंकों की जगह लेती हैं, अक्षर अक्षरों की जगह लेते हैं, और वर्ण वर्णों की जगह लेते हैं)। यह मास्किंग विधि कुछ हद तक संवेदनशील डेटा के प्रारूप को सुनिश्चित करेगी और बाद में डेटा अनुप्रयोग को सुविधाजनक बनाएगी। कुछ सार्थक शब्दों, जैसे लोगों और स्थानों के नाम, के लिए मास्किंग शब्दकोशों की आवश्यकता हो सकती है।
डेटा प्रतिस्थापनडेटा प्रतिस्थापन शून्य और यादृच्छिक मानों को मास्क करने के समान है, सिवाय इसके कि विशेष वर्णों या यादृच्छिक मानों का उपयोग करने के बजाय, मास्किंग डेटा को एक विशिष्ट मान से प्रतिस्थापित किया जाता है।
सममित एन्क्रिप्शनसममित एन्क्रिप्शन एक विशेष प्रतिवर्ती मास्किंग विधि है। यह एन्क्रिप्शन कुंजियों और एल्गोरिदम के माध्यम से संवेदनशील डेटा को एन्क्रिप्ट करता है। सिफरटेक्स्ट प्रारूप तार्किक नियमों में मूल डेटा के अनुरूप होता है।
औसतऔसत योजना का प्रयोग अक्सर सांख्यिकीय परिदृश्यों में किया जाता है। संख्यात्मक आँकड़ों के लिए, हम पहले उनका माध्य ज्ञात करते हैं, और फिर विसंवेदित मानों को माध्य के चारों ओर यादृच्छिक रूप से वितरित करते हैं, इस प्रकार आँकड़ों का योग स्थिर रखते हैं।
ऑफसेट और राउंडिंगयह विधि डिजिटल डेटा को यादृच्छिक बदलाव द्वारा परिवर्तित करती है। ऑफसेट राउंडिंग डेटा की सुरक्षा बनाए रखते हुए रेंज की अनुमानित प्रामाणिकता सुनिश्चित करती है, जो पिछली योजनाओं की तुलना में वास्तविक डेटा के अधिक निकट है, और बड़े डेटा विश्लेषण के परिदृश्य में इसका बहुत महत्व है।
अनुशंसित मॉडल "एमएल-एनपीबी-5660" डेटा मास्किंग के लिए
4. आमतौर पर इस्तेमाल की जाने वाली डेटा मास्किंग तकनीकें
(1) सांख्यिकीय तकनीकें
डेटा नमूनाकरण और डेटा एकत्रीकरण
- डेटा नमूनाकरण: डेटा सेट के प्रतिनिधि उपसमूह का चयन करके मूल डेटा सेट का विश्लेषण और मूल्यांकन, डी-आइडेंटिफिकेशन तकनीकों की प्रभावशीलता में सुधार करने के लिए एक महत्वपूर्ण तरीका है।
- डेटा एकत्रीकरण: सांख्यिकीय तकनीकों (जैसे योग, गणना, औसत, अधिकतम और न्यूनतम) के संग्रह के रूप में माइक्रोडेटा में विशेषताओं पर लागू किया जाता है, परिणाम मूल डेटा सेट में सभी रिकॉर्ड का प्रतिनिधि होता है।
(2) क्रिप्टोग्राफी
क्रिप्टोग्राफी, संवेदनशून्यीकरण की प्रभावशीलता को कम करने या बढ़ाने का एक सामान्य तरीका है। विभिन्न प्रकार के एन्क्रिप्शन एल्गोरिदम अलग-अलग संवेदनशून्यीकरण प्रभाव प्राप्त कर सकते हैं।
- नियतात्मक एन्क्रिप्शन: एक गैर-यादृच्छिक सममित एन्क्रिप्शन। यह आमतौर पर आईडी डेटा को संसाधित करता है और आवश्यकता पड़ने पर सिफरटेक्स्ट को डिक्रिप्ट करके मूल आईडी में पुनर्स्थापित कर सकता है, लेकिन कुंजी को उचित रूप से संरक्षित किया जाना आवश्यक है।
- अपरिवर्तनीय एन्क्रिप्शन: डेटा को प्रोसेस करने के लिए हैश फ़ंक्शन का उपयोग किया जाता है, जिसका उपयोग आमतौर पर आईडी डेटा के लिए किया जाता है। इसे सीधे डिक्रिप्ट नहीं किया जा सकता है और मैपिंग संबंध को सहेजना आवश्यक है। इसके अलावा, हैश फ़ंक्शन की विशेषता के कारण, डेटा टकराव हो सकता है।
- होमोमॉर्फिक एन्क्रिप्शन: सिफरटेक्स्ट होमोमॉर्फिक एल्गोरिथम का उपयोग किया जाता है। इसकी विशेषता यह है कि डिक्रिप्शन के बाद सिफरटेक्स्ट ऑपरेशन का परिणाम प्लेनटेक्स्ट ऑपरेशन के समान ही होता है। इसलिए, इसका उपयोग आमतौर पर संख्यात्मक फ़ील्ड को संसाधित करने के लिए किया जाता है, लेकिन प्रदर्शन कारणों से इसका व्यापक रूप से उपयोग नहीं किया जाता है।
(3) सिस्टम टेक्नोलॉजी
दमन प्रौद्योगिकी उन डेटा आइटमों को हटा देती है या सुरक्षित कर देती है जो गोपनीयता संरक्षण को पूरा नहीं करते, लेकिन उन्हें प्रकाशित नहीं करती।
- मास्किंग: यह विशेषता मान को मास्क करने के लिए सबसे आम डीसेन्सिटाइजेशन विधि को संदर्भित करता है, जैसे कि प्रतिद्वंद्वी संख्या, आईडी कार्ड को तारांकन चिह्न के साथ चिह्नित किया जाता है, या पता छोटा कर दिया जाता है।
- स्थानीय दमन: विशिष्ट विशेषता मानों (कॉलम) को हटाने, गैर-आवश्यक डेटा फ़ील्ड को हटाने की प्रक्रिया को संदर्भित करता है;
- रिकॉर्ड दमन: विशिष्ट रिकॉर्ड (पंक्तियों) को हटाने, गैर-आवश्यक डेटा रिकॉर्ड को हटाने की प्रक्रिया को संदर्भित करता है।
(4). छद्म नाम प्रौद्योगिकी
स्यूडोमैनिंग एक पहचान-विहीन तकनीक है जिसमें प्रत्यक्ष पहचानकर्ता (या अन्य संवेदनशील पहचानकर्ता) के स्थान पर छद्म नाम का उपयोग किया जाता है। छद्म नाम तकनीकें प्रत्यक्ष या संवेदनशील पहचानकर्ताओं के बजाय, प्रत्येक व्यक्तिगत सूचना विषय के लिए विशिष्ट पहचानकर्ता बनाती हैं।
- यह मूल आईडी के अनुरूप स्वतंत्र रूप से यादृच्छिक मान उत्पन्न कर सकता है, मैपिंग तालिका को सहेज सकता है, और मैपिंग तालिका तक पहुंच को सख्ती से नियंत्रित कर सकता है।
- आप छद्म नाम बनाने के लिए एन्क्रिप्शन का भी उपयोग कर सकते हैं, लेकिन डिक्रिप्शन कुंजी को ठीक से रखने की आवश्यकता है;
इस प्रौद्योगिकी का उपयोग बड़ी संख्या में स्वतंत्र डेटा उपयोगकर्ताओं के मामले में व्यापक रूप से किया जाता है, जैसे कि ओपन प्लेटफॉर्म परिदृश्य में ओपनआईडी, जहां विभिन्न डेवलपर्स एक ही उपयोगकर्ता के लिए अलग-अलग ओपनआईडी प्राप्त करते हैं।
(5). सामान्यीकरण तकनीकें
सामान्यीकरण तकनीक एक ऐसी पहचान-रहित तकनीक है जो डेटा सेट में चयनित विशेषताओं की बारीकियों को कम करती है और डेटा का अधिक सामान्य और सारगर्भित विवरण प्रदान करती है। सामान्यीकरण तकनीक को लागू करना आसान है और यह रिकॉर्ड-स्तरीय डेटा की प्रामाणिकता की रक्षा कर सकती है। इसका उपयोग आमतौर पर डेटा उत्पादों या डेटा रिपोर्टों में किया जाता है।
- पूर्णांकन: इसमें चयनित विशेषता के लिए एक पूर्णांकन आधार का चयन करना शामिल है, जैसे कि ऊपर या नीचे फोरेंसिक, जिसके परिणामस्वरूप 100, 500, 1K और 10K परिणाम प्राप्त होते हैं
- शीर्ष और निचली कोडिंग तकनीकें: सीमा से ऊपर (या नीचे) मानों को शीर्ष (या निचले) स्तर का प्रतिनिधित्व करने वाली सीमा से बदलें, जिससे "X से ऊपर" या "X से नीचे" परिणाम प्राप्त होगा
(6). यादृच्छिकीकरण तकनीकें
एक प्रकार की विपहचान तकनीक के रूप में, रैंडमाइज़ेशन तकनीक, रैंडमाइज़ेशन के माध्यम से किसी विशेषता के मान को संशोधित करने को संदर्भित करती है, ताकि रैंडमाइज़ेशन के बाद का मान मूल वास्तविक मान से भिन्न हो। यह प्रक्रिया एक हमलावर की उसी डेटा रिकॉर्ड में अन्य विशेषता मानों से एक विशेषता मान प्राप्त करने की क्षमता को कम करती है, लेकिन परिणामी डेटा की प्रामाणिकता को प्रभावित करती है, जो उत्पादन परीक्षण डेटा के साथ आम है।
पोस्ट करने का समय: 27-सितंबर-2022