नेटवर्क पैकेट ब्रोकर में डेटा मास्किंग तकनीक और समाधान क्या है?

1. डेटा मास्किंग की अवधारणा

डेटा मास्किंग को डेटा मास्किंग के नाम से भी जाना जाता है। यह एक तकनीकी विधि है जिसके द्वारा निर्धारित मास्किंग नियमों और नीतियों के तहत मोबाइल फोन नंबर, बैंक कार्ड नंबर और अन्य संवेदनशील जानकारी को परिवर्तित, संशोधित या छिपाया जाता है। इस तकनीक का मुख्य उद्देश्य संवेदनशील डेटा को अविश्वसनीय वातावरण में सीधे उपयोग होने से रोकना है।

डेटा मास्किंग सिद्धांत: डेटा मास्किंग में मूल डेटा की विशेषताओं, व्यावसायिक नियमों और डेटा की प्रासंगिकता को बनाए रखना चाहिए ताकि बाद के विकास, परीक्षण और डेटा विश्लेषण पर मास्किंग का कोई प्रभाव न पड़े। मास्किंग से पहले और बाद में डेटा की स्थिरता और वैधता सुनिश्चित करें।

2. डेटा मास्किंग वर्गीकरण

डेटा मास्किंग को स्टैटिक डेटा मास्किंग (एसडीएम) और डायनेमिक डेटा मास्किंग (डीडीएम) में विभाजित किया जा सकता है।

स्थैतिक डेटा मास्किंग (एसडीएम)स्थैतिक डेटा मास्किंग के लिए उत्पादन वातावरण से अलग करने हेतु एक नया गैर-उत्पादन वातावरण डेटाबेस स्थापित करना आवश्यक है। संवेदनशील डेटा को उत्पादन डेटाबेस से निकालकर गैर-उत्पादन डेटाबेस में संग्रहीत किया जाता है। इस प्रकार, असंवेदनशील डेटा को उत्पादन वातावरण से अलग कर दिया जाता है, जो व्यावसायिक आवश्यकताओं को पूरा करता है और उत्पादन डेटा की सुरक्षा सुनिश्चित करता है।

एसडीएम

डायनामिक डेटा मास्किंग (डीडीएम)इसका उपयोग आमतौर पर उत्पादन परिवेश में संवेदनशील डेटा को वास्तविक समय में असंवेदनशील बनाने के लिए किया जाता है। कभी-कभी, अलग-अलग स्थितियों में समान संवेदनशील डेटा को पढ़ने के लिए अलग-अलग स्तर की मास्किंग की आवश्यकता होती है। उदाहरण के लिए, अलग-अलग भूमिकाओं और अनुमतियों के लिए अलग-अलग मास्किंग योजनाएँ लागू की जा सकती हैं।

डीडीएम

डेटा रिपोर्टिंग और डेटा उत्पाद मास्किंग एप्लिकेशन

ऐसे परिदृश्यों में मुख्य रूप से आंतरिक डेटा निगरानी उत्पाद या बिलबोर्ड, बाहरी सेवा डेटा उत्पाद और डेटा विश्लेषण पर आधारित रिपोर्टें शामिल होती हैं, जैसे कि व्यावसायिक रिपोर्ट और परियोजना समीक्षा।

डेटा रिपोर्टिंग उत्पाद मास्किंग

3. डेटा मास्किंग समाधान

सामान्य डेटा मास्किंग योजनाओं में शामिल हैं: अमान्यकरण, यादृच्छिक मान, डेटा प्रतिस्थापन, सममित एन्क्रिप्शन, औसत मान, ऑफसेट और राउंडिंग आदि।

रद्द करनाडेटा को अमान्य करना संवेदनशील डेटा को एन्क्रिप्ट करने, छोटा करने या छिपाने को संदर्भित करता है। इस प्रक्रिया में आमतौर पर वास्तविक डेटा को विशेष चिह्नों (जैसे *) से बदल दिया जाता है। यह प्रक्रिया सरल है, लेकिन उपयोगकर्ता मूल डेटा का प्रारूप नहीं जान सकते, जिससे बाद में डेटा के उपयोग पर असर पड़ सकता है।

यादृच्छिक मानयादृच्छिक मान का तात्पर्य संवेदनशील डेटा के यादृच्छिक प्रतिस्थापन से है (अंकों के स्थान पर संख्याएँ, अक्षरों के स्थान पर अक्षर और वर्णों के स्थान पर वर्ण)। यह मास्किंग विधि संवेदनशील डेटा के प्रारूप को कुछ हद तक सुरक्षित रखेगी और बाद में डेटा के उपयोग को सुगम बनाएगी। कुछ सार्थक शब्दों, जैसे व्यक्तियों और स्थानों के नामों के लिए मास्किंग शब्दकोशों की आवश्यकता हो सकती है।

डेटा प्रतिस्थापनडेटा प्रतिस्थापन, शून्य और यादृच्छिक मानों को छिपाने के समान है, सिवाय इसके कि विशेष वर्णों या यादृच्छिक मानों का उपयोग करने के बजाय, छिपाने वाले डेटा को एक विशिष्ट मान से बदल दिया जाता है।

सममित एन्क्रिप्शनसममितीय एन्क्रिप्शन एक विशेष प्रतिवर्ती मास्किंग विधि है। यह एन्क्रिप्शन कुंजी और एल्गोरिदम के माध्यम से संवेदनशील डेटा को एन्क्रिप्ट करता है। सिफरटेक्स्ट प्रारूप तार्किक नियमों में मूल डेटा के अनुरूप होता है।

औसतसांख्यिकीय परिदृश्यों में अक्सर औसत विधि का उपयोग किया जाता है। संख्यात्मक डेटा के लिए, हम पहले उनका माध्य निकालते हैं, और फिर असंवेदनशील मूल्यों को माध्य के आसपास यादृच्छिक रूप से वितरित करते हैं, जिससे डेटा का योग स्थिर रहता है।

ऑफसेट और गोलाईयह विधि डिजिटल डेटा को यादृच्छिक बदलाव द्वारा परिवर्तित करती है। ऑफसेट राउंडिंग डेटा की सुरक्षा बनाए रखते हुए सीमा की अनुमानित प्रामाणिकता सुनिश्चित करती है, जो पिछली विधियों की तुलना में वास्तविक डेटा के अधिक निकट है, और बड़े डेटा विश्लेषण के परिदृश्य में इसका बहुत महत्व है।

एमएल-एनपीबी-5660-数据脱敏

अनुशंसित मॉडल "एमएल-एनपीबी-5660डेटा मास्किंग के लिए

4. आमतौर पर इस्तेमाल की जाने वाली डेटा मास्किंग तकनीकें

(1). सांख्यिकीय तकनीकें

डेटा सैंपलिंग और डेटा एग्रीगेशन

- डेटा सैंपलिंग: डेटा सेट के प्रतिनिधि उपसमूह का चयन करके मूल डेटा सेट का विश्लेषण और मूल्यांकन करना, पहचान छिपाने की तकनीकों की प्रभावशीलता को बेहतर बनाने का एक महत्वपूर्ण तरीका है।

- डेटा एकत्रीकरण: माइक्रोडाटा में मौजूद विशेषताओं पर लागू की गई सांख्यिकीय तकनीकों (जैसे योग, गणना, औसत, अधिकतम और न्यूनतम) के संग्रह के रूप में, परिणाम मूल डेटा सेट के सभी रिकॉर्ड का प्रतिनिधित्व करता है।

(2). क्रिप्टोग्राफी

क्रिप्टोग्राफी संवेदनहीनता को कम करने या उसकी प्रभावशीलता बढ़ाने की एक सामान्य विधि है। विभिन्न प्रकार के एन्क्रिप्शन एल्गोरिदम अलग-अलग संवेदनहीनता प्रभाव प्राप्त कर सकते हैं।

- नियतात्मक एन्क्रिप्शन: एक गैर-यादृच्छिक सममित एन्क्रिप्शन। यह आमतौर पर आईडी डेटा को संसाधित करता है और आवश्यकता पड़ने पर सिफरटेक्स्ट को डिक्रिप्ट करके मूल आईडी में पुनर्स्थापित कर सकता है, लेकिन कुंजी को ठीक से सुरक्षित रखना आवश्यक है।

- अपरिवर्तनीय एन्क्रिप्शन: डेटा को संसाधित करने के लिए हैश फ़ंक्शन का उपयोग किया जाता है, जो आमतौर पर पहचान डेटा के लिए उपयोग किया जाता है। इसे सीधे डिक्रिप्ट नहीं किया जा सकता है और मैपिंग संबंध को सुरक्षित रखना आवश्यक है। इसके अलावा, हैश फ़ंक्शन की विशेषता के कारण, डेटा टकराव की संभावना रहती है।

- समरूप एन्क्रिप्शन: इसमें सिफरटेक्स्ट समरूप एल्गोरिदम का उपयोग किया जाता है। इसकी विशेषता यह है कि डिक्रिप्शन के बाद सिफरटेक्स्ट ऑपरेशन का परिणाम प्लेनटेक्स्ट ऑपरेशन के परिणाम के समान होता है। इसलिए, इसका उपयोग आमतौर पर संख्यात्मक क्षेत्रों को संसाधित करने के लिए किया जाता है, लेकिन प्रदर्शन संबंधी कारणों से इसका व्यापक उपयोग नहीं होता है।

(3). सिस्टम प्रौद्योगिकी

यह दमन तकनीक गोपनीयता सुरक्षा मानकों का उल्लंघन करने वाले डेटा आइटम को हटा देती है या छिपा देती है, लेकिन उन्हें प्रकाशित नहीं करती है।

- मास्किंग: यह विशेषता मान को छिपाने की सबसे आम संवेदनहीनता विधि को संदर्भित करता है, जैसे कि प्रतिद्वंद्वी संख्या, पहचान पत्र पर तारांकन चिह्न लगाना, या पते को छोटा करना।

- स्थानीय दमन: यह विशिष्ट विशेषता मानों (स्तंभों) को हटाने, गैर-आवश्यक डेटा फ़ील्ड को हटाने की प्रक्रिया को संदर्भित करता है;

- रिकॉर्ड दमन: इसका तात्पर्य विशिष्ट रिकॉर्ड (पंक्तियों) को हटाने, गैर-जरूरी डेटा रिकॉर्ड को हटाने की प्रक्रिया से है।

(4). छद्मनाम प्रौद्योगिकी

छद्मनाम का उपयोग एक ऐसी तकनीक है जो प्रत्यक्ष पहचानकर्ता (या अन्य संवेदनशील पहचानकर्ता) के स्थान पर छद्मनाम का प्रयोग करती है। छद्मनाम तकनीक प्रत्यक्ष या संवेदनशील पहचानकर्ताओं के स्थान पर प्रत्येक व्यक्तिगत सूचना विषय के लिए अद्वितीय पहचानकर्ता बनाती है।

- यह मूल आईडी के अनुरूप स्वतंत्र रूप से यादृच्छिक मान उत्पन्न कर सकता है, मैपिंग तालिका को सहेज सकता है, और मैपिंग तालिका तक पहुंच को सख्ती से नियंत्रित कर सकता है।

- आप छद्मनाम बनाने के लिए एन्क्रिप्शन का भी उपयोग कर सकते हैं, लेकिन इसके लिए डिक्रिप्शन कुंजी को ठीक से सुरक्षित रखना आवश्यक है;

यह तकनीक बड़ी संख्या में स्वतंत्र डेटा उपयोगकर्ताओं के मामले में व्यापक रूप से उपयोग की जाती है, जैसे कि ओपन प्लेटफॉर्म परिदृश्य में ओपनआईडी, जहां विभिन्न डेवलपर एक ही उपयोगकर्ता के लिए अलग-अलग ओपनआईडी प्राप्त करते हैं।

(5). सामान्यीकरण तकनीकें

सामान्यीकरण तकनीक एक ऐसी तकनीक है जो डेटा सेट में चयनित विशेषताओं की सूक्ष्मता को कम करती है और डेटा का अधिक सामान्य और सारगर्भित विवरण प्रदान करती है। सामान्यीकरण तकनीक को लागू करना आसान है और यह रिकॉर्ड-स्तर के डेटा की प्रामाणिकता को सुरक्षित रख सकती है। इसका उपयोग आमतौर पर डेटा उत्पादों या डेटा रिपोर्टों में किया जाता है।

- राउंडिंग: इसमें चयनित विशेषता के लिए राउंडिंग आधार का चयन करना शामिल है, जैसे कि ऊपर या नीचे की ओर फोरेंसिक राउंडिंग, जिससे 100, 500, 1K और 10K जैसे परिणाम प्राप्त होते हैं।

- शीर्ष और नीचे कोडिंग तकनीकें: थ्रेशहोल्ड से ऊपर (या नीचे) के मानों को शीर्ष (या निचले) स्तर का प्रतिनिधित्व करने वाले थ्रेशहोल्ड से बदलें, जिससे "X से ऊपर" या "X से नीचे" का परिणाम प्राप्त होगा।

(6). यादृच्छिकीकरण तकनीकें

पहचान छिपाने की एक तकनीक के रूप में, रैंडमाइजेशन तकनीक का तात्पर्य किसी विशेषता के मान को रैंडमाइजेशन के माध्यम से इस प्रकार संशोधित करना है कि रैंडमाइजेशन के बाद का मान मूल वास्तविक मान से भिन्न हो। यह प्रक्रिया हमलावर द्वारा समान डेटा रिकॉर्ड में अन्य विशेषताओं के मानों से किसी विशेषता का मान निकालने की क्षमता को कम करती है, लेकिन इससे प्राप्त डेटा की प्रामाणिकता प्रभावित होती है, जो उत्पादन परीक्षण डेटा में आम बात है।


पोस्ट करने का समय: 27 सितंबर 2022