الخصوصية التفاضلية Differential Privacy
ازدادت البيانات التي نقوم بإدخالها يومياً إلى الخوادم بشكل ملحوظ جداً، وعادة ما تكون هذه البيانات شخصية وخاصة مثل الاسم الكامل، الجنس، العمر، البريد الالكتروني أو العنوان بالتفصيل وكذلك بعض الآراء الشخصية أو التقييمات، ونكون مجبرين على إدخال تلك المعلومات بهدف أداء وظيفة معينة للمساعدة في تنفيذ المهمة، وهنا مع هذا الازدياد نحن بحاجة لضمان أمان بياناتنا الشخصية من الهجمات الإلكترونية بحيث لا تتحول لأداة يستغلها ضدنا المهاجمون وبذلك نتجت فكرة الخصوصية التفاضلية Differential Privacy.
عادةً ما يتم تخزين البيانات الخام (أي كما تم إدخالها) في الملفات وقواعد البيانات فتستخدم كبيانات أولية كما هي مما يشكل مصدر قلق لأنه قد ينتهك الخصوصية الفردية، لذلك سيكون الهدف الأول للخصوصية التفاضلية هو الحفاظ على خصوصية الفرد بحيث لا يمكن معرفة معلومات معينة تعود لشخص معين، فمثلاً عند القيام بتجربة إحصائية تتطلب بعض المعلومات الشخصية تحرص الجهة التي تقوم بالتجربة على حفظ البيانات المدخلة من قبل المستخدمين وهذا حق أساسي من حقوق المستخدم، كما حدث عندما أجرت Netflix مسابقة لتطوير خوارزمية أفضل لتوصية الأفلام فقدمت مجموعة بيانات تحتوي على أكثر من 100 مليون تقييم قدمها أكثر من 480 ألف مستخدم لأكثر من 17 ألف مستخدم تم تجريدها من معلومات التعريف وإخفاء هوية البيانات عن طريق إزالة أسماء المستخدمين واستبدال بعض التصنيفات بأخرى وهمية وعشوائية، لكن اتضح أن عملية إزالة الهوية هذه غير كافية حيث تبين أنه يمكن إعادة استخدام مجموعة البيانات هذه وربطها مع بيانات أخرى من IMDB لإعادة تحديد مستخدمين محددين وحتى التنبؤ بانتمائهم السياسي إذا كنت تعرف القليل فقط عنهم وتسمى هذه العملية بهجمات الربط Linkage attack. لذلك نلجأ إلى الخصوصية التفاضلية التي تعتمد على آلية مختلة تماماً عمّا سبق حيث تحاول بالتعاون مع التعلم الآلي Machine Learning التعامل مع هذه المشاكل بإضافة ضوضاء أو عشوائية إلى البيانات بحيث لا يتمكن المستخدمون من تحديد أية بيانات فردية والحفاظ على خصوصية الأفراد مع تأثير محدود على دقة البيانات. إن آلية العمل في الأنظمة التي تعتمد الخصوصية التفاضلية تتلخص بالشكل التالي حيث تتم مشاركة البيانات من خلال طلبات تسمى الاستعلامات Queries، فعندما يرسل المستخدم استعلاماً عن البيانات تضيف العمليات المعروفة باسم آليات الخصوصية Privacy Mechanisms ضوضاء إلى البيانات المطلوبة وبذلك تكون قد أرجعت تقريب عن البيانات بدلاً من البيانات الأولية، تظهر هذه النتائج التي تحافظ على الخصوصية في تقرير Report الذي يحتوي البيانات الفعلية بالإضافة إلى وصف لكيفية إنشاء البيانات.
لم تنتهِ العملية عند هذا الحد بسبب احتمالية أن يتمكن المستخدم من إنتاج عدد غير محدد من التقارير للكشف في النهاية عن البيانات الأولية الحساسة، ولنتفادى هذه المشكلة يوجد قيمة Epsilon موجبة تماماً تقيس مدى فقدان الخصوصية في التقرير بمعنى أنه توجد علاقة عكسية بينها وبين الخصوصية وبذلك كلما تناقصت هذه القيمة ازدادت الضوضاء وبالتالي تزداد الخصوصية وتقل الدقة والعكس بالعكس. تشير قيمة Epsilon عندما تكون بين الصفر والواحد إلى أن خصوصية البيانات معقولة تماماً، أمّا ارتفاعها فوق الواحد فهو مؤشر لزيادة الخطر على البيانات الفعلية، كما توجد قيمة أخرى ترتبط بالقيمة السابقة وهي Delta التي تقيس احتمال أن التقرير ليس خاصاً تماماً، وترتفع Epsilon بارتفاع قيمة Delta. نستفيد من تلك القيم لحل مشكلة تعدد الاستعلامات وذلك بما يسمى ميزانية الخصوصية Privacy Budget التي تمنع إعادة إنشاء البيانات من خلال طلبات بحث متعددة باستخدام قيمة Epsilon، يتم ذلك أثناء إنشاء التقرير بحيث تتعقب ميزانية الخصوصية قيمة Epsilon التي نكون قد حددنا لها قيمة حدية وعند تجاوز هذا الحد لن يتمكن المستخدم من القيام بعمليات بحث واستعلامات جديدة.
اعتمدت شركة Apple الخصوصية التفاضلية بدءاً من IOS10 وخاصة فيما يتعلق بالبيانات المجموعة بهدف سهولة استخدام النظام وتقديم المقترحات المناسبة لكل شخص.
ومما سبق يمكن تلخيص الخصوصية التفاضلية على أنها مجموعة من الأنظمة والعمليات على البيانات للحفاظ عليها آمنة وخاصة وتستهدف الخصوصية الفردية بالدرجة الأولى وخاصةً في عمليات التقييم والاحصائات التي تتطلب معلومات خاصة.
تزداد حاجتنا الملحة إلى الرفع من أمان وخصوصية بياناتنا لأن التطور التكنولوجي وصل لمرحلة تنبأ فيها بجميع تحركاتنا وأفعالنا وآرائنا بامتلاكه مجموعة بيانات شخصية فيجب على الأنظمة المحافظة على البيانات من الاستغلال الشخصي أو استغلال الشركات الكبيرة لنا للتسويق والتلاعب بآرائنا، لذلك لم تقتصر آليات الحماية على الخصوصية التفاضلية أو التعتيم على الهوية بل ابتكرنا طرق جديدة ومطورة لتساعدنا في هذا المجال.