數據外洩威脅急劇上升,保護數據庫變得日漸重要。現時網絡安全界已使用多種技術來保護數據,複雜性也在不斷發展,例如同態加密(Homomorphic encryption)、混入假數據等等,無非都是為了阻止黑客入侵。 最簡單的保護數據庫方法之一,是將數據資料分開儲存。研究人員只可以讀取第一個數據庫,具有完整資料的數據庫就會儲存於其他地方,檢查數據時必須利用演算法去還原完整數據,免除研究人員遺失數據的責任。同態加密是比較複雜的保護數據方案,系統會將敏感資料完全加密,研究人員要調用真實數據時,系統便會進行同態運算,令數據在毋須解密下都可被搜尋。十多年來,IBM 一直在為同態加密技術作出貢獻,例如提供適用於 Linux、iOS 和 MacOS 的工具包,以及安全儲存和處理數據的雲端環境。不過,同態加密還未成熟,因為需要太多運算,拖慢檢索速度,如要在大型數據庫使用便難以負荷。 現時數據保護服務供應商採用的加密方法,主要是加密數據庫內的資料,不過並非全面加密,而是平衡保密與共享原則,只向研究人員透露非私密訊息,減低運算負荷。一般的做法是加密姓名、地址等個人敏感資料,只有獲得演算法密鑰的特定人員可以訪問,其他用戶只可讀取未加密的部分。單向函數密鑰(如 SHA256 hash 算法)是最常用的演算技術,如欠缺這條密鑰,攻擊者便無法逆轉計算出原來的數據。 將假數據混入數據庫也是另一種常用手段,因為隨機噪音(random noise)可令識別個人記錄變得困難。Google最近便將名為 Privacy-on-Beam 的內部工具變成開源技術,用戶可以將噪音混入數據庫,然後才儲存到 Google Cloud 數據庫。不過當噪音資料被混合在數據庫內,有可能令資料準確度出現問題,因此最近微軟亦提供了一個與哈佛大學科學家合作開發的差異私隱(Differential Privacy)工具包,它可被應用於訓練人工智能或分析營銷活動數據,而不被噪音影響準確度。…