火山引擎对于用户敏感数据尤为重视,在火山引擎提供的数据分析产品中,广泛采用差分隐私技术对用户敏感信息进行保护。此类数据产品通常构建于 ClickHouse 等数据引擎之上,以 SQL 查询方式来执行计算逻辑,且查询逻辑往往较为复杂,因此对差分隐私的应用提出了以下要求:
成都创新互联专注于企业全网营销推广、网站重做改版、薛城网站定制设计、自适应品牌网站建设、H5响应式网站、购物商城网站建设、集团公司官网建设、外贸网站建设、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为薛城等各大城市提供网站开发制作服务。
针对以上需求,火山引擎安全研究团队开发了 Jeddak-DPSQL:一种基于差分隐私的 SQL 代理工具。Jeddak-DPSQL 能够兼容多种数据引擎和SQL方言,内嵌多种差分噪声扰动算法,具备隐私预算管理能力,并且能够与底层数据引擎结合,在数据分析师无感的情况下,对 SQL 语句进行自动化分析和结果加噪处理。作为数据安全和隐私合规治理的标准能力之一,Jeddak-DPSQL 已经在抖音集团相关业务中得到了普遍应用与验证。
在实际解决公司内部面临的问题风险后,我们决定对 Jeddak-DPSQL 进行开源,希望能够为同样面临该类问题的企业和个人提供一定参考和帮助,同时也希望能够有更多的外部开发者能够一起对该开源项目进行共建,完善 Jeddak-DPSQL 产品功能,共同构建更完备的应用生态。
Jeddak-DPSQL 采用中心化差分隐私 (Centralized Differential Privacy,简称 CDP,适用于数据管理者可信的场景) 模式,以中间件的形式接收 SQL 统计查询请求,返回满足差分隐私的查询结果。一个典型的查询请求处理流程如下:
假设有一个数据库 business,存储用户消费数据,使用 clickhouse 引擎,其中一个表 user 存储用户信息,表中存在以下列:uid,name,age,sex,city,代表用户id、姓名、年龄、性别、城市。
查询需求
我们要查询用户数量和平均年龄的城市分布,使用 SQL 语句 1:
SELECT COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
group by city
如果不应用隐私保护技术,可能面临差分攻击的风险,比如攻击者通过某渠道得知张三的 uid 为 803719,构造下面的 SQL 语句 2:
SELECT COUNT(*) AS cnt,AVG(age) as agev, city
FROM business.user
WHERE uid != 803719
group by city
通过执行上面的 SQL 语句1和 SQL 语句2,可分别得到两个查询结果:
那么就可以通过比较两次查询结果得知张三所在的城市是北京,年龄大约 61 岁(120008x49.3276 = 5919706.62,120007x49.3275 = 5919645.29,5919706.62 - 5919645.29 约等于 61)
以上是一个简单的例子,现实场景中,攻击者可能通过背景知识构造更多样、更复杂的查询语句达到窃取隐私的目的。
因此,在上述 SQL 查询场景下,可以通过接入 Jeddak-DPSQL 对 SQL 进行分析和重写,最终执行重写后的 SQL 能够保证返回给使用者的数据满足差分隐私要求,进而达到对个人隐私保护的效果。
git 开源项目地址: https://github.com/bytedance/Jeddak-DPSQL
git clone https://github.com/bytedance/Jeddak-DPSQL
完成 Jeddak-DPSQL 下载后,按照 README 中的部署引导部分完成服务部署,整个部署过程包括以下步骤:
完成 Jeddak-DPSQL 部署后,按照 README 中的快速开始部分可以进行功能体验,整个过程如下:
1. 生成 metadata
2. 启动dpsql服务后, 调用接口 /api/v1/metadata/generate
,生成metadata,可参考:
def meta_generate():
args = {
"db_config": {
"host": ,
"database": ,
"username": ,
"password":
},
"table_name": "us_accidents_dec21_updated",
"db_type": db_type
}
route_path = "/api/v1/metadata/generate"# local service, host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
headers = {"content-type": "application/json"}
r = requests.post(url, jsnotallow=args, headers=headers)
if __name__ == '__main__':
meta_generate()
3. 确认metadata 生成完成
4. 调用 /api/v1/metadata/get
接口,确认 metadata 生成完成
def meta_get():
args = {
"prefix": ,
"db_name": ,
"table_name": "us_accidents_dec21_updated"
}
route_path = "/api/v1/metadata/get"# local service, host:127.0.0.1, port:5000url = "http://%s:%s/%s" % (host, port, route_path)
headers = {"content-type": "application/json"}
r = requests.get(url, jsnotallow=args, headers=headers)
print(r.text)
def query_sql_noise(sql, data_source):
key = {
"sql": sql,
"dbconfig": {
"reader": data_source,
"host": ,
"database": ,
"port":
},
"queryconfig": {
"traceid": "traceid",
}
}
route_path = "/api/v1/query"url = "http://%s:%s/%s" % (host, port, route_path)
headers = {"content-type": "application/json"}
r = requests.post(url, jsnotallow=key, headers=headers)
return res
if __name__ == "__main__":
sql = "select count(severityc) from menu_page group by severity"
section = "hivereader"
res = query_sql_noise(sql, section)
print(res)
更多接口使用方式可以参考项目 README 中的 API Documentation 部分
由于当前是 Jeddak-DPSQL 的首个开源版本,因此还存在很多不完善的地方,希望大家能够多多谅解。Jeddak-DPSQL 计划进行长期维护,欢迎大家使用,也希望有更多的外部开发者能够一起对该开源项目进行共建,完善产品功能,构建更完备的应用生态。
火山引擎安全研究部门的愿景是创新突破前沿安全理论技术,赋能数字经济。部门当前以数据安全中心私有化单品-可信隐私计算产品 Jeddak 为载体,从可信计算、联邦学习、多方安全计算、差分隐私、密文计算、共识计算等方向着手,开展隐私计算技术的前沿研究和应用探索。基于这些领域最新前沿理论技术,创新研发、突破瓶颈,实现数据全生命周期安全与隐私保护,以及可信隐私计算等应用服务落地:赋能业务、保驾护航;更进一步打破数据孤岛,推动数据多源融合与流通交易,发挥数据价值。
新闻名称:Jeddak-DPSQL首次开源!基于差分隐私的SQL代理保护能力
分享URL:http://www.csdahua.cn/qtweb/news30/529480.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网