apachedoris架构原理及特性(基于Doris的知乎
hello大家好,我是城乡经济网小晟来为大家解答以上问题,apachedoris架构原理及特性(基于Doris的知乎很多人还不知道,现在让我们一起来看看吧!
(资料图片)
导读:本次分享题目为基于Doris的知乎DMP系统架构与实践,由知乎用户理解&数据赋能研发Leader 侯容老师带来经验分享,主要围绕四个方面展开介绍:
01
背景
DMP本身是个老生常谈的业务领域,在广告系统出现的时候就有了类似DMP平台的系统。业界做得比较好的有腾讯广点通、阿里达摩盘。
知乎搭建DMP的原因可简单概括为:知乎存在大量站内运营的业务需要,搭建DMP平台需要支持同知乎内部系统的对接,搭建DMP存在一定量的知乎定制化需求,需要适配知乎的内部运营流程。
1. DMP业务背景
首先,抛出问题:知乎业务中具体存在哪些问题需要解决?为什么要建立DMP平台来解决这些问题?
下面围绕业务模式、业务场景、业务需求等三个主要方面,来具体说明建设DMP平台的必要性和功能定位。
(1)业务模式
如何找出核心客户,围绕某个客户应该如何运营、如何适配营销操作、以及广告投放,如何进行人和业务的匹配,都需要完成对人的定向、对人的画像洞察,以及对人的理解和运营操作,这些都是DMP的主要业务定位。
知乎DMP主要包括三种业务模式:
(2)业务场景
针对上述三种业务模式,知乎DMP适配了多种业务场景:
(3)业务需求
基于三种业务模式、六种业务场景的拆解分析,提炼出人群管理的功能需求主要包括:
2. DMP业务流程
基于知乎DMP业务模式提炼、业务场景刻画、业务需求澄清等背景梳理,结合站内系统、站外系统交互协同,形成了一套业务流程。
概括为四大核心功能模块:
围绕站内运营自闭环、站内向站外投放闭环、站外向站内广告闭环等人群运营,可以灵活适配活动落地。
3.DMP画像特征
在人群定向模块,存在大量的人群标签筛选、组合标签筛选的应用要求,对DMP平台的画像特征库提出很高的要求。
知乎DMP按照三层结构进行画像特征分类设计:
第一层分类:按主题分组,目前主要包括个体信息、消费特征、创作、兴趣、图文等8组。
第二层分类:按属性分组,比如个体信息主题包括基础特征、设备属性、社会属性等,知乎DMP目前有40组属性特征分组。
第三层分类:按标签类分组,比如性别类、手机品牌类、话题类等,目前有120类标签。
基于以上三层特征设计,知乎DMP画像特征库已有标签(标签值)超过250万。
4.DMP功能梳理
按照业务功能和特征管理两大能力进行说明:
详细的功能分布参见下图:
--
02
架构与实现
一套好的架构设计,能够有效降低业务功能实现的复杂度;能够支撑业务功能动态扩展与迭代;对于有外部交互的系统,能够保障系统的兼容性和开放性;能够保持系统运维的便捷性。
1.DMP平台架构
知乎DMP平台的整体架构,不同模块进行差异化设计:
对外模块:
lDMP接口:高稳定性、高并发高吞吐。
lDMP前台:操作简单,低运营使用成本。
lDMP后台:日常开发工作配置化,降低开发成本。
业务模块:
架构分布详情,如下图示:
2.DMP平台功能盘点
按照业务向、基础向两部分进行特征功能介绍。
(1)业务向功能
核心功能为人群定向、人群洞察两部分,分别支撑业务应用侧和价值运营侧服务。
知乎DMP业务向功能上线运营情况介绍:
(2)基础向功能
主要包括特征建设、ID-Mapping能力、计算任务运维等三部分工作,形成三组专业小组分工协同。
知乎DMP基础向功能运营情况介绍:
3.DMP特征数据链路及存储
数据导入/存储、快速查询/读取,是DMP平台关键的数据技术环节。
DMP的批量、流式特征如何建设并落地到相应的存储?
(1)离线标签链路(Spark批处理计算过程)
(2)实时标签链路(Flink实时计算处理过程)
(3)枚举采集
即250万标签的应用服务能力。
知乎DMP平台现有的125个标签类分组,分别由120个离线业务存储过程和5个实时业务事件过程计算完成,已经生成了各类原子标签。
ES标签搜索存储:在面向标签筛选应用环节,大规模标签录入操作成本太高,所有选择使用Bulk Load自动写入ES,生成标签枚举表tag_group表(存储标签中文信息及搜索,约250万记录),生成连续自增ID;
Doris中核心存储:根据ES中的连续自增ID,可以映射到Doris中用户标签表tag_map表(倒排表,用户和标签组合表,约有1100亿数据),Doris中还存在第三张表即用户行为表,是基于实时数仓够贱的,这里不做扩展介绍。
基于这三张表,给客户洞察、人群定向提供了相应的数据支撑基础。
4.人群定向流程
基于上个环节生成的ES-标签枚举表、Doris-用户标签表、Doris-ID转换映射表,进行人群定向流程解读。
场景一:通过购物车圈选人群标签,生成人群包,进行人群预估、继而完成人群圈选,最后写入Redis的过程。
第一步:标签搜索(相关标签、标签组合等设置,购物车生成)
第二步:人群预估(潜在人群包的动态评估,根据标签组合联动调整购物车配置,完成目标事件的人群匹配)
第三步:生成人群包,关联原数据、ID-Mapping 关联转换(站外);将人群包ID和人群ID写入Redis,支持高并发查询使用。若非高并发场景,可以写入离线存储机制使用。
场景二:种子人群泛化场景,依托AI平台完成模型训练和人群推理泛化,通过置信度去选择,打上人群标签和人群包,最后写会Doris的过程。
该场景包括历史效果人群泛化、圈选人群的特征泛化等。
日常业务运营过程中,对标签、历史人群进行组合、泛化,再限制条件进行圈选、洞察,最后再调整等灵活组合、交叉应用模式。
--
03
难点及解决方案
本部分主要围绕人群定向方面做进行总结分享。
1.人群定向性能优化的痛点
知乎DMP平台关键应用模块包括人群定向和客户洞察,都依赖基础的画像特征。基于当前250万的标签特征数据基础,如何解决以下两个场景痛点:
人群定向方面关注痛点问题一:人群预估(秒级响应)——针对投放和营销场景,对人群数量期望是一定的,通过类似购物车的模式,动态调整用户特征,如何能保障快速看到预计匹配的人数?
人群定向方面关注痛点问题二:人群圈选(分钟级响应)——热点运营,当热点事件发生后,快速进行人群包圈选抢事件,对人群包时间有很高要求。
2.人群定向性能优化的思路(第一版)
解决上述性能问题的主要思路:
①倒排索引,将数据表变为bitmap。
②查询条件的与或非转变为bitmap的交并差。
③附带完成连续数值转变为离散标签,即发挥离散计算的性能优势,又提高了业务场景应用适配性。
倒排序索引,示例如下图(左)所示:
ID-Mapping适配,基于倒排序索引优化结果,在导入的过程中,完成ID-Mapping的生成(支持bitmap),实现用户ID的连续自增。如下图(右)所示:
结合倒排序索引存储方式优化调整,查询逻辑变化示例如下:
经过上述优化,仍存在单一bitmap过大的问题,导致shuffle过程网络IO过大,交换过程中数据堆积Doris出现brpc传输拥堵报错,上百兆的bitmap间进行交并差计算性能低等情况;以及bitmap空间分布分散,导致每次查询都会有大量的数据交换,网络负载高,速度慢等特点。
3.人群定向性能优化的思路(第二版)
基于人群预估分钟级、人群圈选10分钟级的优化结果,再优化的核心思路是分而治之。
第二版优化的解决思路:基于全站ID的交并差等价于将全站ID分组后的交并差结果的合并,故分而治之思路可行;考虑利用Doris的colocate group特性,将分组所有tag的bitmap阈值在同一台物理机上,避免网络开销;同时,升级Doris新版本,利用bitmap_and_not_count等组合函数,性能优于多函数嵌套等特性。
适配第二版优化的解决方案:查询过程调整,变更预估和圈人的查询逻辑实现;发挥多线程查询计算能力;查询代码嵌套条件优化;写入过程调整,进行百万人群写入分组,设置分组key;数据表设置colocate group。
分而治之方案的具体优化逻辑,如下图所示:
优化前后的bitmap逻辑计算复杂度对比如下图所示:
通过上述两版本优化,实现人群定向秒级响应,人群圈选分钟级响应效果。知乎DMP平台达到运营投产目标。
--
04
知乎DMP平台下一步迭代方向
1.业务运营优化
从DMP平台的多核心模块整体运营协同考虑,将目前松耦合的目标结果管理模块,同平台进行强绑定;将依赖流程绑定的A/B实验能力,与平台进行逻辑绑定。
2.技术迭代优化
技术层面,主要结合平台日常运营圈选操作特点分析,实现以下两方面的提升:
查询效率提升:自动探查SQL复杂查询条件,预先合并成一个派生特征的bitmap,预测和圈选时对复杂条件SQL重写为派生特征。
导入效率提升:将每天2TB的数据导入,每15天大约会存11TB的数据,导入过程中加速策略——结合业界的Spark写OLTP引擎,考虑能否通过Spark直接写Doris Tablet文件,并挂载到FE。
今天的分享就到这里,谢谢大家。
分享嘉宾:侯容 知乎
编辑整理:李挺 上海琢学
出品平台:DataFunTalk
01/分享嘉宾
侯容|知乎 用户理解&数据赋能研发 Leader
毕业于北京化工大学,2018 年初入职知乎,在社区业务线完成多方向的业务流程建设和架构的搭建,2021 年开始负责知乎用户理解&数据赋能方向的研发团队管理,主要涵盖用户理解和实时数据的工程和业务研发。2021 年在知乎带领团队完成了实时数据系统从基建到业务层从 0 到 1 的建设及重写升级用户理解应用,形成「数据来源于业务,数据赋能于业务」的闭环,建设了相应的基建,提升了用户理解和实时数据的业务迭代效率,最终赋能业务拿到了不错的业务效果。
02/关于我们
DataFun:专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100 线下和100 线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800 ,百万 阅读,14万 精准粉丝。
本文就为大家讲解到这里,希望对大家有所帮助。
标签:
推荐
- apachedoris架构原理及特性(基于Doris的知乎
- 中央气象台发布高温黄色预警:京津冀等地局地可达40℃以上 世界新消息
- 环球观点:滁州市人防办原调研员黎功全接受滁州市纪委监委纪律审查和监察调查
- 折叠屏也开卷!华为Pocket S暴降740元
- 快播:李嘉诚为亡妻修的明月楼_李嘉诚为爱妻修建的
- 夜游、夜演、夜市……景区“夜经济”越夜越美丽 热头条
- 股票行情快报:C美硕(301295)7月4日主力资金净买入220.76万元-环球热议
- 要求朋友圈“夹带公货”,我说不呢?
- 卡修斯简笔画_卡修斯刷什么
- 今日人类第一次登月的飞船叫什么(人类第一次登月)
- 神曲奏界沉默歌姬(关于神曲奏界沉默歌姬介绍)|世界热消息
- 盛夏时节,各地荷花美不胜收 今日观点
- 天天新资讯:数读 | 乘联会6月新能源厂商批发销量:12家破万,合资品牌增长明显
- 环球播报:消息称欧盟计划宣布退出能源宪章条约
- 赘婿电视剧今日热度_电视剧赘婿全体成员上热搜大家怎么看
- 环球播报:朝山会(关于朝山会介绍)
- 最近老做春梦是怎么回事啊_最近老做春梦是怎么回事|环球信息
- 当前滚动:约克夏介绍(约克夏布丁)
- 北京大龄女性未婚求偶问题,确实比较严重,感同身受
- 精选!电锅炉采暖一天耗电量_电锅炉采暖
- 中信股份(00267):中信海直(000099.SZ)拟10股派0.65元_每日视讯
- 全球讯息:交付量超预期,特斯拉总市值逼近6.4万亿,概念股市盈率最低仅5倍(名单)
- 自己转运最灵的方法揭秘_自己转运最灵的方法 全球热头条
- 中科磁业:拟不低于20亿元投建高性能钕铁硼、节能电机磁瓦及粘结磁项目_世界新动态
- 防静电pvc地板多少钱一平方_pvc地板多少钱一平方 热消息
- 焦点热门:诺奖得主重磅发声:通胀不再构成威胁!继续加息将带来“痛苦”
- 中兴(v880) 世界热讯
- 今日报丨乘联会:预估6月新能源乘用车批发销量74万辆 同比增长30%
- 洛奇英雄传官方网站 洛奇英雄传新篇章
- 长垣市丁栾镇:开展《反有组织犯罪法》集中学习宣传活动|讯息
- 当前快报:天天打波利弓箭手刷图技能加点_天天打波利弓箭手加点
- 【世界新要闻】我在一商场租一柜台卖衣服,商场上月错误罚我款,事何我提供无错证明,但商
- 穆迪:房企债务重组进程仍然缓慢,低预期回收率或令债权人权益受损
- 拉拉米终止深交所主板IPO,品牌授权集中度高、股东持股被冻结
- 梁安琪申报财产清单曝光,不动产多达679个,中环商厦最贵值80亿_环球快播报
- 世界看热讯:大肚能容容天下可容之事_大肚能容容天下难容之事的下联
- 美墨边境移民潮再度加剧 混乱状况不断
- 全球热点评!御欣福零漆木门:打造健康品质家居,让家更温馨
- 每日快讯!宝宝认知启蒙国学大书:大字弟子规
- 当前焦点!湖北仙桃:“大端午”赛龙舟 点燃激情夏日
- 天天精选!获得诺奖后,科学家科研成果产出效率和质量或会明显下降;韦布空间望远镜发布土星高清照片 | 环球科学要闻
- 焦点速递!奥动新能源汽车科技有限公司招聘信息
- 飞凡汽车:6月飞凡F7交付量为2336辆
- 世界速看:中国防暑产品出口火热,商家:电风扇订单排到下月底
- 意外险测评丨太平青龙卫2号升级归来,成人意外险又有新花样
- 2023年6月中国原铝产量初值336.02万吨 同比下降0.87%
- 热门:“百模大战”愈演愈烈 垂直领域应用创新成破局关键
- 创新职称评审解人才成长之忧 世界观热点
- 天天通讯!伺服系统概念大涨 科力尔涨停
- 世界观速讯丨多家国有大行下调美元存款利率 专家称美元存款主要面临汇兑风险
- 参会须知|2023新能源汽车先进成型技术及材料应用论坛|世界实时
- 上海豪宅拍出1.58亿元天价背后:曾在二手房市场挂牌一个月无人出价 通讯
- 宝宝自助成长故事书·我有好品格
- 天天观点:2023全球数字经济大会亮点活动中国数字音乐会4日晚上演
- 天天快资讯:呖咕呖咕对对碰粤语迅雷下载_呖咕呖咕对对碰国语在线观看
- 黑河腾冲线_黑河腾冲一线-全球热头条
- 12333官网登录入口亳州(12333官网登录)
- 父亲节又简单又好看的小手工_18个有爱的父亲节手工|今日热讯
- 巴基斯坦LAWI水电站与四川飞球签署大型水电球阀订购合同
- 中超再造巨大争议!大牌外援当场罢赛,指裁判鼻子怒骂,3分变1分 新消息
- 贫血如何食补(贫血的人吃什么补血最快食补)_世界热消息
- 天天要闻:卫报:巴黎领跑维加争夺战,切尔西可能引进切尔基
- 冯诺依曼计算机的基本原理是计算机的硬件由五部分组成_冯诺依曼计算机的基本原理是
- 鲜榨果汁机哪个牌子好(鲜榨果汁机)
- 全国公安机关治安系统夏季治安打击整治行动动员部署会召开
- 今日十二月的奇迹歌词韩文音译(十二月的奇迹音译歌词)|天天视点
- 陈琦:资深记者送外卖、张雪峰发声警告,风口浪尖的“新闻专业”-焦点热门
- 天天看点:中国第2000万辆新能源车下线 昊铂GT正式上市
- 当前关注:意外险买哪个公司好?这两点要注意
- 快讯:一校友向中南大学捐赠6个亿,姓名暂未公开
- 山东发布山洪灾害气象预警_环球观焦点
- 望江县档案馆_对于望江县档案馆简单介绍
- 二七区人和路街道联合社区开展“智慧城管随手拍”宣传活动 环球快消息
- 水深不语,人稳不言!
- 成渝地区双城经济圈建设首批重大项目 重庆潼南:争分夺秒加油干 双江航电枢纽
- 地基承载力500kpa用轻型触探仪_地基承载力轻型触探检测试验方法 世界微资讯
- 姚振华偿债之路遇阻,合肥宝能城万人围观终流拍,12家信托曾踩雷超212亿|全球今日讯
- 环球即时看!中颖电子(300327.SZ):2022年度权益分派10派4元 股权登记日7月10日
- 全球最新:《故宫纹样》:透过一掌见方的纹样,纵看古人审美变迁轨迹|新书架
- 天天观速讯丨冒充军人招摇撞骗犯会受到怎样的处罚?
- IPO观察丨背靠百度、专注医疗内容营销,为何健康之路举步维艰?-今头条
- 公安部组织“鄂湘鲁豫”区域会战 捣毁3300余个“电诈”窝点 世界快看点
- 佳运·瑞璟湾丨从建筑审美到布局体验,划定大宁北品质生活高度
- 民生直通车丨呵护孩子心理健康 警惕青少年抑郁症-世界微速讯
- 男子“赊账”骗香烟 民警出手抓惯犯
- 巴勒斯坦谴责以军在约旦河西岸的军事行动 天天快播报
- 天天热资讯!云阳高阳镇突发山体滑坡 67户167人紧急撤离
- 截至7月3日 江苏苯乙烯港口样本库存总量9.51万吨
- 人民币汇率查询(2023年7月3日) 今日热文
- 天天观热点:特斯拉迎新里程碑,德璞资本浅谈交付量大增 赞誉与争议齐飞
- 【全球新要闻】高温超导:密度波新发现
- 广发银行东莞分行开展普及金融知识宣教活动 助力提升消费者金融素养-世界观焦点
- 刀剑神域黑衣剑士王牌开局战力怎么提升
- 当前视讯!为什么我们立的flag很多,实现的却很少?丨荐书悦读
- 无极LTPO来了!华为Mate 50系列推送鸿蒙HarmonyOS 4.0开发者Beta版
- 六福珠宝黄金价格今天多少一克(2023年07月03日)
- 北向资金净买入超30亿元
- 世界热头条丨马来西亚马六甲各族民众共赛龙舟
- 奥普光电(002338)6月30日主力资金净买入1882.32万元 世界焦点
- 新化股份:拟合资投建一期1万吨/年废旧锂回收生产线
X 关闭
行业规章
X 关闭