行业背景:为何加密世界需要顶级数据工程师
自比特币诞生以来,“数据”就成为数字资产交易的命脉。价格波动、链上活跃度、去中心化流动性池的调仓……每一次用户滑屏买入卖出的背后,都需要密集的大数据计算。数据工程师正是为此而生:他们把TB级别的链上链下数据抽丝剥茧,压缩成毫秒级的信号,支撑着API订单簿的刷新、风险评估模型的更新,甚至NFT市场挂单的智能定价策略。
在OKX,每月新增数据量已突破3 PB,分布在180多个国家地区的节点与数据源。只有构建一套「极稳、极快、极低延迟」的基础设施,才能让加密交易应用保持全球速度第一的用户体验。
公司及团队全景:OKX数据版图一览
OKX不只是“另一个数字资产交易平台”,更是连接传统金融与Web3世界的超级枢纽。MetaX钱包、GameFi、DeFi、NFT发行平台、去中心化身份DID,全部跑在统一的数据底盘之上。
👉 点此了解如何在极速Web3赛道抢占先机
数据团队核心使命:
- 端到端数据生命周期管理——从采集、ETL、仓库到可视化、AI模型。
- 实时性与一致性兼得——用流式计算把链上事件延迟控制在100 ms以内,同时保证账簿级对账准确。
- 全场景数据标准——把数字资产、法币、NFT、链上Gas费归一到统一元数据Schema,人人可自助探查。
岗位价值:数据工程师到底解决什么问题
不断扩容的全球市场里,以下三大痛点最棘手:
- 实时风控——如何在0.1秒内判定一笔衍生品交易是否触发爆仓线?
- 跨地域延迟——如何把伦敦撮合引擎产生的Tick数据,在北京前端秒级渲染?
- 合规归档——面对欧盟MiCA、新加坡MAS、香港VASP等多套监管框架,如何快速输出精准报表?
数据工程师给出的答案,不只是写SQL跑脚本,而是:
- 设计多云容灾的Lambda架构,串接Kafka→Flink→Iceberg;
- 用Rust重写热路径,提升复杂指标吞吐量5倍;
- 搭建隐私增强计算层,让敏感数据在加密沙箱内即可合规建模。
技术栈拆解:从Spark到云原生的一条流水线
| 模块 | 关键组件 | 作用场景 |
|---|---|---|
| 采集层 | Kafka Connect、CDC、链上Event Parser | 秒级采集16条公链的区块事件 |
| 计算层 | Flink(实时)、Spark(离线)、Hudi/Iceberg | 准实时OLAP与回溯补数据 |
| 存储层 | S3兼容对象存储、TiKV、ClickHouse | 冷热分级,降本增效 |
| 治理层 | Data Catalog(OpenMetadata)、Great Expectations | 质量门禁 + 血缘追踪 |
| 服务层 | gRPC+GraphQL API、Superset、Notebook as a Service | 内外部决策仪表盘一键生成 |
整套栈全线采用Infrastructure as Code:GitOps + Terraform + Helm,平均将环境交付时间从数周缩短到30分钟。
日常协作:敏捷小队如何打造端到端数据产品
- Sprint 0:与产品经理一块梳理指标——“24H链上净流入量”需要三条输入:交易所热钱包地址、链上转账记录、价格加权模型。
- 原型迭代:用Flink SQL快速写Job,3小时内跑通PoC;接着通过AB实验量化指标稳定性,延迟从250 ms降到90 ms。
- 质量巡检:布设数据漂移检测器,实时监控Currency Pair手续费分布,提前预警日内1%以内的滑点异变。
- 发布上线:灰度20%,借助Feature Flag和Kubernetes Canary,无任何用户侧中断。
- 复盘提升:回顾会输出Wiki+Replay脚本,供并行的6个时区团队直接复用。
FAQ:OKX数据工程师高频问答
Q1:是否必须熟悉区块链底层?
A:不强制,但熟悉UTXO、EVM日志、链上事件及Merkle Patricia Tree索引方式,能显著减少踩坑。团队会提供内部链上数据沙箱供新人练手。
Q2:用过Flink,却没做过GameFi数据流,怎么办?
A:OKX内部将所有垂直业务抽象成“资产-事件-用户”三要素。一旦掌握日志Schema即可横向移植,两周内可在GameFi小队产出首套实时等级跳跃分析报表。
Q3:有哪些远程协作机制?
A:全球五大站点(新加坡、迪拜、旧金山、香港、都柏林)采用“Follow-the-Sun”模式,Slack #data-oncall 24小时轮值。核心Job进入MetaCI,多区域自动构建镜像,无需人肉熬夜。
Q4:对英语要求高吗?
A:日常工作交流、技术文档皆为英语;中文可用作内部结对编程。建议B2+水平,如有欠缺,公司提供季度英语沙龙+一对一辅导。
Q5:数据工程与数据科学的边界?
A:数据工程专注Build at Scale,数据科学专注Model at Scale。界线在于你愿不愿花80 %时间写Spark UDF还是写PyTorch训练脚本;两者角色可因项目灵活换位。
Q6:校招与社招有差距吗?
A:校招要求数据结构、算法扎实;社招更看中完整Data Pipeline落地案例。均提供12周成长计划,外籍导师直带。
加入条件&快速通道
硬性指标
- 本科及以上学历,计算机/数据/电子工程相关专业;
- 2年以上Hadoop/Spark生态系统实战经验;
- 流式计算或MPP引擎(Flink、ClickHouse、Doris)调优经验≥1项;
- 至少精通Java/Scala/Go/Python其中一门,对JVM / GC机制有实际排障经验;
- Git代码管理、Docker镜像构建、k8s编排熟练;
- 可在英语环境下写Design Doc、出席Daily Stand-up。
加分亮点
- 有FinTech、支付网关、数字钱包或高并发电商系统经历;
- 深入理解共识算法、区块同步延迟优化;
- 对Amplitude、Tableau、Looker等BI工具有二开经验;
- 熟悉ISO-4217、FIX协议、SWIFT报文或衍生品交易撮合逻辑。
薪酬&成长
- 具有竞争力的Token+期权包,通过内部Dashboard随时查看解锁节奏;
- 年度Global Data Summit门票+旅行补贴;
- 每季度一天“10% Time”用于边缘技术实验,曾诞生Ping-Pong延迟预警开源项目PingPong-RT。
投递锦囊:三页PPT胜过万字简历
- 问题描述:挑一次“存储层冷热数据故障”或“链上数据回放过慢”经历,讲清业务痛点。
- 设计思路:用一张图画出Pipeline架构,并注明为何选择Iceberg/S3而非传统HDFS。
- 量化影响:压测报告展示延迟、吞吐、成本三项优化百分比,并附KPI关联(如GMV提升、风控误杀率下降)。
邮件发送至:[email protected],邮件标题写“Data Engineer-CN-[Your Name]”,48小时内必有回应。
准备好用数据重构加密世界的未来了吗?立即启程,未来由你编译。