AI数据平台架构师-智能创作(北/深/上/杭)

字节跳动

  • 北京市
  • 长期
  • 全职
  • 20天前
2、负责搭建大模型数据平台:支撑大模型数据的存储、预处理(去重、相似度计算、脱敏等)诉求,并且针对大模型场景、数据类型、数据规模有足够的扩展性,以支撑大模型数据集持续迭代,实现高质量数据集沉淀;
3、负责大模型数据分析:通过对文本、图像等数据内容特征深入分析,提炼有价值的数据集分类标签,为数据质量改进提供依据;
4、负责数据生成和数据增强:基于种子数据,运用大模型工具生成完善数据集。职位要求:1、硕士及以上学历,计算机、人工智能等专业优先;
2、具备3年以上数据处理或模型训练工作经验,熟练掌握文本、多模态等非结构化数据处理方法,精通数据清洗、特征提取和数据增强等技术,能够解决数据工作中各种问题;
3、精通Python、Java等至少一种编程语言,具备良好的编码能力和代码质量意识,熟悉常用的数据处理、文本处理和图像处理库,能够高效地实现数据清洗和处理的算法和流程;
4、具备丰富的数据建模以及数据架构经验,能够对结构化和非结构化数据场景进行统一的建模;
5、具备丰富的数据湖开发经验(hudi/iceberg/hive等),并且对数据计算相关技术框架有深入的实践和理解(spark/flink/hadoop/ray);

字节跳动