大语言模型微调与人类偏好对齐
面向通用大模型能力提升,建立从偏好数据构造到训练评测的完整工作流。
提升模型真实偏好表现,同时控制偏好数据噪声与训练稳定性。
负责训练算法探索、数据流程、工具调用设计、错误样例分析与标注工具开发。
实践 SFT、DPO、ORPO、SimPO,并用 Streamlit、NeMo 和 Slurm 建立训练反馈闭环。
模型进入 SuperCLUE 国内第六,偏好模型较指令微调基线提升 5 点以上。
聚焦大语言模型训练与偏好对齐、视觉时空建模和产业级算法系统, 从研究探索、工程实现到现场交付,把复杂算法做成可验证的业务结果。
从研究探索、工程实现到现场交付,把复杂算法转化为可验证的业务结果。
三个项目覆盖大语言模型训练、时空建模与高密度视觉统计,均按挑战、职责、方法和结果完整展开。
面向通用大模型能力提升,建立从偏好数据构造到训练评测的完整工作流。
提升模型真实偏好表现,同时控制偏好数据噪声与训练稳定性。
负责训练算法探索、数据流程、工具调用设计、错误样例分析与标注工具开发。
实践 SFT、DPO、ORPO、SimPO,并用 Streamlit、NeMo 和 Slurm 建立训练反馈闭环。
模型进入 SuperCLUE 国内第六,偏好模型较指令微调基线提升 5 点以上。
从城市级相机网络到商场、4S 店等封闭空间,建立可落地的身份与轨迹建模方案。
跨相机身份易混淆,大规模聚类会产生严重大乱档与轨迹断裂。
负责市级与封闭场景的时空模型设计、实现及标注辅助工具。
结合相机 GPS、场景拓扑与轨迹约束,并开发 KNN 人脸人体身份标注工具。
聚类指标提升 2 点,同时减少 90% 以上的大乱档并完成多个项目部署。
独立设计基于行人轨迹的客流统计 SDK,覆盖店铺、街道与楼梯等复杂场景。
高密度客流、徘徊行为和复杂通道会显著干扰进出人数判断。
独立完成算法与 SDK 设计开发,并承担现场效果分析、优化和交付。
围绕轨迹状态与区域关系规避徘徊干扰,针对不同空间定制统计策略。
多次项目 PK 超过友商,4000+ 人次每小时场景准确率仍达到 92%。
研究方向集中在显著性检测、视频理解、共显著性建模与医学影像分割。
性能位于行业领先水平,分割边缘准确,不需要预训练。
查看 PDF
减少 70% 标注数据,3K 标注图像训练即可逼近 10K 全监督方法水平。* 共同一作。
查看 PDF
一种简单有效的运动信息建模方式。
查看 PDF
通过自编码器对多张图像中的相似内容进行联合建模。
查看 PDF
面向超声心电图序列的精准、鲁棒自动分割方案。
从不同语义层级出发构建分布式显著性检测框架。
围绕世界模型、具身智能、大语言模型与视觉算法的长期思考。
从具身智能与自动驾驶出发,梳理世界模型理解物理世界、预测未来状态和辅助决策的多种路径。
阅读全文解读 AutoResearch 如何把大语言模型、公开知识与自动实验结合成持续迭代的自主研究工作流。
阅读全文讨论预训练先验如何改变强化学习的探索空间、奖励利用效率与优化曲面。
阅读全文从任务专用模型走向通用基础模型,分析算法研发、数据组织和工程协作方式的重构。
阅读全文回顾自动驾驶世界模型的架构演进,以及因果推理和物理规律在端到端系统中的工程价值。
阅读全文围绕采集、标注、训练、评估与回流,构建可持续演进的数据闭环产线。
阅读全文梳理视觉-语言-动作模型从模块化控制走向统一具身大脑的路线、争议与实现方式。
阅读全文从动作生成和环境交互能力出发,讨论大模型向人形机器人通用控制系统演进的可能形态。
阅读全文记录生成式人工智能破圈之初,对大语言模型能力、局限与行业影响的观察。
阅读全文以 MNIST 实验探索二进制类别编码在分类任务中的可行性与实现方法。
阅读全文从边界、尺度、语义歧义和标注成本等角度,总结图像分割问题的核心挑战与可能解法。
阅读全文Pytorch、Transformers、Python、C、C++、SQL
云从科技入职培训第一名,中国科学院大学三好学生与所长奖学金,重庆邮电大学优秀学生奖学金、优秀班干部、操作系统单科第一名。
英语六级。
显著性检测、语义分割、半监督学习、时空聚类、大模型对齐。