顺阳网 LLM能替代数据科学家了？DeepAnalyze帮你告别手动分析数据

你是否还在为复杂的文件和海量数据而苦恼？是否希望能够自动从数据中挖掘出真正有价值的信息？顺阳网

最近，来自人大与清华的研究团队推出 DeepAnalyze —— 你的专属「数据科学家」。只需一个指令，它便能自动化分析你的数据、自主完成各类数据科学任务：

数据任务：支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察

数据研究：可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究，生成研究报告

DeepAnalyze是首个面向数据科学的Agentic LLM，无需任何 workflow，仅凭一个 LLM 即可像数据科学家一样，自主完成多种复杂的数据任务。

DeepAnalyze 的论文、代码、模型、数据均已开源，收获 1.1K+GitHub 星标，欢迎大家体验！

DeepAnalyze —— 你的专属「数据科学家」

DeepAnalyze 在环境中自主编排和优化各种操作，完成复杂的数据科学任务。

DeepAnalyze 在真实环境中学习复杂任务

数据无处不在，而数据科学一直被视为人类智能的重要体现。从Kaggle比赛到日常的数据分析实践，大量评测都在考察数据科学家在数据准备、分析、建模、可视化与洞察等方面的综合能力。

当前的数据智能体（Data Agent）通常依赖人工设计的workflow，来驱动大模型完成特定的数据分析与可视化任务。虽然在各类单点任务上已取得了令人瞩目的成果，但由于 LLM 的自主性仍然有限，它们距离理想的"全能自主数据科学家"依然存在明显差距。

随着大型语言模型智能水平的不断提升，一个关键问题也愈发突出：如何让 LLM 真正具备自主完成复杂数据科学任务的能力？

DeepAnalyze 通过在真实环境中训练，学会自主编排、自适应优化操作，最终完成复杂的数据科学任务。为实现此，DeepAnalyze 提出课程学习式 Agentic 训练范式（Curriculum-based Agentic Training ofDeepAnalyze）和面向数据的轨迹合成框架（grounded Trajectory Synthesis）。

课程学习式 Agentic 训练

数据科学任务本身具有高度复杂性顺阳网，这让基础 LLM 在早期训练阶段往往难以顺利完成任务。任务复杂性导致模型几乎得不到正向奖励信号（即"奖励稀疏"问题），强化学习过程容易停滞，甚至出现训练崩溃的情况。

为了解决这一难题，DeepAnalyze 提出了「课程学习式 Agentic 训练」。其模拟人类数据科学家的学习路径，让 LLM 在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶。通过这种渐进式训练，模型的能力得以稳步提升，避免在复杂任务中因为"奖励信号为零"而导致学习失败。

训练过程包括两大阶段：

单能力微调：

训练 LLM 在代码生成、结构化数据理解、逻辑推理等方面的基础能力；

多能力 Agentic 训练：

在真实任务环境中，让 LLM 学会运用多种能力，像数据科学家一样自主完成复杂任务。

面向数据的轨迹合成

在数据科学领域，缺乏完整的长链问题求解轨迹，这让 LLM 在探索解题空间时缺乏有效指导，只能进行低效、盲目的"试错式"探索，难以获得有意义的中间监督信号。

为了解决这一难题，DeepAnalyze 提出了「面向数据的轨迹合成」方法。其能够自动合成50 万条数据科学推理与环境交互数据，为大模型在庞大的搜索空间中提供正确路径的示范和引导。

数据合成包含两个关键部分：

推理轨迹合成：

基于现有的 TableQA、结构化知识理解、数据科学代码生成任务，构建带有完整推理路径的训练数据；

交互轨迹合成：

构建多智能体系统，从结构化数据源（如 Spider 和 BIRD）中自动合成数据科学交互轨迹，提供和真实环境的交互轨迹。

DeepAnalyze 支持面向数据的深度研究顺阳网

DeepAnalyze 支持面向数据的深度研究，能够自动生成具备分析师水准的研究报告。

在数据研究报告生成任务中，无论是内容深度还是报告结构，DeepAnalyze 的表现都显著优于现有的闭源 LLM。

分析报告：

作者介绍

张绍磊，中国人民大学信息学院助理教授，位于中国人民大学讲席教授范举教授团队。

他博士毕业于中国科学院计算技术研究所，导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。

相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文 30 余篇，开源的多语言大模型、多模态大模型、数据科学大模型在 GitHub 社区累计获得 5000+ 星标。

他长期担任 CCF-A 类国际会议 ACL ARR 的领域主席和责任编辑。个人主页：zhangshaolei1998@github.io。

范举，中国人民大学教授、博士生导师，国家级青年人才，中国计算机学会数据库专委会、大数据专委会执行委员。

研究方向包括：数据治理技术与系统、智能数据库系统等。

相关研究成果在计算机领域国际顶级期刊 / 会议发表论文 60 余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目，以及多项产学研合作项目。

先后获得 ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖励。

团队介绍：

RUC-DataLab是中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队，负责人是范举教授，团队专注于数据系统 + 人工智能（Data+AI）交叉领域，致力于将数据技术与人工智能技术深度融合，从而打造更加智能、高效的新型数据系统。

实验室的研究方向包括：（1）数据库系统智能化（AI4DB）：利用人工智能技术提升数据库系统的查询性能、自治能力等；（2）数据库技术赋能 AI 系统（DB4AI）：利用数据管理技术支撑大模型训练的高效处理、大模型推理的低延迟、高吞吐优化；（3）数智融合的新型数据科学系统（AI4DS）：利用推理大模型、多模态语义理解与智能体等技术，提升数据科学系统的智能化水平与执行性能，有效释放数据价值。

论文：https://arxiv.org/pdf/2510.16872

代码：https://github.com/ruc-datalab/DeepAnalyze

模型：https://huggingface.co/RUC-DataLab/DeepAnalyze-8B

数据：https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K

更多示例：https://ruc-deepanalyze.github.io/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情