最近在学习 HuggingFace CLI 工具的时候发现它更新得越来越好用了,尤其是 papers 这个子命令——从最初只能列列每日论文,到现在 1.8.0 版本直接能搜索、读全文、导出结构化 JSON,已经悄悄进化成了一个很适合 LLM Agent 使用的论文获取接口。这篇文章就来梳理一下它的演进历程和当前的完整用法。
背景:hf CLI 的诞生
在聊 papers 之前先简单交代一下背景。
原来的 HuggingFace 命令行工具叫 huggingface-cli,用起来颇为繁琐,而且随着功能增加,命令结构也越来越混乱。所以官方在 2025 年 7 月把它重命名为 hf,并按照 hf <resource> <action> 的语法重新组织,变得更符合直觉。
v1.0 同时把底层 HTTP 库从 requests 迁移到了 httpx,并引入了全新的 Typer-based CLI 界面。
hf 命令行工具内置在 huggingface_hub Python 包里,不需要单独安装,升级包即可:
pip install -U huggingface_hub
hf papers 的演进
v1.4.0:ls 命令上线
在 1.4.0 版本中,新增了 hf papers ls 命令,用于列出 HuggingFace 每日论文,支持按日期过滤和按 trending / 发布时间排序。
# 列出最新每日论文
hf papers ls
# 按热度排序
hf papers ls --sort=trending
# 查看某一天的论文
hf papers ls --date=2025-01-23
# 查看今天的论文
hf papers ls --date=today
v1.7.0:ls 命令补全输出格式
v1.7.0 给 hf papers ls 补充了 --format 和 --quiet 选项,同时为所有 list/ls 命令统一了别名。这样就可以直接把论文列表管道给其他工具处理了:
# 输出 JSON 格式
hf papers ls --format json
# 只输出 paper ID(适合脚本处理)
hf papers ls -q
v1.8.0:search / info / read,全功能就位
在最新的 1.8.0 版本中,hf papers 命令迎来了完整功能:支持按关键词搜索、获取结构化 JSON 元数据,以及将论文全文以 Markdown 格式读出。ls 命令也新增了 week、month、submitter 等过滤选项。
完整命令速查
1. 列出每日论文
# 最新论文
hf papers ls
# 本周论文
hf papers ls --filter week
# 本月论文
hf papers ls --filter month
# 按特定提交者过滤
hf papers ls --submitter mishig25
# JSON 格式输出(适合脚本或 LLM 接入)
hf papers ls --format json
2. 关键词搜索
hf papers search "vision language model"
hf papers search "retrieval augmented generation"
3. 获取论文元数据(JSON)
# 通过 arXiv ID 获取结构化元数据
hf papers info 2601.15621
输出的 JSON 包含标题、摘要、作者、发布时间、引用数、upvote 数等字段,结构清晰,方便程序消费。
4. 读取论文全文 Markdown
这是我觉得最有用的功能:
# 将论文全文以 Markdown 格式输出
hf papers read 2601.15621
# 重定向到文件
hf papers read 2601.15621 > paper.md
为什么 Markdown 直出很重要
平时获取论文内容通常有几条路:
- 直接下载 PDF → 需要额外的解析工具,提取结果格式噪声多
- 访问 arXiv HTML 版 → 并非所有论文都有 HTML 版,格式参差不齐
- 调用第三方 API → 需要额外注册,存在配额限制
PDF 格式对人类的可读性相比纯文本提高了,但对于文本大模型来说反而是障碍——我们通常需要先把 PDF 解析成纯文本或 Markdown,再交给模型处理。hf papers read 把这一步直接内化到了 HuggingFace 官方 CLI 里,省去了引入额外解析工具的麻烦。
对 RAG 系统来说尤其省心:Markdown 格式比 PDF 提取结果干净得多,可以直接作为 pipeline 的输入文档或存入知识库,跳过 PDF parsing 这个最让人头疼的环节。对于直接调用 LLM 分析论文的场景也同理,大模型天然对 Markdown 的理解效果更好。
天然适配 CLI-based LLM Agent
当前涌现了一批基于命令行的 LLM Agent 工具,比如 Claude Code、Cursor、Codex CLI 等,它们的共同特点是以终端为操作界面,通过调用各类 CLI 工具来完成任务。hf papers 的设计风格与这类工具天然契合:
hf papers search返回的结果可以直接作为 Agent 的检索上下文hf papers info输出标准 JSON,Agent 解析元数据零成本hf papers read输出干净的 Markdown 全文,Agent 可以直接读取并分析,不需要任何格式转换
换句话说,你可以让 Agent 自主完成"搜索某个方向的最新论文 → 获取元数据筛选 → 读取全文分析"这一完整的文献调研流程,全程无需离开终端,也不需要额外的工具链。
HuggingFace 官方也意识到了这一点——1.4.0 版本同步推出了 hf skills add 命令,可以将 hf CLI 的完整文档作为 Skill 安装给 Claude Code、Codex 等 Agent,让它们知道如何调用 hf 的各个子命令。hf papers 自然也在其中。
小结
hf papers 从一个简单的"今日论文列表",几个版本迭代下来,现在已经是一个相当完整的论文获取接口:
| 命令 | 功能 |
|---|---|
hf papers ls | 列出每日/每周/每月论文 |
hf papers search | 按关键词搜索 |
hf papers info | 获取结构化 JSON 元数据 |
hf papers read | 读取论文全文(Markdown 输出) |
对于经常需要处理 AI 领域论文的朋友来说,无论是手动使用还是交给 LLM Agent 代劳,hf papers 这套组合都可以相当优雅地接入到自己的工作流里——构建个人知识库、做 RAG 实验、驱动 Agent 做文献调研。
标题:HuggingFace 为 LLM Agent 做的读论文工具:`hf papers`
作者:aopstudio
地址:https://neusoftware.top/articles/2026/04/02/1775141972250.html