HuggingFace 为 LLM Agent 做的读论文工具：`hf papers`

2026-04-02 / Huggingface 人工智能 LLM

HuggingFace 为 LLM Agent 做的读论文工具：`hf papers`

最近在学习 HuggingFace CLI 工具的时候发现它更新得越来越好用了，尤其是 papers 这个子命令——从最初只能列列每日论文，到现在 1.8.0 版本直接能搜索、读全文、导出结构化 JSON，已经悄悄进化成了一个很适合 LLM Agent 使用的论文获取接口。这篇文章就来梳理一下它的演进历程和当前的完整用法。

背景：`hf` CLI 的诞生

在聊 papers 之前先简单交代一下背景。

原来的 HuggingFace 命令行工具叫 huggingface-cli，用起来颇为繁琐，而且随着功能增加，命令结构也越来越混乱。所以官方在 2025 年 7 月把它重命名为 hf，并按照 hf <resource> <action> 的语法重新组织，变得更符合直觉。

v1.0 同时把底层 HTTP 库从 requests 迁移到了 httpx，并引入了全新的 Typer-based CLI 界面。

hf 命令行工具内置在 huggingface_hub Python 包里，不需要单独安装，升级包即可：

pip install -U huggingface_hub

`hf papers` 的演进

v1.4.0：ls 命令上线

在 1.4.0 版本中，新增了 hf papers ls 命令，用于列出 HuggingFace 每日论文，支持按日期过滤和按 trending / 发布时间排序。

# 列出最新每日论文
hf papers ls

# 按热度排序
hf papers ls --sort=trending

# 查看某一天的论文
hf papers ls --date=2025-01-23

# 查看今天的论文
hf papers ls --date=today

v1.7.0：ls 命令补全输出格式

v1.7.0 给 hf papers ls 补充了 --format 和 --quiet 选项，同时为所有 list/ls 命令统一了别名。这样就可以直接把论文列表管道给其他工具处理了：

# 输出 JSON 格式
hf papers ls --format json

# 只输出 paper ID（适合脚本处理）
hf papers ls -q

v1.8.0：search / info / read，全功能就位

在最新的 1.8.0 版本中，hf papers 命令迎来了完整功能：支持按关键词搜索、获取结构化 JSON 元数据，以及将论文全文以 Markdown 格式读出。ls 命令也新增了 week、month、submitter 等过滤选项。

完整命令速查

1. 列出每日论文

# 最新论文
hf papers ls

# 本周论文
hf papers ls --filter week

# 本月论文
hf papers ls --filter month

# 按特定提交者过滤
hf papers ls --submitter mishig25

# JSON 格式输出（适合脚本或 LLM 接入）
hf papers ls --format json

2. 关键词搜索

hf papers search "vision language model"
hf papers search "retrieval augmented generation"

3. 获取论文元数据（JSON）

# 通过 arXiv ID 获取结构化元数据
hf papers info 2601.15621

输出的 JSON 包含标题、摘要、作者、发布时间、引用数、upvote 数等字段，结构清晰，方便程序消费。

4. 读取论文全文 Markdown

这是我觉得最有用的功能：

# 将论文全文以 Markdown 格式输出
hf papers read 2601.15621

# 重定向到文件
hf papers read 2601.15621 > paper.md

为什么 Markdown 直出很重要

平时获取论文内容通常有几条路：

直接下载 PDF → 需要额外的解析工具，提取结果格式噪声多
访问 arXiv HTML 版 → 并非所有论文都有 HTML 版，格式参差不齐
调用第三方 API → 需要额外注册，存在配额限制

PDF 格式对人类的可读性相比纯文本提高了，但对于文本大模型来说反而是障碍——我们通常需要先把 PDF 解析成纯文本或 Markdown，再交给模型处理。hf papers read 把这一步直接内化到了 HuggingFace 官方 CLI 里，省去了引入额外解析工具的麻烦。

对 RAG 系统来说尤其省心：Markdown 格式比 PDF 提取结果干净得多，可以直接作为 pipeline 的输入文档或存入知识库，跳过 PDF parsing 这个最让人头疼的环节。对于直接调用 LLM 分析论文的场景也同理，大模型天然对 Markdown 的理解效果更好。

天然适配 CLI-based LLM Agent

当前涌现了一批基于命令行的 LLM Agent 工具，比如 Claude Code、Cursor、Codex CLI 等，它们的共同特点是以终端为操作界面，通过调用各类 CLI 工具来完成任务。hf papers 的设计风格与这类工具天然契合：

hf papers search 返回的结果可以直接作为 Agent 的检索上下文
hf papers info 输出标准 JSON，Agent 解析元数据零成本
hf papers read 输出干净的 Markdown 全文，Agent 可以直接读取并分析，不需要任何格式转换

换句话说，你可以让 Agent 自主完成"搜索某个方向的最新论文 → 获取元数据筛选 → 读取全文分析"这一完整的文献调研流程，全程无需离开终端，也不需要额外的工具链。

HuggingFace 官方也意识到了这一点——1.4.0 版本同步推出了 hf skills add 命令，可以将 hf CLI 的完整文档作为 Skill 安装给 Claude Code、Codex 等 Agent，让它们知道如何调用 hf 的各个子命令。hf papers 自然也在其中。

小结

hf papers 从一个简单的"今日论文列表"，几个版本迭代下来，现在已经是一个相当完整的论文获取接口：

命令	功能
`hf papers ls`	列出每日/每周/每月论文
`hf papers search`	按关键词搜索
`hf papers info`	获取结构化 JSON 元数据
`hf papers read`	读取论文全文（Markdown 输出）

对于经常需要处理 AI 领域论文的朋友来说，无论是手动使用还是交给 LLM Agent 代劳，hf papers 这套组合都可以相当优雅地接入到自己的工作流里——构建个人知识库、做 RAG 实验、驱动 Agent 做文献调研。

标题：HuggingFace 为 LLM Agent 做的读论文工具：`hf papers`
作者：aopstudio
地址：https://neusoftware.top/articles/2026/04/02/1775141972250.html

aopstudio 的个人博客

记录精彩的程序人生

HuggingFace 为 LLM Agent 做的读论文工具：`hf papers`

背景：`hf` CLI 的诞生

`hf papers` 的演进

v1.4.0：ls 命令上线

v1.7.0：ls 命令补全输出格式

v1.8.0：search / info / read，全功能就位

完整命令速查

1. 列出每日论文

2. 关键词搜索

3. 获取论文元数据（JSON）

4. 读取论文全文 Markdown

为什么 Markdown 直出很重要

天然适配 CLI-based LLM Agent

小结

HuggingFace 为 LLM Agent 做的读论文工具：`hf papers`

背景：hf CLI 的诞生

hf papers 的演进

v1.4.0：ls 命令上线

v1.7.0：ls 命令补全输出格式

v1.8.0：search / info / read，全功能就位

完整命令速查

1. 列出每日论文

2. 关键词搜索

3. 获取论文元数据（JSON）

4. 读取论文全文 Markdown

为什么 Markdown 直出很重要

天然适配 CLI-based LLM Agent

小结

背景：`hf` CLI 的诞生

`hf papers` 的演进