aopstudio 的个人博客

记录精彩的程序人生

AOP=art of programming=编程的艺术=程艺
  menu
67 文章
0 浏览
9 当前访客
ღゝ◡╹)ノ❤️

HuggingFace 为 LLM Agent 做的读论文工具:`hf papers`

最近在学习 HuggingFace CLI 工具的时候发现它更新得越来越好用了,尤其是 papers 这个子命令——从最初只能列列每日论文,到现在 1.8.0 版本直接能搜索、读全文、导出结构化 JSON,已经悄悄进化成了一个很适合 LLM Agent 使用的论文获取接口。这篇文章就来梳理一下它的演进历程和当前的完整用法。


背景:hf CLI 的诞生

在聊 papers 之前先简单交代一下背景。

原来的 HuggingFace 命令行工具叫 huggingface-cli,用起来颇为繁琐,而且随着功能增加,命令结构也越来越混乱。所以官方在 2025 年 7 月把它重命名为 hf,并按照 hf <resource> <action> 的语法重新组织,变得更符合直觉。

v1.0 同时把底层 HTTP 库从 requests 迁移到了 httpx,并引入了全新的 Typer-based CLI 界面。

hf 命令行工具内置在 huggingface_hub Python 包里,不需要单独安装,升级包即可:

pip install -U huggingface_hub

hf papers 的演进

v1.4.0:ls 命令上线

在 1.4.0 版本中,新增了 hf papers ls 命令,用于列出 HuggingFace 每日论文,支持按日期过滤和按 trending / 发布时间排序。

# 列出最新每日论文
hf papers ls

# 按热度排序
hf papers ls --sort=trending

# 查看某一天的论文
hf papers ls --date=2025-01-23

# 查看今天的论文
hf papers ls --date=today

v1.7.0:ls 命令补全输出格式

v1.7.0 给 hf papers ls 补充了 --format--quiet 选项,同时为所有 list/ls 命令统一了别名。这样就可以直接把论文列表管道给其他工具处理了:

# 输出 JSON 格式
hf papers ls --format json

# 只输出 paper ID(适合脚本处理)
hf papers ls -q

v1.8.0:search / info / read,全功能就位

在最新的 1.8.0 版本中,hf papers 命令迎来了完整功能:支持按关键词搜索、获取结构化 JSON 元数据,以及将论文全文以 Markdown 格式读出。ls 命令也新增了 weekmonthsubmitter 等过滤选项。


完整命令速查

1. 列出每日论文

# 最新论文
hf papers ls

# 本周论文
hf papers ls --filter week

# 本月论文
hf papers ls --filter month

# 按特定提交者过滤
hf papers ls --submitter mishig25

# JSON 格式输出(适合脚本或 LLM 接入)
hf papers ls --format json

2. 关键词搜索

hf papers search "vision language model"
hf papers search "retrieval augmented generation"

3. 获取论文元数据(JSON)

# 通过 arXiv ID 获取结构化元数据
hf papers info 2601.15621

输出的 JSON 包含标题、摘要、作者、发布时间、引用数、upvote 数等字段,结构清晰,方便程序消费。

4. 读取论文全文 Markdown

这是我觉得最有用的功能:

# 将论文全文以 Markdown 格式输出
hf papers read 2601.15621

# 重定向到文件
hf papers read 2601.15621 > paper.md

为什么 Markdown 直出很重要

平时获取论文内容通常有几条路:

  • 直接下载 PDF → 需要额外的解析工具,提取结果格式噪声多
  • 访问 arXiv HTML 版 → 并非所有论文都有 HTML 版,格式参差不齐
  • 调用第三方 API → 需要额外注册,存在配额限制

PDF 格式对人类的可读性相比纯文本提高了,但对于文本大模型来说反而是障碍——我们通常需要先把 PDF 解析成纯文本或 Markdown,再交给模型处理。hf papers read 把这一步直接内化到了 HuggingFace 官方 CLI 里,省去了引入额外解析工具的麻烦。

对 RAG 系统来说尤其省心:Markdown 格式比 PDF 提取结果干净得多,可以直接作为 pipeline 的输入文档或存入知识库,跳过 PDF parsing 这个最让人头疼的环节。对于直接调用 LLM 分析论文的场景也同理,大模型天然对 Markdown 的理解效果更好。


天然适配 CLI-based LLM Agent

当前涌现了一批基于命令行的 LLM Agent 工具,比如 Claude Code、Cursor、Codex CLI 等,它们的共同特点是以终端为操作界面,通过调用各类 CLI 工具来完成任务。hf papers 的设计风格与这类工具天然契合:

  • hf papers search 返回的结果可以直接作为 Agent 的检索上下文
  • hf papers info 输出标准 JSON,Agent 解析元数据零成本
  • hf papers read 输出干净的 Markdown 全文,Agent 可以直接读取并分析,不需要任何格式转换

换句话说,你可以让 Agent 自主完成"搜索某个方向的最新论文 → 获取元数据筛选 → 读取全文分析"这一完整的文献调研流程,全程无需离开终端,也不需要额外的工具链。

HuggingFace 官方也意识到了这一点——1.4.0 版本同步推出了 hf skills add 命令,可以将 hf CLI 的完整文档作为 Skill 安装给 Claude Code、Codex 等 Agent,让它们知道如何调用 hf 的各个子命令。hf papers 自然也在其中。


小结

hf papers 从一个简单的"今日论文列表",几个版本迭代下来,现在已经是一个相当完整的论文获取接口:

命令功能
hf papers ls列出每日/每周/每月论文
hf papers search按关键词搜索
hf papers info获取结构化 JSON 元数据
hf papers read读取论文全文(Markdown 输出)

对于经常需要处理 AI 领域论文的朋友来说,无论是手动使用还是交给 LLM Agent 代劳,hf papers 这套组合都可以相当优雅地接入到自己的工作流里——构建个人知识库、做 RAG 实验、驱动 Agent 做文献调研。


标题:HuggingFace 为 LLM Agent 做的读论文工具:`hf papers`
作者:aopstudio
地址:https://neusoftware.top/articles/2026/04/02/1775141972250.html