Markitdown

微软开源的文档格式转换工具,支持将PDF、Word、Excel等15+种文件格式一键转换为Markdown

深度报告

  • MarkItDown是微软AutoGen团队开源的轻量级Python工具,可以把PDF、Word、PowerPoint、Excel、图片、音频、HTML、EPub等15种以上的文件格式一键转换为Markdown格式。2026年4月,MarkItDown登顶GitHub热榜,收获108K Star,显示出开发者社区的高度认可。 这款工具对于文本分析工具和大型语言模型(LLMs)特别有用,因为Markdown既保留了原文档的结构信息,又保持了LLM友好的格式。

  • MarkItDown支持以下文件格式:PDF、DOCX、PPTX、XLSX、图片(支持OCR)、音频、HTML、EPub、ZIP等。对于图片和PDF,工具使用LLM Vision从嵌入的图片中提取文字。 工具支持llm_client和llm_model两种模式,可以配合各种LLM进行OCR识别。

  • MarkItDown主要应用于以下场景:RAG(检索增强生成)场景、文档处理流水线、AI应用、需要处理多种文档格式的场景、企业文档管理等。

  • 通过pip即可轻松安装:pip install markitdown。使用方法简单,单行代码即可完成格式转换。MIT开源协议允许自由的商业使用。

用户评论

  • 头像
    ReidEdwards
    微软出品必属精品!108K Star不是吹的。

  • 头像
    StakeWave_n
    RAG场景神器,文档转Markdown太方便了。

  • 头像
    Douglas.RobertsII
    支持15+种格式,一个工具搞定所有文档。

  • 头像
    月光635
    PDF转Markdown效果不错,结构保留得很好。

  • 头像
    Christine_MorganX28
    pip安装就能用,太方便了!

  • 头像
    Sharon_TaylorZ
    免费开源,还要啥自行车。

  • 头像
    CarolynHernandez
    Word转Markdown效果一般,但PDF效果不错。

  • 头像
    MsJaniekBrinkhof_88
    搭配OCR插件,图片PDF也能处理。

  • 头像
    Denise.Stewart_Pro879
    LLM场景专用,格式非常友好。

  • 头像
    a1185u4
    微软AutoGen团队出品,质量有保证。

  • 头像
    HannahGutierrez_2022
    已集成到我的RAG pipeline中。

  • 头像
    Brian114_r
    用这个做文档预处理事半功倍。

  • 头像
    清风22
    GitHub热榜第一,太强了!

  • 头像
    Michael.Bell_77
    OCR功能需要额外配置LLM。

  • 头像
    DRamirezII0
    EPub格式也能转,爱了。

  • 头像
    Sophia_EvansII
    MIT协议,可以放心商用。

  • 头像
    greenduck876
    处理速度尚可,复杂PDF效果一般。

  • 头像
    Barbara_Morris_2021
    对微软自家产品解析效果最好。

  • 头像
    ShibShack179
    推荐配合LangChain使用。

  • 头像
    JordanMoore_Plus
    Python专用挺好,Node.js表示羡慕。