发布于8月12日8月12日 项目简介MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。MinerU诞生于书生-浦语的预训练过程中,我们将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。主要功能删除页眉、页脚、脚注、页码等元素,确保语义连贯输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版保留原文档的结构,包括标题、段落、列表等提取图像、图片描述、表格、表格标题及脚注自动识别并转换文档中的公式为LaTeX格式自动识别并转换文档中的表格为HTML格式自动检测扫描版PDF和乱码PDF,并启用OCR功能OCR支持84种语言的检测与识别支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检支持纯CPU环境运行,并支持 GPU(CUDA)/NPU(CANN)/MPS 加速兼容Windows、Linux和Mac平台快速开始在线体验MinerU的效果:https://mineru.net/OpenSourceTools/Extractor?source=githubhttps://www.modelscope.cn/studios/OpenDataLab/MinerUhttps://huggingface.co/spaces/opendatalab/MinerU本地部署使用 pip 或 uv 安装 复制代码 隐藏代码 # 将当前 Python 环境中的 pip 工具升级到最新版本 pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simple # 使用 pip 从阿里云镜像源安装名为 uv 的 Python 包 pip install uv -i https://mirrors.aliyun.com/pypi/simple # 使用 uv 工具安装或升级名为 mineru 的包,并且安装的是带有 core 可选依赖的版本 uv pip install -U "mineru[core]" -i https://mirrors.aliyun.com/pypi/simple 可视化调用使用gradio webui 或 gradio api调用 复制代码 隐藏代码 # 使用 pipeline/vlm-transformers/vlm-sglang-client 后端 mineru-gradio --server-name 127.0.0.1 --server-port 7860 # 或使用 vlm-sglang-engine/pipeline 后端 mineru-gradio --server-name 127.0.0.1 --server-port 7860 --enable-sglang-engine true在浏览器中访问 http://127.0.0.1:7860 使用 Gradio WebUI 或访问 http://127.0.0.1:7860/?view=api 使用 Gradio API。已知问题阅读顺序基于模型对可阅读内容在空间中的分布进行排序,在极端复杂的排版下可能会部分区域乱序对竖排文字的支持较为有限目录和列表通过规则进行识别,少部分不常见的列表形式可能无法识别代码块在layout模型里还没有支持漫画书、艺术图册、小学教材、习题尚不能很好解析表格识别在复杂表格上可能会出现行/列识别错误在小语种PDF上,OCR识别可能会出现字符不准确的情况(如拉丁文的重音符号、阿拉伯文易混淆字符等)部分公式可能会无法在markdown中渲染普通用户:每天可解析2000页官网入口:https://mineru.netgithub仓库:https://github.com/opendatalab/MinerU官网下载地址:https://mineru.net/client本地部署版 MinerU 2.0 CPU 版本:初始版本双击 main.exe 启动 链接: https://pan.baidu.com/s/1hYZwIdxCImgnLaqDxjbKNg?pwd=ey8z通过网盘分享的文件:MD5 的 mineruBat.zip 哈希: 0820328fd00f92bf1c1a7c872cfce3de 更新版本说明:先下载初始版本再下载更新版本 根目录下解压替换初始版本 双击 setup.bat 启动程序双击 upgrade.bat 更新程序双击 setIP.bat 输入电脑IP, 黏贴浏览器地址提供给同事们使用,同时,手机也可以访问使用(需在同一个局域网内)mineruBat.zip
参与讨论
你可以现在发布并稍后注册. 如果你有帐户,现在就登录发布帖子.