【亲测可用】Python 将 PDF 转换为 Word

大家好,在平时的工作中,我们总会希望将需要的 PDF 文件转换为 Word 文件,而市面上很多工具都是收费的,这无疑增加了我们的成本。

所以,我使用 Python 编写了一个转换代码,可以 将 PDF 转换为 Word,完全是免费的,在这里分享给大家。

上面的 GIF 图片就是转换的过程。在使用前,需要安装 pdf2docx 库,下面是详细教程。

安装 pdf2docx

该库可以将 PDF 文件转换为 Word 文件,它使用 PyMuPDF 从 PDF 中提取数据,使用规则解析布局,并使用 python-docx 生成 docx 文件。

当然该库还有一些限制,并不是所有 PDF 都能解析的:

  • 必须是基于文本的 PDF 文件
  • 文字必须从左到右
  • 阅读方向正常,无文字变换/旋转
  • 基于规则的方法也不能 100% 转换 PDF 布局
pip install pdf2docx

转换代码

pdf 文件转换为 docx 文件:

# 将 pdf 文件转换为 docx 文件
def pdf2docx(pdf_file, docx_file):
    cv = Converter(pdf_file)
    cv.convert(docx_file)
    cv.close()

# 以下是实操案例代码
from pdf2docx import Converter

def pdfToWord(pdf_file_path=None, word_file_path=None):
    # Creating a Converter object.
    pdf_file_path = r"C:\Users\Administrator\Desktop\1.pdf"
    converter_ = Converter(pdf_file_path)
    word_file_path = r"C:\Users\Administrator\Desktop\1.docx"
    converter_.convert(word_file_path, start=0, end=None)
    converter_.close()

pdfToWord()

转换效果:

网站声明: 1.本站大部分资源搜集于网络,仅代表作者观点,如有侵权请提交修改。 2.网站内容仅网站站长做个人学习摘记,任何人不得用于其他商业用途,网站发表的内容全权归原作者所有。 3.有任何疑问,可以点击右侧边栏的联系QQ进行咨询 4.本网站部分内容来自于其他网站平台的,版权归原网站所有,本网站只作信息记录,自己学习使用,特此申明,本站用户也不得使用此信息内容做其他商业用途。
白丁学者 » 【亲测可用】Python 将 PDF 转换为 Word

发表回复

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据