将 word 文档转换为 html 可轻松实现在线共享和发布文档内容。此外,html 内容对搜索引擎更友好,因此转换为 html 还能让搜索引擎更好地理解和索引您的内容,提高其在搜索结果中的排名。本文将演示如何使用 spire.doc for python 通过代码实现 word 转 html。
安装 spire.doc for python
本教程需要用到 spire.doc for python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 vs code 中。
pip install spire.doc
如果您不确定如何安装,请参考本教程:如何在 vs code 中安装 spire.doc for python
python 将 word doc/docx 转换为 html
spire.doc for python 提供的 document.savetofile(filename string, fileformat.html) 方法可以轻松地将 doc 或 docx 文档保存为 html 文件。具体步骤如下。
- 创建一个 document 类的对象。
- 使用 document.loadfromfile() 方法加载一个 word 文档。
- 使用 document.savetofile() 方法将 word 转换为 html 文件。
- python
from spire.doc import *
from spire.doc.common import *
# 创建document对象
document = document()
# 加载一个doc或docx文档
document.loadfromfile("清单.docx")
# 保存为html文件
document.savetofile("output/word转html.html", fileformat.html)
document.close()
python 将 word 转换为 html 并设置导出选项
spire.doc for python 还提供了 htmlexportoptions 类,用于在转换过程中设置 word 到 html 的导出选项,例如是否嵌入 css 样式、图像以及是否将表单域导出为纯文本等。具体步骤如下。
- 创建一个 document 类的对象。
- 使用 document.loadfromfile() 方法加载 word 文档。
- 使用 document.htmlexportoptions.cssstylesheettype 属性设置嵌入 css 样式。
- 使用 document.htmlexportoptions.imageembedded 属性设置是否嵌入图像。
- 使用 document.htmlexportoptions.istextinputformfieldastext 属性设置是否以纯文本形式导出表单字段。
- 使用 document.savetofile() 方法保存结果文档。
- python
from spire.doc import *
from spire.doc.common import *
# 创建document对象
document = document()
# 加载word文档
document.loadfromfile("statement.docx")
# 嵌入css样式
document.htmlexportoptions.cssstylesheetfilename = "sample.css"
document.htmlexportoptions.cssstylesheettype = cssstylesheettype.external
# 设置是否嵌入图像
document.htmlexportoptions.imageembedded = false
document.htmlexportoptions.imagespath = "images/"
# 设置是否将表单字段导出为纯文本
document.htmlexportoptions.istextinputformfieldastext = true
# 将文档保存为 html 文件
document.savetofile("tohtmlexportoption.html", fileformat.html)
document.close()
申请临时 license
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用javascript。获取有效期 30 天的临时许可证。