这篇文章将介绍如何使用spire.doc组件读取word文档的文本内容。
spire.doc提供了两种方法来读取word文档的文本内容,一种是通过document.gettext方法直接读取文档中的所有文本,另一种是遍历文档中的节和其中的段落,然后获取段落的文本。下面将逐一介绍这两种方法。
word文档截图:
直接获取所有文本
c#
//加载word文档
document doc = new document();
document.loadfromfile(@"测试文档.docx");
//使用gettext方法获取文档中的所有文本
string s = doc.gettext();
file.writealltext("文本1.txt", s.tostring());
vb.net
'加载word文档
dim doc as document = new document
document.loadfromfile("测试文档.docx")
'使用gettext方法获取文档中的所有文本
dim s as string = doc.gettext
file.writealltext("文本1.txt", s.tostring)
遍历段落获取文本
c#
//加载word文档
document document = new document();
document.loadfromfile(@"测试文档.docx");
stringbuilder sb = new stringbuilder();
//遍历节和段落,获取段落中的文本
foreach (section section in document.sections)
{
foreach (paragraph paragraph in section.paragraphs)
{
sb.appendline(paragraph.text);
}
}
file.writealltext("文本2.txt", sb.tostring());
vb.net
'加载word文档
dim document as document = new document
document.loadfromfile("测试文档.docx")
dim sb as stringbuilder = new stringbuilder
'遍历节和段落,获取段落中的文本
for each section as section in document.sections
for each paragraph as paragraph in section.paragraphs
sb.appendline(paragraph.text)
next
next
file.writealltext("文本2.txt", sb.tostring)