有时我们可能需要获取pdf页面中某个区域内的文本而不是全部的文本。本文将介绍如何使用spire.pdf组件提取pdf页面中指定矩形区域内的文本。
以下是我们所使用的示例文档截图,红色矩形区域是即将提取文本的区域。
c#
//创建pdfdocument实例
pdfdocument pdf = new pdfdocument();
//加载pdf文档
pdf.loadfromfile("input.pdf");
//获取第一页
pdfpagebase page = pdf.pages[0];
//从第一页的指定矩形区域内提取文本
string text = page.extracttext(new rectanglef(50, 50, 500, 100) );
//将文本写入.txt文件
stringbuilder sb = new stringbuilder();
sb.appendline(text);
file.writealltext("extract.txt", sb.tostring());
vb.net
'创建pdfdocument实例
dim pdf as new pdfdocument()
'加载pdf文档
pdf.loadfromfile("input.pdf")
'获取第一页
dim page as pdfpagebase = pdf.pages(0)
'从第一页的指定矩形区域内提取文本
dim text as string = page.extracttext(new rectanglef(50, 50, 500, 100))
'将文本写入.txt文件
dim sb as new stringbuilder()
sb.appendline(text)
file.writealltext("extract.txt", sb.tostring())
效果图: