文本和图片是pdf文档的重要组成部分。本文将介绍如何通过编程的方式使用c#获取pdf文档中的文本和图片并保存到本地路径。
提取pdf文档中的文本
c#
//实例化一个pdfdocument对象
pdfdocument doc = new pdfdocument();
//加载pdf文档
doc.loadfromfile("测试文档.pdf");
//实例化一个stringbuilder 对象
stringbuilder content = new stringbuilder();
//提取pdf所有页面的文本
foreach (pdfpagebase page in doc.pages)
{
content.append(page.extracttext());
}
//将提取到的文本写为.txt格式并保存到本地路径
string filename = "获取文本.txt";
file.writealltext(filename, content.tostring());
vb.net
'实例化一个pdfdocument对象
dim doc as new pdfdocument()
'加载pdf文档
doc.loadfromfile("测试文档.pdf")
'实例化一个stringbuilder 对象
dim content as new stringbuilder()
'提取pdf所有页面的文本
for each page as pdfpagebase in doc.pages
content.append(page.extracttext())
next
'将提取到的文本写为.txt格式并保存到本地路径
dim filename as [string] = "获取文本.txt"
file.writealltext(filename, content.tostring())
提取 pdf 文档中的图片
c#
//加载pdf文档
pdfdocument doc = new pdfdocument();
doc.loadfromfile("测试文档.pdf");
list listimage = new list();
for (int i = 0; i < doc.pages.count; i )
{
// 实例化一个spire.pdf.pdfpagebase对象
pdfpagebase page = doc.pages[i];
// 获取所有pages里面的图片
image[] images = page.extractimages();
if (images != null && images.length > 0)
{
listimage.addrange(images);
}
}
// 将提取到的图片保存到本地路径
if (listimage.count > 0)
{
for (int i = 0; i < listimage.count; i )
{
image image = listimage[i];
image.save("image" (i 1).tostring() ".png", system.drawing.imaging.imageformat.png);
}
}
vb.net
'加载pdf文档
dim doc as new pdfdocument()
doc.loadfromfile("测试文档.pdf")
dim listimage as new list(of image)()
for i as integer = 0 to doc.pages.count - 1
' 实例化一个spire.pdf.pdfpagebase对象
dim page as pdfpagebase = doc.pages(i)
' 获取所有pages里面的图片
dim images as image() = page.extractimages()
if images isnot nothing andalso images.length > 0 then
listimage.addrange(images)
end if
next
' 将提取到的图片保存到本地路径
if listimage.count > 0 then
for i as integer = 0 to listimage.count - 1
dim image as image = listimage(i)
image.save("image" (i 1).tostring() ".png", system.drawing.imaging.imageformat.png)
next
end if