C#/VB.NET中从 PDF 文档中提取所有表格_开发_开发者

开发者 https://www.devze.com 2022-12-01 12:51 出处：网络作者： wx62c7d51fdb3c6

目录前言安装从PDF文档中提取表格前言有时，我们可能需要从PDF文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中，我将介绍如何使用S...

前言

有时，我们可能需要从 PDF 文档中提取表格数据，例如，当PDF发票的表格中存储了一些有用的信息，需要提取数据以进行进一步分析时。在这篇文章中，我将介绍如何使用Spire.PDF for .NET 从 PDF 文档中提取所有表格数据。

安装

首先，我们需要将 Spire.PDF for .NET 包中包含的 DLL 文件添加为 .jsNET 项目中的引用。可以从此链接下载 DLL 文件，也可以通过 NuGet 安装 DLL 文件。

PM> Install-Package Spire.PDF

从PDF文档中提取表格

Spire.PDF提供了PdfTableExtractor.ExtractTable()方法，用于从特定页面中提取表格。以下是从整个PDF文档中提取表格的详细步骤。

创建一个Document类的对象，并加载源 PDF 文件。
遍历文档中的页面，并使用ExtractTable()方法从特定页面获取表格列表。
遍历特定表格中的单元格，并通过PdfTable.GetText()方法获取单元格值。
将所提取的数据写入 TXT 文件。

[C#]

using Spire.Pdf;
using Spire.Pdf.Utilities;
using System.IO;
using System.Text;

namespace ExtractTable
{
class Program
{
static void Main(string[] args)
{
//实例化PdfDocument类的对象
PdfDocument pdf = new PdfDocument();

//加载PDF文档
pdf.LoadFromFile("sample.pdf");

//创建StringBuilder类的对象
StringBuilder builder = new StringBuilder();

//实例化PdfTableExtractor类的对象
PdfTableExtractor extractor = new PdfTableExtractor(pdf);

//声明一个PdfTable类的表格数组
PdfTable[] tableLists;

//遍历PDF页面
for (int pageIndex = 0; pageIndex < pdf.Pages.Count; pageIndex++)
{
//从页面提取表格
tableLists = extractor.ExtractTable_javascript(pageIndex);

//判断表格列表是否为空
if (tableLists != null && tableLists.Length > 0)
{
//遍历表格
foreach (PdfTable table in tableLists)
{
//获取表格中的行和列数
int row = table.GetRowCount();
int column = table.GetColumnCount();

//遍历表格行和列
for (int i = 0; i < row; i++)
{
for (int j = 0; j < column; j++)
{
//获取行和列中的文本
string text = table.GetText(i, j);

//写入文本到StringBuilder容器
builder.Append(text + " ");
}
builder.Append("\r\n");
}
}
}
}
//保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString());
}
}

vb.net

Imports Spire.Pdf
Imports Spirewww.devze.com.Pdf.Utilities
Imports System.IO
Imports System.Text

Namespace ExtractTable
Class Program
Private Shared Sub Main(args As String())
'实例化PdfDocument类的对象
Dim pdf As Ne开发者_开发学习w PdfDocument()

'加载PDF文档
pdf.LoadFromFile("sample.pdf")

'创建StringBuilder类的对象
Dim builder As New StringBuilder()

'实例化PdfTableExtractor类的对象
Dim extractor As New PdfTableExtractor(pdf)

'声明一个PdfTable类的表格数组
Dim tableLists As PdfTable()

'遍历PDF页面
For pageIndex As Integer = 0 To pdf.Pages.Count - 1
'从页面提取表格
tableLists = extractor.ExtractTable(pageIndex)

'判断表格列表是否为空
If tableLists IsNot Nothing AndAlso tableLists.Length > 0 Then
'遍历表格
For Each table As PdfTable In tableLists
'获取表格中的行和列数
Dim row As Integer = table.GetRowCount()
Dim column As Integer = table.GetColumnCount()

'遍历表格行和列
For i As Integerphp = 0 To pythonrow - 1
For j As Integer = 0 To column - 1
'获取行和列中的文本
Dim text As String = table.GetText(i, j)

'写入文本到StringBuilder容器
builder.Append(text & Convert.ToString(" "))
Next
builder.Append(vbCr & vbLf)
Next
Next
End If
Next

'保存提取的表格内容为.txt文档
File.WriteAllText("ExtractedTable.txt", builder.ToString())
End Sub
End Class
End Namespace

C#/VB.NET中从 PDF 文档中提取所有表格