网站搜索

如何从 Word、Excel 和 PowerPoint 文档中提取图像、文本和嵌入文件


假设有人向您发送了一个包含大量图像的 Word 文档,您希望将这些图像保存在硬盘上。您可以使用一个简单的技巧从 Microsoft Office 文档中提取图像。

如果您有嵌入了图像或其他文件的 Word (.docx)、Excel (.xlsx) 或 PowerPoint (.pptx) 文件,您可以提取它们(以及文档的文本),而无需分别保存每个文件.最重要的是,您不需要任何额外的软件。基于 Office XML 的文件格式(docx、xlsx 和 pptx)实际上是压缩存档,您可以像使用 Windows 的任何普通 .zip 文件一样打开它们。从那里,您可以提取图像、文本和其他嵌入文件。您可以使用 Windows 的内置 .zip 支持,或者如果您愿意,可以使用 7-Zip 等应用程序。

如果您需要从旧的办公文档中提取文件(如 .doc、.xls 或 .ppt 文件),您可以使用一小块免费软件来完成。我们将在本指南末尾详细介绍该过程。

如何提取较新的 Office 文件(.docx、.xlsx 或 .pptx)的内容

要访问基于 XML 的 Office 文档的内部内容,请打开文件资源管理器(或 Windows 7 中的 Windows 资源管理器),导航到要从中提取内容的文件,然后选择该文件。

按“F2”重命名文件并将扩展名(.docx、.xlsx 或.pptx)更改为“.zip”。保留文件名的主要部分。完成后按“Enter”。

以下对话框显示警告您更改文件扩展名。单击“是”。

Windows 自动将该文件识别为压缩文件。要提取文件的内容,请右键单击该文件并从弹出菜单中选择“全部提取”。

在“选择目标并提取文件”对话框中,将提取 .zip 文件内容的路径显示在“文件将被提取到此文件夹”编辑框中。默认情况下,会在与 .zip 文件相同的文件夹中创建一个与文件名同名的文件夹(不带文件扩展名)。要将文件提取到不同的文件夹,请单击“浏览”。

导航到要提取 .zip 文件内容的位置,如有必要,单击“新建文件夹”以创建新文件夹。单击“选择文件夹”。

要打开文件资源管理器(或 Windows 资源管理器)窗口,其中包含提取文件的文件夹会在提取后显示,请选中“完成后显示提取的文件”复选框,以便该框中有复选标记。单击“提取” ”。

如何访问提取的图像

如果您的原始文件是 Word 文档(或 Excel 文档为 \xl,PowerPoint 文档为 \ppt),则提取的内容中包含一个名为 \word 的文件夹。双击\word”文件夹打开它。

双击“媒体”文件夹。

原始文件中的所有图像都在 \media 文件夹中。提取的文件是文档使用的原始图像。在文档中,可能有调整大小或其他属性设置,但提取的文件是未经处理的原始图像这些属性应用。

如何访问提取的文本

如果您的 PC 上没有安装 Office,并且您需要从 Word(或 Excel 或 PowerPoint)文件中提取文本,您可以在“word”中的“document.xml”文件中访问提取的文本“ 文件夹。

您可以在文本编辑器(如记事本或写字板)中打开此文件,但在特殊的 XML 编辑器(如免费程序 XML 记事本)中更容易阅读。无论文档本身应用的样式和/或格式如何,文件中的所有文本都以纯文本块的形式提供。当然,如果你要下载免费软件来查看本文,不妨下载LibreOffice,它可以阅读Microsoft Office文档。

如何提取嵌入的 OLE 对象或附加文件

要在无法访问 Word 时访问 Word 文档中的嵌入文件,请首先在写字板(内置于 Windows 中)中打开 Word 文件。您可能会注意到一些嵌入的文件图标没有显示,但它们仍然存在。一些嵌入的文件可能有部分文件名。写字板不支持 Word 的所有功能,因此某些内容可能无法正常显示。但是您应该能够访问这些文件。

如果我们右键单击示例 Word 文件中的一个嵌入文件,其中一个选项是“打开 PDF 对象”。这会在您 PC 上的默认 PDF 阅读器程序中打开 PDF 文件。从那里,您可以保存PDF 文件到您的硬盘驱动器。

如果写字板没有打开文件的选项,请在此处记下文件类型。例如,本文档中的第二个文件是 .mp3 文件。

然后,返回到“[Document] 中的文件”文件夹并双击“word”文件夹中的“embeddings”文件夹。

不幸的是,文件类型没有保留在文件名中。它们都有一个“.bin”文件扩展名。如果您知道文件中嵌入了哪些类型的文件,您可能可以根据文件的大小推断出哪个文件是哪个文件。在我们的示例中,我们有一个 PDF 文件和嵌入在我们文档中的 MP3 文件。因为 MP3 文件很可能比 PDF 文件大,我们可以通过查看文件的大小来确定哪个文件是哪个文件,然后使用正确的扩展名重命名它们。下面,我们正在重命名 MP3 文件。

请注意,并非所有文件都必须使用此过程打开——例如,我们的 PDF 文件可以从写字板正确打开,但我们无法通过重命名其 .bin 文件来打开它。

提取压缩文件的内容后,您可以将原始文件的扩展名恢复为 .docx、.xlsx 或 .pptx。该文件将保持完整,并可以在相应的程序中正常打开。

如何从较旧的 Office 文档(.doc、.xls 或 .ppt)中提取图像

如果您需要从 Office 2003(或更早版本)文档中提取图像,可以使用一个名为 Office Image Extraction Wizard 的免费工具来简化此任务。该程序还允许您一次从多个文档(相同或不同类型)中提取图像。下载程序并安装(如果您不想安装,也可以使用便携式版本)。

运行程序,欢迎屏幕显示。点击下一步”。

首先,我们需要选择要从中提取图像的文件。在“输入和输出”屏幕上,单击“文档”编辑框右侧的“浏览”(文件夹图标)按钮。

导航到包含所需文档的文件夹,选择它,然后单击“打开”。

包含所选文件的文件夹自动成为输出文件夹。要在该文件夹中创建一个与所选文件同名的子文件夹,请单击“在此处创建一个文件夹”复选框,以便该框中有一个复选标记。然后,单击“下一步”。

在“准备开始”屏幕上,单击“开始”开始提取图像。

提取过程中会显示以下屏幕。

在完成屏幕上,单击“单击此处打开目标文件夹”以查看生成的图像文件。

因为我们选择创建一个子文件夹,所以我们得到了一个包含从文件中提取的图像文件的文件夹。

您将看到所有图像作为编号文件。

您还可以一次从多个文件中提取图像。为此,在“输入和输出”屏幕上,单击“批处理模式”复选框,使框中有一个复选标记。

显示批输入和输出屏幕。单击“添加文件”。

在“打开”对话框中,导航到包含要从中提取图像的任何文件的文件夹,使用“Shift”或“Ctrl”键选择多个文件,然后单击“打开”。

您可以通过再次单击“添加文件”从另一个文件夹添加文件,导航到“打开”对话框中的文件夹,选择所需的文件,然后单击“打开”。

添加完要从中提取图像的所有文件后,您可以选择为每个文档创建一个单独的文件夹,方法是单击“为保存图像文件的每个文档创建一个文件夹”每个文档”复选框,因此该框中有一个复选标记。

您还可以将输出文件夹指定为“与每个文件的输入文件夹相同”,或者使用该选项下方的编辑框和“浏览”按钮输入或选择自定义文件夹。选择所需的选项后,单击“下一步”。

在“准备开始”屏幕上单击“开始”。

以下屏幕显示提取进度。

提取的图像数量显示在完成屏幕上。单击“关闭”关闭 Office 图像提取向导。

如果您选择为每个文档创建一个单独的文件夹,您将看到与包含图像的文件同名的文件夹,无论您指定哪个输出文件夹。

同样,我们将所有图像作为每个文档的编号文件获取。

现在您可以重命名图像、移动它们并在您自己的文档中使用它们。只要确保您有权合法使用它们即可。