34
PDFをWord(および他の形式)に変換する方法

PDFファイル形式は、文書の書式を維持したまま共有したり、文書が変更されないようにしたりするのに最適なツールです(例えば契約書など)。しかし、 PDFのテキストを使用しなければならない場合もあります。段落、ページ、あるいは複数のページをコピーし、Microsoft Word文書、あるいは他のワードプロセッサやテキストエディタで編集する必要があるかもしれません。PDF内のテキストを選択することはできますが、テキストが著しく改変されている可能性があります。改行が不自然だったり、改行が全くなかったり、スタイルが失われていることがよくあります。しかし、PDFを書式設定されたテキストに変換する方法はあります。その方法をご紹介します。

オートメーターロボット

最初の方法は最も安価で、OS Xに付属のツールであるAutomatorを使用します。Automatorを使えば、PDFからテキストを抽出し、テキストまたはRTF文書として保存するワークフローを作成できます。

アプリケーションフォルダにあるAutomatorを開きます。最初に表示される画面で、ワークフローの作成を選択します。左端の列にある「ファイルとフォルダ」をクリックし、2番目の列にある「Finder項目の確認」をAutomatorウィンドウの右側にある大きなセクションにドラッグします。

次に、左端の列の PDF をクリックし、2 番目の列から「PDF テキストの抽出」を右にドラッグした最初の項目の下のポイントまでドラッグします。

Automatorの2つ目のアクションでは、PDFから抽出したテキストをプレーンテキストで保存するか、リッチテキストで保存するかを選択できます。ほとんどの場合、太字や斜体などの書式設定が保持されるため、2つ目のオプションにチェックを入れることをお勧めします。Word、Appleのテキストエディット、Pages、その他ほとんどのテキストエディタはリッチテキスト形式に対応しています。

Automatorワークフロー
PDFからテキストを抽出するシンプル(かつ低コスト)な方法は、Automatorワークフローを使うことです。Automatorの2つのアクションを追加すると、ウィンドウは次のようになります。

Command+Sを押します。ワークフローに「PDF to RTF」などの名前を付け、「ファイル形式」ポップアップメニューから「アプリケーション」を選択します。最後に「保存」をクリックします。このアプリケーションを起動し、表示される画面でPDFファイルを選択するだけで、Automatorが自動的に処理を開始します。表示されるファイルを開きます。元のファイルと同じ名前ですが、拡張子は.rtfです。この文書をWordで開くと、PDFファイルのテキストが表示されます。テキストの書式設定はされていますが、レイアウト(段組みなど)はされていません。このテキストは少し乱雑かもしれませんが、編集したり、コピーして他の文書で使用したりできます。

専用のプログラムを使用して文書を変換する

Solid PDF から Word へ

PDFをWord文書に変換し、書式や画像も保持できるプログラムは数多くあります。テキストだけでなく、PDFのような見た目のWord文書を作成したい場合は、この方法を使う必要があります。

最も効果的なツールの一つは、Solid Documentsの80ドル(Solid PDF To Word For Mac)[http://www.mac-pdf-converter.com/]です。このソフトは、PDFをWord文書に変換する際に、元の書式設定をほぼすべて、あるいは完全に保持します。(このソフトは、PDFをAppleのPages形式、Excel、HTMLなどにも変換できます。)

このプログラムを使って、 Macworld誌、Take Controlの書籍、CDの冊子など、複雑なPDFファイルをいくつも変換しました。Solid PDF To Wordは変換に少し時間がかかりますが、Wordファイルは元のファイルとほぼ同じです。

変換結果
Solid PDF To Word を使って、複雑な書式設定を持つ Macworld の号を変換しました。ご覧の通り、変換後の Word ファイル(右)は元の PDF ファイル(左)とよく似ています。ただし、右のページにも見られるように、このプログラムは数字の変換に若干の問題を抱えていました。

これらの変換は完璧ではありません。類似のフォントが使用され、グラフィックは保持され、レイアウトもほぼ維持されますが、多少の不具合が生じる可能性があります。私のテストでは、WordでMacworldの変換版を表示するのに苦労し、複雑な書式設定とページ番号の付け替えに苦労したため、テキストが点滅しました。しかし、Take Controlの書籍はほぼ完璧に表示され、CDブックレットも同様でした。

ほとんどのPDFコンテンツにアクセスするには、結果が十分に優れていることにお気づきいただけるでしょう。レイアウトがシンプルなPDFであれば、結果のコンテンツはほぼ完璧です。文書を修正して印刷したり、場合によっては新しいPDFを作成したりすることも可能です。

ニーズに応じて、テキストのみ、またはすべてを含むPDFの変換方法を2通りからお選びいただけます。お好きな方をお選びください。

シニア寄稿者のKirk McElhearn氏は、自身のブログKirkvilleでMac以外の記事も書いています。Twitter: @mcelhearn Kirk氏は『Take Control of Scrivener 2』の著者です。