陸の部屋では、パソコンに関する情報や自作ソフトの配布などを行っています。

本文へジャンプ



WordやPDFファイルからテキストを抽出するソフト 「XDOC2TXT」の紹介

このページの目次

初めに
対応形式
XDOC2TXTのダウンロード
インストール
設定方法
使い方

初めに

 視覚障碍者の皆さん、PDFやWord文書って読むのがめんどくさいと思ったことありませんか?
 Wordは重いし、PDFは読めないし…。
 そこで、今回は、そんな読みにくいWordやPDFのファイルからテキストだけ抜き出してくれるソフト「XDOC2TXT」を紹介します。
 これを使えば、使いづらい「Microsoft Office Word」や「Adobe Reader」を使わず、普段慣れたエディタ(メモ帳など)で読むことができます。
 それに、メモ帳とかだから、動作も軽くて済むし、テキストが読めるメディアにコピーすれば、どこでも読むことができるようになります。
 また、このソフトの特徴は、PDFやWord等を閲覧するソフトがなくても返還できるところです。
 だから、極端に言えば、OSとスクリーンリーダーとこのソフトとメモ帳があれば動くということです。
 でも、たいていいろんなソフトが入ってますよね。
 先ほども言いましたが、閲覧ソフトがなくてもよいので、筆者はAdobe Readerをアンインストールしました。(わらい)
 Adobe Readerは、閲覧だけだから、わざわざあんな重くて、容量をたくさん消費するソフトを入れなくてもいいかと思ったからです。

対応形式

 このソフトの対応形式は以下のものになります。
 以下、
 拡張子:形式名
の順に示します。

  1. .sxw:OpenOffice.org Writer
  2. .sxc:OpenOffice.org Calc
  3. .sxi:OpenOffice.org Impress
  4. .sxd:OpenOffice.org Draw
  5. .odt:Open Document (text documents)
  6. .ods:Open Document (spreadsheet documents)
  7. .odp:Open Document (presentation documents)
  8. .odg:Open Document (drawing documents)
  9. .docx/.docm:WORD 2007
  10. .xlsx/.xlsm:Excel 2007
  11. .pptx/.pptm:PowerPoint 2007
  12. .doc:WORD ver5.0/95/97/2000/Xp/2003
  13. .xls:Excel ver5.0/95/97/2000/Xp/2003
  14. .ppt:PowerPoint 97/2000/Xp/2003
  15. .rtf:リッチテキスト
  16. .jaw/jtw:一太郎 ver5
  17. .jbw/juw:一太郎 ver6
  18. .jfw/jvw:一太郎 ver7
  19. .jtd/jtt:一太郎 ver8/9/10/11/12
  20. .oas/oa2/oa3:OASYS/Win
  21. .bun:新松/松5/松6
  22. .wj2/wj3/wk3/wk4/123:Lotus 123
  23. .wri:Windows3.1 Write
  24. .pdf:Adobe PDF
  25. .mht/html:HTML
  26. .eml:OutlookExpressのMailエクスポート形式
 たくさんありますね。
 ざっと数えてみると、大体30種類くらいです。
 これだけのソフトを入れてたら、いったい容量はいくら消費するんでしょう…。
 たぶん、1GBくらいかなあ…。
 これだけのソフトがいらないんですから、閲覧しかしないなら、とても便利です。
 何より、他人からもらった文書が、自分のパソコンで読めないときに使えるかもしれないので、ぜひ、晴眼者の方も持っておくことをお勧めします。

XDOC2TXTのダウンロード

 このソフトは、以下のURLからダウンロードできます。


 ソフト名:XDOC2TXT
 作者:Hishida
 URL:XDOC2TXT ダウンロードページ


 このページの「Ver2.x(Unicode版)」の下にあるリンクをクリックして、ZIPファイルをダウンロードしてください。

インストール

 このソフトのインストールは不要です。
 ダウンロードしたファイルを解凍して、できたフォルダを好きなところに置いてください。

設定方法

 回答したフォルダ内の「command」というフォルダの中にある「xdoc2txt.exe」というファイルのところで、Shift+F10を押し、下矢印キーで「ショートカットの作成」というところまでいき、Enterキーを押します。
 すると、そのフォルダ内に最後に「ショートカット」という文字がついたファイルが現れますので、F2キーを押して、ピリオドから先をすべて削除してください。
 次に、そのファイルのところで、Ctrl+Xを押して、そのファイルを切り取ってください。
 それができたら、その画面は閉じてもよいです。
 続いて、Windowsキー+Rキーを押して、出てくるエディットボックスに次のように入力してください。
 入力文字:
shell:sendto
 入力できたら、Enterキーを押してください。
 すると、フォルダが開きますので、Ctrl+Vを押して、先ほど切り取ったファイルを貼り付けてください。
 それが終わったら、先ほどのファイルのところで、Alt+Enterキーを押して、「プロパティ」を開いてください。
 その中の「リンク先」というところに、文字が表示されているので、その文字の後に次のように入力してください。
 入力文字:
「半角スペース」「半角ハイフン」「半角小文字のf」
 入力し終わった時に書かれている文字の例はこんな感じになります。
 完成例:C:\MyProgram\xdoc2txt\command\xdoc2txt.exe -f
 これが終わったら、Enterを押してください。
 すると、先ほど開いたフォルダに戻ってくるので、その画面は閉じてもよいです。

使い方

 まず、変換したいPDFやWordのファイルを探します。
 そして、アプリケーションキーまたはShift+F10を押し、Nを押します。  すると、「送る」メニューが開くので、下矢印を押していき、先ほど作ったショートカットのところでEnterを押します。
 しばらく待つと、元ファイルが置いてあるフォルダの中に、テキストに変換された文書が現れますので、それを開いて読んでみてください。
 PDFは、文書の構造によってはうまく変換されないこともありますが、大体の内容はつかめると思います。
 これで、読めなかったあるいは読みにくいファイルも読めるようになりますね。
 ぜひ、試してみてください。

 以上で今回は終わりです。


(最終更新日:2019年8月28日)