Aqlier/ 12月 16, 2022/ tech

画像・ PDF ファイルから、テキストデータ(文章)を参照しなければならないときがあります。

コピペができるか?できないか?
この結果によって、このあとの作業量を大きく左右します。

一部 PDF ファイルではテキスト文字が容易に抽出できると、そのままコピペ対応で進めることができます。

テキスト文字が容易に抽出できないと、手入力。
ページ数・文字数が多い場合でも、ひたすら手入力??

そんなことを回避できるかもしれない方法です。
コピペできない画像・PDFファイルから、文字を抽出する方法をまとめました。

サンプルデータ(sample_fime.png) 簡単なデータです。
敢えて行で、フォントを変えてみました。


操作方法
1.Google Chromeで、Googleアプリボタン(右上)を押します。使用に当たってサインインは行っている状態です。アプリの中から、ドライブを選択します。

2.左上の「+(新規)」を押して、「ファイルのアップロード」を選択します。

3.該当する画像・ PDF ファイルアップロードします。

4.アップロードしたデータ(下記矢印)を右クリックして「アプリで開く」ー「Google ドキュメント」を開きます。

5.しばらくすると、画面に変換されたデータが表示されますので、テキストをコピーします。
このデータを保存してもOKですが、使い道がないのでそのまま文字だけ抽出しました。

複雑なデータの場合、変換がうまくいかないで文字化けが発生することや、データの作り方で、変換位置がずれることもありますので、100%の信頼度(完成度)ではないです。

6.使用する環境(アプリケーション)にあわせてペーストします。EXCELにペーストした場合の例です。

 

0 0 投票
記事の評価
0 Comments
Inline Feedbacks
View all comments