#4: デジタル思考③:様々なデータの活用(マルチモーダル)
文字入力だけじゃない。手書きメモも、会議音声も、PDFもAIに読ませる技術
📊 難易度: 初級
🎯 学習スキル: マルチモーダルAI、OCR活用、文字起こし、ファイル分析
導入
「AIを使うには、キーボードでたくさん文章を打たないといけない」と思っていませんか? それは大きな誤解です。
最新のAIは、私たちと同じように「目(画像認識)」や「耳(音声認識)」を持っています。ホワイトボードの写真、手書きのアンケート、英語のPDFマニュアル、会議の録音データ。これらをそのままAIに渡せば、一瞬でデジタルデータに変換し、要約してくれます。
Week 4では、デジタル思考の総仕上げとして、テキスト以外の情報をAIに処理させる「マルチモーダル活用」を学びます。
💡 この週で得られること
手入力の時間をゼロにします。紙の資料や音声データをAIに直接読み込ませ、分析させることで、アナログ業務を一気にデジタル化する技術が身につきます。
この章で登場する用語
📖 この章で登場する用語
学習内容
1. 「読む」AI:画像とPDFの活用
ChatGPTやClaudeには「クリップマーク(添付ボタン)」があります。ここにファイルをアップロードするだけで、AIはその内容を理解します。
| 読み込めるもの | 活用シーンの例 |
|---|---|
| 手書きのメモ・ホワイトボード | 会議後のホワイトボードをスマホで撮り、AIに送って「決定事項を箇条書きにして」と指示する。 |
| 紙のアンケート用紙 | 写真を撮って「回答内容を表(CSV形式)にまとめて」と指示し、Excel転記を自動化する。 |
| 長いPDFマニュアル | アップロードして「P20〜30の経費精算の手順だけ要約して」と指示し、読む時間を短縮する。 |
💡 ポイント
AIに画像を見せる時は、人間が見る時と同じです。「この画像の右上の部分を見て」や「赤字で書いてあるところだけ読み取って」といった指示も通じます。これを「視覚的なプロンプト」と呼びます。
2. 「聞く」AI:音声データの活用
スマートフォン版のChatGPTアプリには会話機能があり、PC版でも音声ファイルをアップロードして分析させることができます。
- 議事録作成: 録音データを文字起こしツール(WhisperやWordの機能)でテキスト化し、それをAIに投げて「要約」「ToDo抽出」「決定事項の整理」を行わせる。
- アイデア出し: 散歩中などに思いついたことを喋ってAIに聞かせ、「今の話を企画書っぽく整えて」と頼む。
3. デジタル思考の統合:アナログをデータに変える
Week 2で学んだ「構造化(マークダウン/YAML)」と、今回の「マルチモーダル」を組み合わせると最強です。
例えば、手書きの表を写真で撮り、AIにこう指示します。
「この画像の内容を読み取り、マークダウンの表形式で出力してください」
これだけで、手入力の手間がゼロになり、すぐに再利用可能なデータが手に入ります。
実践演習
手元にある「紙」や「画像」を使って、AIの視覚能力を試してみましょう。
演習課題:手書きメモのデジタル構造化
手近な紙に、今週の予定や買い物リストを適当に手書きしてください。それをスマホで撮影し、以下のプロンプトと共にAIにアップロードしてください。
🤖 プロンプト例(画像添付と一緒に使用)
あなたは優秀な秘書です。
添付した手書きメモの画像を読み取り、以下の形式でテキストデータ化してください。
# Context (背景)
– 私の手書きメモを、デジタルで管理できるように整理したい
– 読み取れない文字がある場合は [不明] と記述すること
# Objective (目的)
手書きメモの正確なデジタル化と構造化
# Format (形式)
マークダウン形式
– 日付やタイトルがあれば見出しにする
– 項目は箇条書きリストにする
– もしタスクが含まれていれば、チェックボックス(- [ ])にする
# Validation (検証基準)
– 手書きの内容が漏れなく文字起こしされているか
– デジタルデータとしてコピペして使える状態になっているか
実務活用例:PDF資料からの情報抽出
役所や取引先から送られてきた、読みづらいPDFの「申請マニュアル(全50ページ)」があります。必要なのは「提出期限」と「必要書類」だけです。これをAIに探させます。
🤖 プロンプト例(PDF添付と一緒に使用)
添付のPDFファイルを読み込み、以下の情報を抽出してYAML形式で出力してください。
# Role (役割)
申請手続きのアシスタント
# Extraction Items (抽出項目 – YAML)
申請名: [マニュアルのタイトル]
提出期限: [日付または期間]
提出先: [部署名や住所]
必要書類リスト:
– [書類1]
– [書類2]
注意点: [ペナルティや特記事項があれば]
# Validation
– ページ数を指定する必要はありません。全体から探してください。
– 記載がない項目は「記載なし」としてください。
💡 実務での活用ヒント
「この資料のどこを見ればいいの?」というストレスから解放されます。AIに「下読み」をさせて、人間は抽出された重要ポイントだけを確認する。これがデジタル思考による時短術です。
まとめ
Week 4では、AIの「目」と「耳」を使う方法を学びました。これで、手入力という単純作業から解放されます。
Week 2で学んだ「構造化(マークダウン)」と、今回の「マルチモーダル」を組み合わせることで、アナログな情報を一瞬でデジタル資産に変えることができます。これこそが、DX(デジタルトランスフォーメーション)の第一歩です。
✅ 明日から使える3つのポイント
- 紙の資料やホワイトボードは、まず写真に撮ってAIに投げる。
- 長いPDFは人間が読む前に、AIに「必要な情報」だけを抽出させる。
- 読み取った内容は、必ず「マークダウン」や「YAML」などの構造化データとして出力させる。
よくある質問
Q1: 機密情報が含まれる書類をアップロードしても大丈夫ですか?
A1: 注意が必要です。 多くのAIツールの初期設定では、入力データが学習に使われる可能性があります。会社の規定を確認し、機密情報(個人情報や未公開データ)はマスキングするか、学習に利用されない設定(オプトアウトやEnterprise版の利用)を行ってください。Week 15で詳しくリスク管理を学びます。
Q2: 手書き文字が汚くても読めますか?
A2: GPT-4oやClaude 3.5 Sonnetなどの最新モデルは、人間でも判読困難なレベルの文字を高精度で読み取れます。ぜひ一度試してみてください。
スキルチェックリスト
- ✅画像をAIにアップロードして、内容を説明させることができる
- ✅紙の資料を写真に撮り、テキストデータ(マークダウン)に変換できる
- ✅PDFファイルから特定の情報を抽出するプロンプトを作成できる
活用する基礎スキル
成果物
- 手書きメモをデジタル化したマークダウンテキスト
- PDF資料からの情報抽出ログ(YAML形式)
コメント