学習による図表などの読み取り精度向上を検証
表や図・グラフ・写真などを含む日本語ドキュメントをAIがどの程度正確に理解できるかを検証しました。
このPoCでは、AIモデル(Gemma系)に対してLoRA(軽量追加学習)およびFull-Tuning(全体再学習)を適用し、企業・自治体の公開文書を題材に5種類のケース(表/図/ガイド/グラフ/写真)**をテスト。
結果、LoRA学習によって表や図の内容理解精度が約6倍向上し、一方で写真など視覚的な要素の細部(色や形状)の識別には課題が残ることが分かりました。
この成果により、表や図を含む社内文書検索・レポート要約AIの現実運用が見えてきました。
1. 背景と課題
実務ドキュメントはテキストだけでなく表・図・グラフ・写真が混在します。従来のAIモデルはこれらの要素を正確に解釈できず、「表の値を読み取れない」「グラフの傾向を誤解する」「図の関係性を説明できない」といった回答の正確性に課題がありました。
本PoCでは、オンプレミスLLM環境でaiDAPTIV+を使った学習において、こうした複合情報をどこまで正しく理解できるかを検証したものです。
2. 検証の目的
- 図表・グラフ・写真を含む日本語ドキュメントに対し、AIが正しく情報を抽出・回答できるかを評価する。
- LoRAとFull-Tuningの効果差と運用現実性(計算負荷・精度)を比較する。
- オンプレミス環境でのAI文書検索・自動要約・報告書生成の実現性を確認。
3. 実施環境・構成
サーバ構成
CPU:Xeon Gold 4410Y ×2 / DRAM 512GB
GPU:RTX 6000 Ada ×4(VRAM 48GB×4=192GB)
ストレージ:aiDAPTIV Cache 2TB ×2
OS:Ubuntu 22.04.4 LTS
(協力:TDSE株式会社)
AIモデル
Gemma-3-2B-It
学習方式
LoRA:軽量追加学習/Full-Tuning(FT):全体再学習
※LoRA:モデルの一部だけを追加学習し、短時間・低負荷で精度を底上げできる方法。
※Full-Tuning(FT):モデル全体を再学習する方法。高負荷だが自由度が高い。
学習データ
データセット名:日本語文書質疑応答データセット(JDocQA)
■論文
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models
JDocQA: 図表を含む日本語文書質問応答データセットによる 大規模言語モデルチューニング
■著者
大南英理 栗田修平 宮西大樹 渡辺太郎
■出展
https://huggingface.co/datasets/shunk031/JDocQA
■ライセンス: CC BY-SA 4.0
■データの変更: なし
タスク
表の読み取り/図の読み取り/ガイド文書の読み取り/グラフの読み取り/写真の読み取り
4. 結果
ケース1:表の読み取り
■質問
「令和2年度日本法違憲フォローアップ委員会審議結果について(中間とりまとめ)」の、総括評価の基準について、「Ⅱ. 取組内容に対する評価の実績値」を教えてください。回答は自由に記述してください。
■正回答
本文中に記載はありません。
■学習前回答
令和2年度日本遺産フォローアップ委員会審議結果(中間とりまとめ)の、II.取り組み内容に対する評価の実績値は以下の通りです。
- 組織整備・リーダーシップの発揮/地域連携の仕組み
実績値:不可
取組内容:プロジェクトリーダーの決定、関係主体間の連携による定例の連絡会議の設置、サブリーダーを地域に次期リーダーを育成、ワークショップと交流の実施(責任者を明確にする) - 絶滅の恐れのある文化遺産の調査・記録
実績値:可/不可
取組内容:現状の調査の推進、記録資料オン作成地域住民への周知 - 文化遺産の保存・継承
実績値:可/不可
取組内容:保存修理事業の実施、伝統技術の継承文化財の活用
■学習後回答
LoRA:本文中に記載がありません。
FT:本文中に記載がありません。
LoRA、FTともに画像中に記載がない場合も正しく回答した。
ケース2:図の読み取り
■質問
くるみるのメリットを2つ答えてください。
■正回答
事故削減、業務効率化です。
■学習前回答
くるみえのメリットは以下の2つです。
・事故削減:約50%
・法令未守:約75%減少
■学習後回答
LoRA:事故削減、業務効率化です。
FT:事故削減、業務効率化です。
LoRA、FTともに余分・ご回答なくシンプルに正答した。
ケース3:ガイド文章の読み取り
■質問
富士市交流プラザでは、多目的ホールやギャラリー、第一会議室を展示スペースとして利用することができますが、その期間はどのようになっていますか。回答は自由に記述してください。
■正回答
平成20年4月5日から12月28日利用分までです。
■学習前回答
富士市交流プラザでは、多目的ホール、ギャラリー、第一会議室を展示スペースとして利用する場合、利用期間は以下のようになっています。
多目的ホール:随時(展示内容や規模によって異なります)
ギャラリー:9月~11月を締切期間としています。
第一会議室:随時(展示内容や規模によって異なります)
これらのスペースを利用するための申し込みは、利用希望日の1か月前までに富士市交流プラザの窓口で行う必要があります。
■学習後回答
LoRA:平成20年4月5日から12月28日まで利用可能です。
FT:多目的ホールは、平成20年4月5日から12月28日利用が可能となり、ギャラリーと第一会議室は、平成20年4月5日から6月30日利用可能です。
どちらも改善したが、LoRAが正答だったのに対し、FTは一部(ギャラリーと第一会議室)の日程部分を取り違えている。
ケース4:グラフの読み取り
■質問
富士市で実施したアンケートにて、全国にPRしたい富士市のお祭り、イベントはなにかという項目にて、最も多いのは何ですか。回答は事実のみを抜き出してください。
■正回答
毘沙門天大祭です。
■学習前回答
富士市で実施したアンケートにて、全国にPRしたい富士市のお祭り、イベントは63.3%で臥龍山大神祭が最も多い。
■学習後回答
LoRA:毘沙門天祭です。
FT:富士山神殿の国です。
LoRAはほぼ正答であったが、FTは別の表と取り違えた
ケース5:写真の読み取り
■質問
岩本山公園を案内してくれる富士市観光ボランティアガイドの会の皆さんは、お揃いの服装をしていますが、どのようなものを着用していますか?回答は自由に記述してください。
■正回答
富士市観光ボランティアの会の皆さんは、グレーの襟の付いた黄色い上着に、紺色の帽子をかぶっています。
■学習前回答
岩本山公園を案内してくれる富士市観光ボランティアガイドの会の皆さんは、お揃いのベストを着用しています。ベストには「富士市観光ボランティアガイドの会」と書かれています。
■学習後回答
LoRA:皆さんは黄色いジャンパーと緑色の帽子を着用しています。
FT:黄色のおそろいのベストとサンバイザーを着用しています。
どちらも上着の色などについては改善したが、帽子などの詳細については不正確な部分が含まれた。
5. まとめ
| 指標(大きい方が良い) | 学習前 | LoRA | Full-Tuning |
|---|---|---|---|
| Supported BERT(平均) | 0.055 | 0.322 | 0.287 |
| 未回答チェック | 0.020 | 0.930 | 0.813 |
評価指標(Supported BERT 平均)で学習前0.055 → LoRA 0.322/FT 0.287へ改善。日本語の図表入りドキュメントの分析能力が追加学習により改善することが示されました。
Full-TuningはLoRAよりやや低い結果だったが、学習率に依存することが確認されており、データの内容やそれに応じたハイパーパラメーターの最適化で改善すると推定されます。
現在、より具体的に各ドメインで求められるタスクに絞り込み、必要なレベルの精度が達成されることを検証しています。
あなたの課題を一緒に検証しませんか?
Nextorageでは、企業様の業務に即した PoC をご提案し、aiDAPTIV+ の導入可能性を共に検証いたします。
対象企業例
- サポート業務、営業支援、資料生成、ナレッジ検索、異常検知など AI 活用を検討している企業
- 機密性が高くクラウド対応が難しいデータを扱う企業
- GPUコストを抑えて自社内でAIを運用したい企業
PoC支援内容例
- データ整理/前処理支援
- モデル学習構築・評価支援
- 導入環境構築支援
- 成果評価・報告書作成
まずはお気軽にご相談ください。





