国会図書館 OCRを用いたデジタル画像の全文テキスト化 2011/07/25 ― 2011-12-05
http://www.ndl.go.jp/jp/aboutus/digitization_fulltextreport.html
全文テキスト化実証実験報告書
平成22年度に実施した「全文テキスト化実証実験」及び「OCRを用いたデジタル
画像の全文テキスト化」について、報告書を公開いたします。
1. 全文テキスト化実証実験の実施概要
昨今、出版物のデジタル利用をめぐる動きが関心を集めています。このような
デジタル出版データの利活用に向けた動きに対応するため、国立国会図書館では、
過去から現在に至る出版物を対象とした、統合的かつ高度な全文テキスト検索に
おける技術的課題に関する実証実験を行いました。また、平成23年7月25日には、
出版社向け成果報告会を開催しました。
期間 平成22年10月~平成23年3月
内容
・テキストデータ作成に関する実証実験
(全文テキスト化システムプロトタイプ構築:日本アイ・ビー・エム株式会社)
・全文テキストデータの検索・表示に関する実証実験
(全文検索・表示システムプロトタイプ構築:株式会社日立製作所)
・全文テキスト化実証実験に係る調査及び評価支援等
(作業支援:株式会社三菱総合研究所)
全文テキスト化実証実験報告書
目次
1章 はじめに
1.1 背景・目的
1.2 概要
1.3 実施体制・スケジュール
2章 実証実験の実施
2.1 実証実験における評価事項
2.2 実証実験のために構築したシステムプロトタイプ
2.3 実証実験の対象書籍
3章 テキストデータ作成に関する実証実験に関する評価
3.1 テキスト化システムの構築の評価
3.2 テキスト化システムを用いた作業の効率化、高度化の評価
3.3 テキストデータ作成にかかる作業時間の評価
4章 全文テキストデータの検索・表示に関する実証実験に関する評価
4.1 検索画面における機能の評価
4.2 検索結果一覧画面における機能の評価
4.3 書誌詳細表示画面の評価
4.4 本文表示画面の評価
4.5 ページ構成の評価
4.6 視覚障がい者等向けの読上げサービス等の評価
4.7 全文テキストデータのインデキシング処理時間の評価
4.8 文字コード対応の評価
5章 実証実験の成果と課題
5.1 テキストデータ作成に関する実証実験の成果と課題
5.2 全文テキストデータの検索・表示に関する実証実験の成果と課題
全文テキスト化実証実験報告書ファイル
・全文ファイル [PDF:2.38MB]
http://www.ndl.go.jp/jp/aboutus/digitization/zenbun.pdf
(容量が大きいため、ご利用の通信環境によっては分割ファイルのご利用をお勧
めします。)
・分割ファイル
1章 [PDF:368KB]
2章(1) [PDF:543KB]
2章(2) [PDF:1.32MB]
2章(3) [PDF:817KB]
3章~5章 [PDF:640KB]
2. OCRを用いたデジタル画像の全文テキスト化の概要
期 間 平成22年11月~平成23年1月
内容
・国立国会図書館の所蔵資料20,000冊(明治期、大正期、昭和期刊行)のデジタ
ル化画像について、OCR処理を行い、全文テキストデータを作成
・OCR処理における文字の認識率を算出(一部については、校正作業・辞書更新
後の認識率向上の効果を検証)
・全文テキストデータは、平成22年度全文テキスト化実証実験の全文検索・表示
システムプロトタイプに投入するテストデータとして使用
OCRを用いたデジタル画像の全文テキスト化実施結果報告書
目次
1章 プロジェクトの概要
1.1 プロジェクトの背景
1.2 プロジェクトの実施方法
2章 プロジェクトの実施結果
2.1 文字認識率の集計
2.2 文字認識率のクロス集計
2.3 辞書更新
3章 課題
3.1 プロジェクト実施工数
3.2 画質品質向上
3.3 縦横文書
3.4 ノイズ除去
付録
1 OCR作業に関する設定値
2 文字認識率算出方法
3 データ容量
OCRを用いたデジタル画像の全文テキスト化実施結果報告書ファイル
・全文ファイル [PDF:1.28MB]
http://www.ndl.go.jp/jp/aboutus/digitization/ocrzenbun.pdf
問い合わせ先 電子情報部電子情報企画課 03-3506-5239(直通)
全文テキスト化実証実験報告書
平成22年度に実施した「全文テキスト化実証実験」及び「OCRを用いたデジタル
画像の全文テキスト化」について、報告書を公開いたします。
1. 全文テキスト化実証実験の実施概要
昨今、出版物のデジタル利用をめぐる動きが関心を集めています。このような
デジタル出版データの利活用に向けた動きに対応するため、国立国会図書館では、
過去から現在に至る出版物を対象とした、統合的かつ高度な全文テキスト検索に
おける技術的課題に関する実証実験を行いました。また、平成23年7月25日には、
出版社向け成果報告会を開催しました。
期間 平成22年10月~平成23年3月
内容
・テキストデータ作成に関する実証実験
(全文テキスト化システムプロトタイプ構築:日本アイ・ビー・エム株式会社)
・全文テキストデータの検索・表示に関する実証実験
(全文検索・表示システムプロトタイプ構築:株式会社日立製作所)
・全文テキスト化実証実験に係る調査及び評価支援等
(作業支援:株式会社三菱総合研究所)
全文テキスト化実証実験報告書
目次
1章 はじめに
1.1 背景・目的
1.2 概要
1.3 実施体制・スケジュール
2章 実証実験の実施
2.1 実証実験における評価事項
2.2 実証実験のために構築したシステムプロトタイプ
2.3 実証実験の対象書籍
3章 テキストデータ作成に関する実証実験に関する評価
3.1 テキスト化システムの構築の評価
3.2 テキスト化システムを用いた作業の効率化、高度化の評価
3.3 テキストデータ作成にかかる作業時間の評価
4章 全文テキストデータの検索・表示に関する実証実験に関する評価
4.1 検索画面における機能の評価
4.2 検索結果一覧画面における機能の評価
4.3 書誌詳細表示画面の評価
4.4 本文表示画面の評価
4.5 ページ構成の評価
4.6 視覚障がい者等向けの読上げサービス等の評価
4.7 全文テキストデータのインデキシング処理時間の評価
4.8 文字コード対応の評価
5章 実証実験の成果と課題
5.1 テキストデータ作成に関する実証実験の成果と課題
5.2 全文テキストデータの検索・表示に関する実証実験の成果と課題
全文テキスト化実証実験報告書ファイル
・全文ファイル [PDF:2.38MB]
http://www.ndl.go.jp/jp/aboutus/digitization/zenbun.pdf
(容量が大きいため、ご利用の通信環境によっては分割ファイルのご利用をお勧
めします。)
・分割ファイル
1章 [PDF:368KB]
2章(1) [PDF:543KB]
2章(2) [PDF:1.32MB]
2章(3) [PDF:817KB]
3章~5章 [PDF:640KB]
2. OCRを用いたデジタル画像の全文テキスト化の概要
期 間 平成22年11月~平成23年1月
内容
・国立国会図書館の所蔵資料20,000冊(明治期、大正期、昭和期刊行)のデジタ
ル化画像について、OCR処理を行い、全文テキストデータを作成
・OCR処理における文字の認識率を算出(一部については、校正作業・辞書更新
後の認識率向上の効果を検証)
・全文テキストデータは、平成22年度全文テキスト化実証実験の全文検索・表示
システムプロトタイプに投入するテストデータとして使用
OCRを用いたデジタル画像の全文テキスト化実施結果報告書
目次
1章 プロジェクトの概要
1.1 プロジェクトの背景
1.2 プロジェクトの実施方法
2章 プロジェクトの実施結果
2.1 文字認識率の集計
2.2 文字認識率のクロス集計
2.3 辞書更新
3章 課題
3.1 プロジェクト実施工数
3.2 画質品質向上
3.3 縦横文書
3.4 ノイズ除去
付録
1 OCR作業に関する設定値
2 文字認識率算出方法
3 データ容量
OCRを用いたデジタル画像の全文テキスト化実施結果報告書ファイル
・全文ファイル [PDF:1.28MB]
http://www.ndl.go.jp/jp/aboutus/digitization/ocrzenbun.pdf
問い合わせ先 電子情報部電子情報企画課 03-3506-5239(直通)
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
※なお、送られたコメントはブログの管理者が確認するまで公開されません。