Inoue, Sachiko
National Diet Library. Digitization Promotion Office Director, Senior Librarian, Digital Information Department

国立国会図書館が取り組む資料デジタル化及びテキスト化の全体像

国立国会図書館(NDL)は近年日本の出版物の大規模なデジタル化及びそのテキストデータ作成に取り組んでいる。現在は2000年までに国内で刊行された図書のデジタル化を早期に完了させることを目標としており、雑誌、博士論文等を含めて既に390万点の資料をデジタル化し、その一部はインターネット上で公開している。

2018年の著作権法改正により、著作権者の許可を得なくてもデジタル化資料からOCRによりテキストデータを作成し検索に使用することが可能となった。これを受けて、NDLは257万点のデジタル化済資料のテキストデータを作成し、国立国会図書館デジタルコレクションによるデジタル化資料の全文検索サービスに活用している。また、国立国会図書館障害者用資料検索(みなサーチ)では、視覚障害等により通常の活字の印刷物の読書が困難な方が自ら、あるいは図書館を通じてテキストデータをダウンロードできる。今後も新たにデジタル化した資料のテキストデータを順次作成していく。

NDLの実験システムである次世代デジタルライブラリーでは、著作権保護期間が満了した資料28万点についてテキストデータがダウンロードできる。また古典籍資料などにも対応できるようOCRの改良に継続的に取り組んでいる。

今回の発表では、2020年以降に大きく進展した資料デジタル化及びテキスト化の成果と課題、今後の展望について紹介する。

Overall picture of digitization and textization of the National Diet Library

In recent years, the National Diet Library (NDL) has been engaged in the large-scale digitization of Japanese publications and the creation of their text data. The current goal is to complete the digitization of books published in Japan in 2000 or earlier as soon as possible. 3.9 million materials including books, journals and doctoral theses have been digitized already, some of which are available on the internet. Detailed searches of these materials require text data.

The 2018 amendment to the Copyright Act allows text data on digitized materials to be created and used for searching without the permission of the copyright holder. In response, the National Diet Library has created text data for 2.57 million digitized materials and is using it for full-text search services of digitized materials in the National Diet Library Digital Collections. In addition, the National Diet Library Material Search for Persons with Disabilities (Mina Search) allows those who are blind, visually impaired, dyslexic, or otherwise print disabled to download text data themselves or through libraries. The text data of newly digitized materials will continue to be produced.

The Next Generation Digital Library, for which the National Diet Library is carrying out research and development, makes text data downloadable for 280,000 materials whose copyright protection period has expired. OCR has also been continuously improved to be able to handle materials such as classical documents.

In this presentation, the achievements and challenges of digitization and extraction of text, which have made significant progress since 2020, will be presented, along with the outlook for the future.