2021年12月3日に、国立国会図書館(NDL)主催で以下のイベントが開催予定とのことです。
====
イベント概要
当館は、2021年度、国立国会図書館デジタルコレクションに登録されたデジタル化資料のほぼ全て(古典籍資料等を除く)を対象に、OCRテキスト化を行っています。2022年3月末には2億コマを越える画像から大量のテキストデータを入手できる見通しです。
一方で、デジタル化資料をテキスト化することは、デジタル化資料から必要な情報を抽出することと必ずしもイコールではありません。例えば、戦前の統計資料の画像に含まれる表の集計や、古い地図資料の画像を利用した計量分析などは、単なるOCRテキスト化だけでは実現できません。こうしたギャップを埋めるアプローチを知ることは、デジタル化資料やテキストデータをより効果的に扱う方法を身に着けることにつながるでしょう。
そこで本イベントでは、デジタル化資料からの情報抽出を研究テーマとしている社会科学分野の研究者をお招きして、自身の研究においてどのようなアプローチを取っているかを紹介してもらい、会場を交えてディスカッションします。
2020年度のデジタルライブラリーカフェで取り上げたデジタル人文学(Digital Humanities)と近接しつつも対象を広げる試みとして、明治以降の近代のデジタル化資料を活用した、社会科学分野の研究のいまを紹介する「Digital Social Sciences(デジタル社会科学)」をテーマに据えて、社会科学×情報学×図書館の事例を共有する場にします。
テーマ
「社会科学×情報学×図書館:デジタル化資料からの情報抽出 OCRと関連領域」
講師及び発表タイトル(敬称略)
- 有本 寛(一橋大学経済研究所 准教授)
- 「紙の統計表をテキストデータ化する:ネ申Excelのルーツ・芸術・情報抽出(仮)」
- 山﨑 潤一(神戸大学大学院経済学研究科 講師)
- 「経済学者によるデータ発掘とその研究利用、非統計資料に着目して(仮)」
- 美馬 秀樹(京都大学学術情報メディアセンター 特定教授)
- 「デジタル化の課題とデジタル化資料の活用について―情報学の観点から―(仮)」
※当館が今年度実施しているOCR関係の事業の概要を15分程度で説明したあと、各先生からそれぞれ20分程度で発表いただき、残りの時間で質疑・ディスカッションを行う予定です。
日時
2021年12月3日(金)15時から17時まで(14時45分受付開始)
開催形態
オンライン開催(Web会議システム(Cisco Webex Events)を使用)
定員
100名程度
参加費
無料
参加方法
事前にイベントのページ(外部サイト) からお申し込みください。(「登録」をクリックし、遷移先の画面に必要事項を入力してください)