Report
そもそも研究者の考える「メタデータ」は図書館員の考える「メタデータ」とは違う!?~報告:ジャパン・オープンサイエンス・サミット2024 セッションD1「研究データのメタデータのあるべき姿とは?」
三上 絢子
24/11/1
北海道大学
1. はじめに~本記事で紹介するセッションの趣旨
こちらの記事は2024年6月17日にオンラインで開催されたジャパン・オープンサイエンス・サミット2024(JOSS2024)のセッションD1「研究データのメタデータのあるべき姿とは?」の内容を紹介する記事となります。本記事の執筆者は、このセッションへは講演者の1人として参加しました。
このセッションでは、研究データに付与するメタデータ項目をおおまかに『公開・流通用メタデータ』『研究用メタデータ』の2つに整理し、研究者の側から見たメタデータのあり方と、学術情報流通側から見たメタデータのあり方の相違点に注目した講演・議論が行われました。
このセッションで「公開・流通用メタデータ」と呼ぶものはリポジトリ上での公開や学術情報流通向けのメタデータ項目のことで、例えばタイトルや作成者、DOIなど、機関リポジトリや各種学術情報サービスで公開・流通する際に利用される項目が含まれます。一方で、「研究用メタデータ」はその名の通り、研究者が研究の過程でデータを扱うために付与する様々なメタデータ項目のことを指します。
リポジトリ担当者から見た研究データへのメタデータ付与については、従来の論文の場合と比較し、未だ手探りの状態が続いている部分が多いと思います。また、研究者、メタデータスキーマの制定・運用に関わる側、政策担当者や資金配分機関など、各ステークホルダーの立場によっても、メタデータに関してそれぞれ異なる認識を持っていることも、研究データのメタデータのあり方を複雑にしている要因の一つだと思われます。
このセッションは、そのような立場ごとに異なる研究データのメタデータへの認識があることを踏まえながら、メタデータのあるべき姿について掘り下げていく試みの一つとして実施されました。
2. 講演紹介
本セッションでは4つの講演が行われました。それぞれの講演の概要を紹介します。
〇研究データへのDOI登録ガイドラインの改訂版の紹介・メタデータに関する複数の観点
まずは本セッションの代表者である白井知子氏(国立環境研究所)より、「研究データへのDOI登録ガイドライン」の改訂版の紹介がありました。このガイドラインの改訂は、研究データ利活用協議会(RDUF)が設置し、白井氏が委員長を務めた「研究データへのDOI登録促進小委員会」によって実施されたもので、本セッションを企画したきっかけでもあるとのことです。
(講演内容の要約)
「研究データへのDOI登録ガイドライン」は、ジャパンリンクセンター(JaLC)が2014年から2015年に実施した「研究データのDOI登録実験プロジェクト」で作成されたガイドラインです。しかし、当時は実例が少なかったこと、またこの8年間に研究データへのDOI登録の重要性が高まったことから、2021年11月より「研究データへのDOI登録促進小委員会」による改訂作業を開始し、2024年6月に改訂版が完成しました(公開は2024年9月)。
本ガイドラインの改訂の終盤、小委員会では立場によって想定しているメタデータが異なっていたために議論が噛み合わないことがあり、逆にそれを利用して、異なる立場間の議論を整理してガイドライン本文に反映しました。
この経験に基づき、改訂後のガイドライン内においては、立場ごとに想定される研究データのメタデータを、以下の3種類に整理しています。
研究用メタデータ:研究データが研究の過程で生成され、分析・利用・管理される際に必要に応じて作成されるメタデータ
公開用メタデータ:研究データをリポジトリ等で共有・公開する際に作成されるメタデータ
流通用メタデータ:データ流通を促進するために作成されるメタデータ
加えて、このような研究データへのメタデータ付与の背景となっている要因の一つである、国の研究DX政策である「公的資金による研究データの管理・利活用に関する基本的な考え方」(令和3年4月27日統合イノベーション戦略推進会議)においては「資金配分機関用メタデータ」(メタデータの共通項目+資金配分機関がそれぞれの特性に応じて独自に求める項目)が求められています。
この4種類のメタデータの存在を踏まえて、下図のように研究データに付与されるメタデータの概念を整理しました。
出典:白井知子, 研究データへのDOI登録ガイドラインの改訂版の紹介 : メタデータに関する複数の観点. JOSS2024 セッションD1「研究データのメタデータのあるべき姿とは?」, 2024.
また、ガイドライン改訂の過程において、「研究用メタデータと公開/流通/資金配分機関用メタデータの重なり度合いは、研究分野によっても異なる」という点にも気がつきました。
今回のセッションは、こういった異なる性質を持つメタデータについての議論を深めるために企画いたしました。
〇公開・流通用メタデータに求められる項目と入力例の紹介
続いての講演では、本記事の執筆者である三上絢子(北海道大学附属図書館)より、学術情報支援に携わる立場から見た公開・流通用メタデータについての解説を行いました。
(講演内容の要約)
公開・流通用メタデータは、学術情報流通においてのオープンサイエンスの実現を目標としており、より具体的には「FAIR原則」を踏まえた上で付与されるメタデータであると言えます。学術情報流通は、データが登録されるリポジトリと、データの集約・検索やDOI付与を担う複数の学術情報サービスが連携することを想定しているため、公開・流通用メタデータの狙いはこれら学術情報サービスにFAIR原則を満たすようなメタデータ項目を提供することにあると考えられます。
要求されるメタデータの内容は連携先の学術情報サービスによって異なりますが、概ね下記のような項目が付与されます。
検索性を高めるためのメタデータ項目
タイトル、作成者、内容説明、関連する論文など
研究データ記述向けの項目
資料種別(集計データ/実験データ/地理空間データなど)、時間的範囲、位置情報
研究データの再利用のために必要なメタデータ項目
再利用のための利用条件・ライセンスの記載、Creative Commonsライセンスなど
公的資金の助成情報
三上が担当していた機関リポジトリにおいては、研究データ公開の要望があった際に都度登録希望者に「タイトル/公開希望日/関連資料/利用条件/(あればデータの説明)」を確認し、メタデータとして付与していました。
〇研究用メタデータと公開・流通用スキーマとの乖離の例(大規模実験データのメタデータ)
中西秀哉氏(核融合科学研究所)の講演では、核融合実験分野における研究用メタデータの特徴の紹介と、公開・流通用スキーマと比較した場合に様々な乖離が見られることについての紹介がありました。
(講演内容の要約)
◆核融合実験分野におけるデータの特徴
核融合科学研究所が現有する核融合実験装置LHDは、今年で稼働26年目になる、超電導磁場コイルを用いた磁場閉じ込め核融合プラズマ実験装置です。
この装置で生成される研究データ、およびその研究データに付随するメタデータについては、以下のような特徴を持ちます。
実験回数とデータ数が多い(180秒周期で自動的に繰り返される実験が、1日120回程度行われる)
データの種類が多い(約130種類の生データに加え、200~400個ほどの解析データが生成される)
実験からデータ収集、データ生成までが全て自動化されており、人手を介さない
メタデータは自動システムの処理性能を優先した設計・運用がされている(主な研究メタデータは実験装置の運転パラメータの指定である)
実験の提案書、実験の予定表、運転パラメータ、結果概要は別々のデータベースに保存されている
◆核融合実験分野における研究用メタデータと、公開・流通用メタデータの乖離について
分野によっては、研究用メタデータと公開・流通用メタデータの間には重なりが見られることもありますが、核融合実験分野データにおいては、研究用メタデータと公開・流通用メタデータの重なりはほとんどありません。例えば、流通用メタデータの内、DOIの付与に必須なメタデータ項目(タイトル、作成者、発行機関、発行年)はいずれも研究用メタデータには含まれません。
実験により生成される研究用メタデータにおいては、タイトル(データ名)は「プロジェクト名+計測(器)名+実験番号」でユニークに生成されています。作成者は各計測器の開発・運用担当者が該当するものと思われますが、担当者名の記載された実験提案書・実験予定表と、運転時刻のみが記載された研究用メタデータを照らし合わせて、作成者を記入することには大変な労力がかかります。また、データの収集日時についても時分秒の単位となるため、年月日単位のメタデータではデータの前後関係を表現できないという問題もあります。
加えて、核融合実験分野では実験装置に依存したデータの計測結果・解析結果が出ることが多く、データ交換の文化があまりないと言えます。データの概要を流通用メタデータに記載する場合には、各計測器の特性、出力データ仕様が、開発論文等に散在しているため、これらを文献等から新たに集録してDB化しなければならないことも負担が大きいといえます。
また、「計測(器)名+実験番号」の単位で管理されるユニークなデータの件数は4000万件程度と非常に多いのですが、これは学術情報流通でこれまで一般に想定されてきた、一プロジェクト当たりのデータ件数の範囲を大きく超えていると思われるため、DOIのようなグローバルPIDの付与・登録をどのように行っていくべきであるか、難しい問題です。
◆今後、核融合実験分野における研究データのメタデータが目指す展望について
核融合実験の分野は現状、メタデータ標準化があまり進んでいない分野ではありますが、実験データの処理やデータのアクセスは現状ほぼ完全にデジタル空間上で行われており、今後はオープンサイエンスやオープンデータの考え方を踏まえて分野内の(メタ)データ標準化が進んでいく可能性は大きいです。ただ、この標準化の動きは研究用(メタ)データの観点からのものであり、公開・流通用メタデータスキーマの整備と同じ方向に進めるかはまだ大きく疑問が残っています。
〇宇宙地球科学分野における研究用メタデータから公開・流通用メタデータへの変換の取り組み
続いて、能勢正仁氏(名古屋市立大学)の講演では、宇宙地球科学分野において研究用メタデータとして標準化されてきたメタデータスキーマ(SPASE)に依拠したメタデータを、JPCOARスキーマに依拠する形式に自動で変換する取り組みの紹介が行われました。
(講演内容の要約)
◆SPASEメタデータについて
太陽や地球周辺の宇宙空間、オーロラといった大規模な現象を対象とする宇宙地球科学分野では、単一の観測では全体像を把握するのが難しいため、観測データの共有の文化が長らく育まれてきました。この分野ではメタデータのスキーマの標準化も進んでおり、NASAを中心とした国際共同研究機関によるメタデータスキーマを策定するコンソーシアムであるSpace Physics Archive Search and Extract(SPASE)が策定したSPASEメタデータスキーマがデファクトスタンダードとして広く利用されています。このスキーマでは、約2200項目の記述が可能です。
◆今回の取り組みの背景と狙い
政策決定機関や研究資金配分機関からは、研究データの把握や研究資金による成果を検索できるよう、
「公的資金による研究データの管理・利活用に関する基本的な考え方」におけるメタデータの共通項目を、NIIの研究データ基盤上に流通させるように求められています。
研究者にとって必要なのは研究用の詳細なメタデータの方ですが、宇宙地球科学分野では研究用のメタデータ項目数(約2200個)が「メタデータの共通項目」の項目数(15個)よりも非常に多く、白井氏の発表で出てきた図で言えば、研究用メタデータが公開・流通用メタデータを包含している関係にあります。研究に必要となる詳細な研究用メタデータから「メタデータの共通項目」を自動的に生成し、流通させるような取り組みを実施できれば、研究者にとっては研究用データのみを一元管理するだけで済むということです。
◆取り組み内容と結果について
今回の取り組みにおいては、SPASEメタデータスキーマから一般的なメタデータスキーマ(JPCOARスキーマ)への項目対応表を作成し、それに基づいてメタデータを自動的に変換するシステムを開発しました。
まず初めに、宇宙地球科学分野の研究者・図書館専門職員・情報科学エンジニアが協同し、実装に必要なメタデータのフォーマットやパラメータ、項目の内容などの情報を含めた対応表を作成しました。次に、このメタデータ項目対応表をXSLT (XSL Transformations)で実装し、名古屋大学で作成しているSPASEメタデータスキーマに基づくメタデータ284件をJPCOARスキーマのメタデータへと変換し、名古屋大学の機関リポジトリ上で公開しました。
この仕組みの実装により、研究者は研究データを自分たちの研究に必要なメタデータの形式で管理しつつも、政策的に求められるメタデータも自動的に生成し、機関リポジトリに登録できるようになりました。
今回の取り組みの成果としては、当初目標としていた「研究データの把握や研究資金による成果を検索できるような共通メタデータ項目を、NIIの研究データ基盤上に流通させる」ことが達成できただけではなく、副次効果として、研究データの検索性が高まったことが挙げられます。
名古屋大学の機関リポジトリ上に登録したデータはNIIの研究データ基盤だけではなく、データカタログ横断検索システムやGoogle Dataset Searchなど他の検索サービス上でも検索できるようになり、広い範囲でより見つけられやすくなりました。このことは、共同研究、データそのものの評価向上、データの作成者・管理者の評価向上が期待できるものと考えられます。
3. ディスカッション
ここからは、講演者4名に、司会・モデレーターの八塚茂氏(製品評価技術基盤機構)とコメンテーターの武田英明氏(国立情報学研究所)、村山泰啓氏(情報通信研究機構 NICT ナレッジハブ)を加え、メタデータに関するディスカッションを行いました。ディスカッションの中では、異なる分野や立場から見た望ましい研究データの登録方法について意見が交わされました。
1. DOIの粒度について
白井氏は、DOIのガイドライン改訂にあたって一番難しかった点として、共通解のない問題についての書きぶりを取り上げました。例えば、DOIの粒度について、白井氏の地球科学分野ではDOIは引用してもらうために使うものであるため、引用の単位でDOIをつけるのが良いと考えられます。一方で、中西氏の核融合実験分野においては状況が異なり、実験データの利用や解析のためにIDを付与することが強い目的となっています。このように分野ごとに異なる状況全てをガイドラインにまとめるのは難しいため、コミュニティ内での共通知識を高めていきたいと白井氏は述べました。
2. サプリメンタルデータの登録方法
次に、会場より「1つの論文に複数のサプリメンタルデータが紐付けられるようなケースについては、どのようにリポジトリに登録することが望ましいか」という質問がありました。また、この質問には「機関リポジトリと研究分野別のリポジトリとで役割分担が必要ではないか」というコメントも合わせて記載されていました。この質問およびコメントを受け、サプリメンタルデータの登録方法に関する議論が行われました。
白井氏の場合は、紐づく論文に関わらず、あくまでもデータが使われる単位でメタデータを付与するようにしていると述べています。
中西氏は、核融合実験分野においては論文に掲載される最終データを機関リポジトリに登録する一方で、量の多い背景データは分野のデータリポジトリやそのアーカイブに格納するという役割分担をしていると述べました。
能勢氏の意見では、地球科学分野でも同様に、長期のデータから1年分のみを研究に用いるというケースがあるため、研究に用いた部分のみを機関リポジトリに登録するという使い分けも考えられると言います。
また、村山氏は、オープンサイエンスにおいては、データの作成者の学術的貢献を評価する仕組みが不可欠であると強調し、サプリメンタルデータであっても、貢献者が明確に分かる形で公開することが重要であると述べました。
一方で、三上(筆者)が機関リポジトリ業務で扱った事例では、複数のサプリメンタルデータの公開は、単に論文が受理される要件を満たすために要求されたケースが多く、複数の研究データを一まとめにして公開したケースがほとんどであると述べました。ただし、機関リポジトリを運用する図書館からはこれまで登録方法について指示やアドバイスを行ったことはなく、機関リポジトリ側から「望ましい登録方法」を提案するなどの働きかけが必要かどうかは検討する必要があるとしています。
これらを受けての白井氏の意見として、機関リポジトリと研究分野別データベースとでは確かに役割分担が必要であり、論文に紐づくサプリメンタルデータの公開方法について、研究分野別のデータベースに担当者がいる場合、その担当者に相談することで、より良いアドバイスが得られる可能性があると述べました。また、研究現場がデータ公開のために労力を割く余力を持っているかどうか、個別に公開をする価値のあるデータであるか等、様々な要因によっても、研究データの登録方法は変わり得るとの指摘がありました。
ここまでの議論を踏まえ、研究データの登録方法についてはやはり分野別、あるいは分野と機関リポジトリの間での話し合いが大事であり、異なる事情を認識し、議論をしていくことに意義があると、進行の八塚氏がまとめました。
3. 各分野におけるメタデータの今後
最後に、それぞれの分野におけるメタデータの未来について意見が交わされました。
バイオ分野の八塚氏は、分野のデータベースのユーザーが非研究者層にまで広がっていることで、メタデータに使う用語のレベルをどうするかが課題である一方、この課題には同義語の変換などの技術的な解決策が期待できることを述べました。
白井氏は、地球科学分野では異分野間でのデータの統合解析が課題となっていることに触れ、分野間でどの程度共通してデータを扱えるかという点も、メタデータ設計において重要だと述べました。
中西氏は、核融合実験分野においては次世代プロジェクトに向け実験データの実質的な標準化が進行中であることを紹介し、分野内の研究者だけでなく産業界にもデータが活用されるようになる見込みを示しました。
能勢氏の宇宙地球科学分野においてはSPASEメタデータスキーマについて国際的な議論が進む一方、現状、日本からはメタデータの専門家が出せておらず、議論に対しては研究者が苦労しながらついていっているという事情があるため、分野内に1人でも、分野の事情とメタデータの話題の両方に精通した人材がいると大変助かると述べていました。
4. 本記事のまとめ
本セッションでは、研究データに付与されるメタデータを「研究用メタデータ」「公開・流通用メタデータ」と整理することで、この2種類のメタデータの重なり具合が分野ごとに異なり、分野によって研究データの公開・流通への対応の難易度や論点が大きく変わってくることが紹介されました。
今回の講演やディスカッションで挙げられた、それぞれの研究分野においてメタデータ付与に関わる事情が異なる理由としては、主に以下の点が挙げられると思います。
1.公開・流通用メタデータを新たに付与する場合にかかる労力
2.これまでのデータ共有文化の有無
3.これまでの分野内でのメタデータ標準化の状況
4.データ共有により達成したい方向性(引用による功績評価/デジタル処理の最適化/異分野間の連携…)
5.どのようなデータのまとまりを引用・根拠データとして提示したいか
1.~3.については、これまでに研究データのメタデータや引用に関する情報収集を行っていても何となく感じられるものだったのですが、個人的には4.と5.についてはまた新しい論点だと感じました。
4.については、普段、学術情報流通を支援する立場から「研究データのメタデータ」と言えば、検索性の向上や引用を目的とした項目ばかりをどうしても連想してしまうのですが、中西氏の講演で触れられたように、核融合実験分野の「実験システムをデジタル上で運用する上で、処理を進行するため、あらかじめ準備されるパラメータ」もまた、「研究データのメタデータ」という括りに含まれるものだと思いました。ただ、こういった分野内でのデータ管理に特化したメタデータ項目を機関リポジトリ担当が把握することは勿論不可能だと思いますので、もしできることがあるならば、「研究者の想定するメタデータ」の性質をできるだけ考慮した上で、こうした分野内メタデータと学術情報流通インフラ(DOIやNII研究基盤など)で流通するメタデータとのギャップを埋める方法を考えることくらいかなとは思います。
5.についてはディスカッション中で色々触れられていましたが、こちらについても機関リポジトリ担当が決めるというよりは、各研究者の意図する形でのデータ公開・流通の形式を行えることが第一だと思います。白井氏が述べたような「機関リポジトリと研究分野別データベースとの役割分担」や能勢氏の述べた「背景データ全体はDOIで引用し、論文の証拠データとなる部分を機関リポジトリに登録する」という手法のように、機関リポジトリに登録という形式に拘らず、広い視点で学術情報流通の流れを見たときに最適と思える形式を考えることができるのが、学術情報流通を支援する立場としては理想であると思いました。
余談:関連したJPCOAR作業部会での活動について
本セッションにて能勢氏の講演で紹介された「SPASEメタデータスキーマとJPCOARスキーマの変換の取り組み」については、現在、JPCOAR研究データ作業部会の方でSPASEメタデータスキーマ(ver2.4)とJPCOARスキーマ(ver2.0)それぞれのスキーマアップデートに対応したバージョンアップ作業を継続しています。
また、執筆者も参加しているJPCOARコンテンツ流通促進作業部会では、JPCOARスキーマガイドラインサイト上にJPCOARスキーマの活用事例紹介ページを作成し、2024年度中にはこの取り組みを紹介する予定で現在作業を行っております。