top of page

Series

かたつむりの気になる国際動向

「生成引用」時代のオープンアクセスバイアス

佐藤 翔

26/1/19

同志社大学

1.いつもAIの話をしている気がする

 なんだか最近は学術出版業界も、図書館業界も、生成AIの話ばかりしている気がします。どんどん新しい話が出てくるし、図書館業界とも関連の深いトピックなので当然ではあるのですが、前回の本連載も生成AIを使った「冗長な出版」が増えているという話でしたし、並行して『情報の科学と技術』誌で行っている連載「続・オープンサイエンスのいま」でも、2025年10月にはオープンな研究データと生成AIを使って論文工場が論文を大量生産している話[1]、2026年1月には生成AIを使ったレビュー論文の投稿に苦慮したarXivが、査読前のレビュー論文を原則、受け付けない方針を発表したこと[2]を取り上げました。割と本当にいつもAIの話をしている……。

 ここまで佐藤が取り上げた話題はどれも、生成AIの悪用というネガティブな話なのですが、もちろんポジティブな側面もあります。ポジティブな話題の一例として、2025年11月にSpringer Nature主催の図書館総合展オンラインフォーラム「生成AI時代の学術コミュニケーション ー出版社と図書館の役割ー」の中で[3]、「生成AI時代の大学図書館員の役割」と題したお話をする機会をいただきました。本連載読者の中にもご参加いただいた方もいらっしゃるかもしれませんが、このフォーラムでは佐藤は主に、学生・教員が情報・文献を検索する場面を想定し、すでに生成AIを用いた検索が学生・教員に浸透していることを紹介したうえで、その中で大学図書館の役割としてはどんなことが想定されるか、という話をしました。と言っても、生成AIで図書館員の役割ががらっと変わる……みたいな話ではなく、生成AIを用いた検索ツールにもいろいろな種類・製品があって、無料のものも有料のものもあり、学術出版者が出しているものには既存サービスにプラスアルファでお金を払う(主に機関契約が想定される)ことで使えるものもある。それぞれに得手・不得手もあり、向いている使い方や利用時に考慮しなければいけないことも多い。それらのツールのどれが自分の機関の学生・教員にとってよさそうかを検討して契約し、利用できる環境を提供する、そしてその利用方法を講習やパスファインダー等を通じて利用者に伝えていく……というのが図書館に求められる役割で、それって結局、既存のツール・データベースを利用者に提供・紹介してきたときと似た流れだよね、という。ARLが発表した大学図書館向けのAIに関する原則でも似たようなことが指摘されており[4]、「CiNiiが出てきたときのことを思い出しつつ、いつもどおりにやっていきましょう」という話をしまして、おおむねご参加の方にも好意的に受け止めていただいたようでした。

2.「生成AI時代における大学図書館員の役割」の舞台裏

 ところで、この「生成AI時代における大学図書館員の役割」講演の準備をするためにいろいろなAIツールを試してみたのはもちろんのこと、最近はネタ探しとは関係なく、日常の原稿・論文執筆にも自分自身、生成AIツールをよく用いるようになっています。特によく使うのはChatGPTにDimensionsやConsensusを連携させられる機能で、英語論文を日本語で検索し、結果の要約も日本語で提示してもらいつつ、きちんとした検索サービスと連携しているのでいわゆる「幻覚」、存在しない文献を参照されることも少ない、という優れものです。いくら英文での検索に慣れているとは言っても日本語話者ではあるので、日本語で検索出来れば大幅な時間節約になりますし、見逃していた文献を提示してもらえることもしばしばあり、たいへん助かっています!

 助かっている……こともあるのも確かなんですが、その一方でこれは先述の講演の中でもネタにしたのですが、その講演のために生成AIツールで検索し、提示された文献は、結局1本も講演中では引用しませんでした(苦笑)。あるいは最近、別の原稿で引用文献を追加するために検索した結果も、たくさん論文は提示されたものの使ったのはそのうち1本だけ、ということがありました。後者についてはその1本が引用している文献に使えるものが多くて、結果的には助かったのですが、じゃあ最初からその「使える文献」の方をAIが提示してくれていればもっと時短になったのに……とも思います。ぱっと見ではAIの検索結果は検索キーワードに合致していて、AIによる要約を見ても使えそうに思えるんだけど、中身をちゃんと読んだら微妙で(検索トピックとの合致度が微妙なこともあれば、クオリティ自体が微妙なことも)、そのままじゃあ使いものにならないな、というケースがけっこう多いのです。冒頭に紹介したarXivのレビュー論文対応に関する声明の中で、生成AIによるレビュー論文のクオリティの低さにも触れられていますが[2]、文章の質とか批判的吟味の問題以前に、一見AIが得意としていそうな網羅性とか選出した論文の妥当性にも、この分だと問題が多いのではないかと推測されます。

 なんでそうなるのかと思い、生成AIが出してきた結果と、最終的に自分が引用することにした文献とを見比べてみると、生成AIの提案論文はオープンアクセス雑誌掲載のものが多く、一方で自分が最終的に引用した文献の中には有料雑誌掲載のもの、古くてデジタル化されていなかったり、抄録がなくて書誌事項も最低限しかデータベース等に収録されていないものが多数含まれていました。考えてみれば当然で、現在、比較的よく使われているAI検索ツールは電子ジャーナル等の機関購読を前提としていないので、本文有料の論文の、本文にはアクセスできておらず、当然デジタル化されていない論文の本文も読めていないわけです。現在の生成AI学術文献ツールはだいたいRAG(Retrieval-Augmented Generation, 検索拡張生成)という技術を用いており、モデル自体だけではなく、外部のデータベースも参照して回答を生成していますが、参照できる範囲には制約があります。書誌事項や抄録は有料のものでも参照できているでしょうが、豊富な本文テキストにもアクセスできるオープンアクセス文献の方がヒットしやすくなり、よく参照されるのではないかと考えられます。

 もちろんそのことには学術出版者も気づいており、有料本文にアクセスできることを自社の強みとする展開も見られます。例えばElsevier社はScopus(他社論文も含むデータベース)とScience Direct(自社の電子ジャーナルプラットフォーム)でそれぞれ異なるAI製品の提供を開始していますが、これもScopus側では抄録情報までしか使えないけれど、Science Directなら本文情報まで生成AIに読ませられるので、より踏み込んだ結果が得られるよ、という点が売りになるわけです……ただし、Elsevierの雑誌掲載論文なら。

 実際のところ、研究者の日常の文献探索で、特定の出版者の雑誌掲載論文だけ探したい、なんて場面はあまりありません(ある雑誌、ならあっても、Elsevierの雑誌、なんて探し方はあまりしません)。出版者を横断して検索したいのは当たり前であって、生成AIによる文献検索にはどこの出版者の論文でも提示してほしい(ChatGPTやScopus AI的な使い方をしたい)わけですが、そのときに有料の出版者の論文はあまり出てこない。

よく、コンテンツを持っている点は出版者のAIに対する強みと捉えられることがありますが、実際にはむしろ「有料だと本文がAIに参照してもらえない」って、有料論文の「弱み」なのでは? AIによる検索がますます普及していった場合、有料論文はあまりAIが引用しないとなると、有料雑誌掲載論文のインパクトが落ちていくことにつながる、のではないでしょうか。

3.「生成引用」と「AI媒介可視性バイアス」

 そんなことを考えていたら、まさに同じことを扱ったプレプリント”From Prestige to Presence: Algorithmic Visibility and Citation Bias in the Age of Generative AI”が2025年9月に、SSRNで公開されているのを見つけました[5]。著者はノルウェー・University of South-Eastern NorwayのMadsen氏らです。

 このプレプリントの問題意識はここまでの佐藤の話とほぼ同じで、生成AIによる文献検索結果を人々が使うようになった時代、すなわち「生成引用(Generative citation)」の時代においては、論文の被引用数(引用される回数)において、生成AIが引用しやすいオープンアクセス状態にあることのバイアス(偏り)がますます大きくなるだろうことを、関連研究を引用しつつ、筋道を立てて説明しています。もともとオープンアクセスバイアスの存在はオープンアクセス界隈でずっと議論されてきて、「あるような、ないような」と言われてきたわけですが、生成AIはここまで見てきたように強烈にオープンアクセスバイアスがかかるので、人間が文献を探索・入手していた時代よりもバイアスが大きくなる。言い換えれば、購読型・有料の雑誌掲載論文は生成AI上で冷遇されるようになり、しかもそうした生成AIを用いた検索結果を、(ちゃんと見直しせず)そのまま自分の論文に使う人が増えれば、本文の入手可能性だけではなく、多くの論文から引用されているという点でもオープンアクセス論文の方がAIからの可視性が高まっていく。このフィードバックループの発生により、さらにオープンアクセスバイアスが強化されていくということで、こうしたAIによるバイアスのことを著者らは「AI媒介可視性バイアス(AI-Mediated Visibility Bias)」と呼んでいます。

 AI媒介可視性バイアスの結果、従来の学術界で重視されてきた雑誌の権威や厳密性への評価が、可視性(オープンであり、AIに引用されやすいこと)にとってかわられる可能性についてこのプレプリントでは論じられています。オープンアクセスであることが価値を持つのはリポジトリ関係者にはいい話のようにも思えますが、predator(いわゆるハゲタカ)に悪用されたり、そこまでいかずとも厳密さより可視性が優先されるのはあまりよくない側面もあるのでは、という話ではあります。

 もっとも、件のプレプリントはこうした可能性を指摘したうえで、今後のありえる研究の方向性等を指し示すにとどめたもので、実際に生成AIによってオープンアクセスバイアスが強化されているのか、AI媒介可視性バイアスが存在することを確かめたものではありません。これを確かめるためには、実際に生成AIによる引用ではオープンアクセスのものが多くなることや、それを人間が活用しているので世間的にもオープンアクセス論文の引用が増えていること等を明らかにする必要があります。今後はこれを実証する調査・研究が望まれるところで……たぶん表に出ていないだけで、すでに多くの人が着手し始めているのかも……? 動向には引き続き注目していきたいところです。

4.今年の推し活はオープンアクセスバイアスで!

 いいことばかりとは言えなさそうだ、という話も紹介したわけですが、機関リポジトリをはじめオープンアクセスを推進したい立場としては、オープンアクセスバイアス・AI媒介可視性バイアスの存在は、論文をオープンアクセスにすべき理由の一つとしてこれからぜひ推していくべきポイントではないかと考えています。みんなが使う生成AIに、ちゃんと見つけて紹介してもらうためにも、論文をオープンアクセスにしましょう!

 それに危機感を覚えたら、出版者がAIツールに対してはコンテンツ本文を提供する、という未来もあるかもしれませんが……それはそれで利用者が便利になるなら嬉しい話だし、そういう未来を引き出すためにも、オープンアクセスバイアスの話は推していけるのではないかと思います。今年の推し活はオープンアクセスバイアスに決めた!


[1] 佐藤翔. オープンな研究データが論文工場の餌食に?. 情報の科学と技術. 2025, vol.75, no.10, p.518-521. https://doi.org/10.18919/jkg.75.10_518, (参照 2025-12-03).

[2] 佐藤翔. 生成AI時代のレビュー論文. 情報の科学と技術. 2026, vol.76, no.1, p.30-32. https://doi.org/10.18919/jkg.76.1_30, (参照 2026-01-07).

[3] “生成AI時代の学術コミュニケーション ー出版社と図書館の役割ー【シュプリンガーネイチャー】”. 図書館総合展. https://www.libraryfair.jp/forum/2025/1832, (参照 2025-12-03).

[4] Association of Research Libraries Releases Guiding Principles for Artificial Intelligence. https://www.arl.org/news/association-of-research-libraries-releases-guiding-principles-for-artificial-intelligence/, (参照 2025-12-03).

[5] Madsen, Dag Øivind; Sohail, Shahab Saquib. From Prestige to Presence: Algorithmic Visibility and Citation Bias in the Age of Generative AI. SSRN. 2025-09-09. https://dx.doi.org/10.2139/ssrn.5464818, (参照 2025-12-03).


ree

文:佐藤翔(同志社大学)
1985年生まれ。2012年度筑波大学大学院博士後期課程図書館情報メディア研究科修了。博士(図書館情報学)。2013年度より同志社大学助教。2018年度より同准教授。2024年度より同教授。
図書館情報学者としてあっちこっちのテーマに手を出していますが、博士論文は機関リポジトリの利用研究で取っており、学術情報流通/オープンアクセスは今も最も主たるテーマだと思っています。
学部生時代より図書館・図書館情報学的トピックを扱うブログ「かたつむりは電子図書館の夢をみるか」を開始。ブログの更新は絶賛滞っているものの、現在は雑誌『ライブラリー・リソース・ガイド(LRG)』誌上で同名の連載を毎号執筆中。本連載タイトルもそれにちなんだもの。2024年12月には同連載をまとめた書籍『図書館を学問する なぜ図書館の本棚はいっぱいにならないのか』を刊行。SPARC Japanセミナー2025当日は子どもの習い事と重なっており、パネルディスカッション部分はイヤホンをつけて、ながら視聴することになりそう。

ree

 

本記事は クリエイティブ・コモンズ 表示 4.0 ライセンスの下に提供されています。
ただし、記事中の図表及び第三者の出典が表示されている文章は CC BY の対象外です。
bottom of page