
Series
かたつむりの気になる国際動向
生成AIによって「冗長な出版」が増えている?
佐藤 翔
25/11/5
同志社大学
1.オープンな研究データ×生成AIで大量の論文が粗製乱造されている?
本連載読者の皆さんはもちろん、『情報の科学と技術』の連載「続・オープンサイエンスのいま」もお読みになっていると思いますが、佐藤が担当する最新回(2025年10月号掲載)では、「オープンな研究データが論文工場の餌食に?」という話題を取り上げました[1]。万一、読んでいない方のために概要を説明しておくと、ゲノムワイド関連解析という、人間の疾患・形質等に関連する遺伝子マーカーの大規模データが近年では広く共有されるようになってきているのですが、そのデータをお手軽に使えるツールも出てきたためか、因果関係の解釈に厳密性を欠く論文(「半脱脂粉乳がうつ病予防に効果がある」など)の投稿・掲載例が増えている、しかも論文工場が、生成AIを使って粗製乱造している痕跡がある、という報告を紹介しています。オープンアクセス、オープンサイエンス業界が力を入れてきて、JPCOARも精力的に取り組んでいる研究データの公開について、大いに活用されているという話かと思いきや活用は活用でも悪用であるという話で、いやはやなんとも。まだ本文読んでいないよ、という方はぜひ読んできてください! この『情報の科学と技術』連載で取り上げたMatt Spick氏(英国サリー大学所属)らの研究チームは最近、生成AIによる論文粗製乱造の問題について精力的に研究・発表しており、2025年9月にも新たなプレプリントを公開しました[2]。単に論文が粗製乱造されているだけではなく、同じ研究内容・結果について複数の論文が執筆・投稿されるという、「冗長な出版」(redundant publications)も増えている、というのです。
2.重複投稿、サラミ出版と「冗長な出版」
同一著者が同一の内容について、複数の論文を投稿することは「重複投稿」と呼ばれる不正行為です。ある雑誌で査読に通るかどうかわからないので別の雑誌にも投稿しておいて、どちらかが通ったらもう一方は取り下げる……というのは、投稿者からすれば効率的なやり方かもしれませんが、徒に査読の負担を増やされるのはたまったものではありません。また、業績を稼ぐために取り下げることもせず、複数掲載されれば儲けものという考え方も、出版の手間を無駄に増やすばかりか、実際は1度の研究なのにいくつもの研究で結果が確認されているような誤解を招くことにもなり、大いに問題です。学会発表と論文の扱い等、扱いが微妙なケースもあるものの、大半の雑誌は重複投稿を禁止しています。 重複投稿に対して明確に禁じられてはいないものの、疑わしい研究行為として「サラミ出版」があります。一つの論文として発表すべき一連の研究成果について、査読論文の要件を満たしうる最小限の単位(最小出版単位、等と呼ばれます)に切り分けて、それぞれ1論文として投稿する行為のことで、1本のサラミソーセージを切り分ける様子からこう表現されています。典型例としては、「ある細胞にAという処置・投薬を行ったらこういう結果が出た。次にAをBに変えたらこうなった」という研究について、2本の論文に分けるケースなどが該当します[3]。Aの結果を踏まえてBを試す必然性がなく、最初からA・Bどっちもやってみるつもりだったのなら、「Aという処置だとこう、Bという処置だとこうなった」と1論文で書いた方が論文としての完成度も高いし読者の時間も節約できますが、それだと業績数が稼げないから分ける、ということはしばしば行われます。サラミ出版は重複投稿と違って明確な研究不正とはされていませんし、内容は一応、異なるため検出も困難で、その実態は必ずしも明らかではありませんが、経験ベースではよく目にするためか、雑誌編集委員の間では問題視され続けています[4]。こちらも論文の完成度や研究者としての公正性の問題にとどまらず、実際には相互に関連しているかもしれない要因について、最小出版単位に分けているために個々の論文中では相互の関連に触れられず、結果の解釈に悪影響を与えるという問題もあります。 重複投稿とサラミ出版はいずれも、著者(あるいはその一部)が同一であることが前提です。業績稼ぎのために一つの研究結果から複数の成果を出そうという試みですから当然ではありますが、ここに論文工場が関与することで、また別の事態が発生している、というのがSpick氏らの新たなプレプリントが指摘する「冗長な出版」です。これは論文工場が一つの研究結果から複数の論文を生成したうえで、それぞれ別の研究者に販売しているケースがあるのではないか、というものです。著者名が異なるので重複投稿等と気づかれにくく、そもそも既存の重複投稿の定義(著者が同一)にも合致しないので指摘されていないものの、実は論文工場は一つの研究結果を複数の論文に使いまわしていて、そのせいでほぼ同じ内容の論文が発表されるケースが増えているのではないか、というのです。
3.「冗長な出版」を特定する
この問題について、今回発表されたプレプリントでは、これまでの粗製乱造調査でも中心的に扱われてきたオープンな研究データセット、米国全国健康・栄養調査(NHANES)を対象に、NHANESのデータを用いて、同一の曝露(疫学における、ある要因を持っていることや、取り込んでいること)と同一の結果(疾患など)の関連を分析した組み合わせを、著者の重複は考慮せず「冗長な出版」として特定することで検証しています。対象グループを少し変えただけ(性別、年齢層など)の場合も冗長な出版とみなしますが、より特異なグループを見ている場合(がん生存患者に限定するなど)は冗長な出版とはみなしていません。2021~2025年の論文出版状況をPubMedで検索・特定した結果、冗長な出版とみなせる論文は411本、190組でした。もっとも多いのは同じ内容の論文が2本ある、という場合でしたが、中には同じ内容の論文が6本存在するケースも3組ありました。 単に曝露-結果の組み合わせが同一というだけならば、本当に偶然、別々のグループが同じ曝露-結果の組み合わせを分析していた、という可能性もないわけではありません。しかし出版年の分析から、2022年まではこうした論文はごく限られていた(2021年は3本、2022年は12本)のに対し、2023年以降急に増え出し、2024年には198本と、2022年の約17倍にもなっています。粗製乱造調査でも指摘されていましたが、2022年までとそれ以降の大きな違いと言えば生成AIの普及であり、冗長な出版の急増も生成AIの影響を受けたものであろうと考えるのが自然でしょう。
4.なぜ「冗長な出版」は見過ごされる?
著者は異なるとはいえ、内容はほぼ同一の論文となると、雑誌・出版者側も見破れそうなものですが、なぜ冗長な出版はこれだけ増えているのでしょう。例えばまったく同時、あるいはちょっとの差で投稿されていて、一方の査読中に他方もまだ出版されていない、という場合には、内容の重複に気付かれないのは当然です。実際、投稿・掲載日を確認すると、冗長な出版論文の大半は同時、もしくはほぼ同時に投稿されていました。しかし中には片方が掲載された後に投稿されていた事例もあり、これは見破られても良いはずです。また、同一雑誌上で冗長な出版がおこなわれているケースも67回あり、特にFrontiers in Nutritionでは29本、Scientific Reportsでは10本、こうした論文があったと指摘されています。この場合は同時投稿であっても気づけてもよさそうなものです。 なぜ内容が同じ冗長な出版を見破ることができないのかについて、Spick氏らの研究では既存の剽窃・重複投稿検知ツールでは生成AIを活用した冗長な出版を見破ることが難しいことも、実験から示しています。実際に冗長な出版がすでに多数行われている曝露-結果の組み合わせについて、プレプリント著者のうちの3名がそれぞれ独立に、生成AIを用いて「剽窃検知を回避するため、原文と構文的に異なるようにすること」と指示しつつ、既存原稿を書き換えた新規原稿を生成した後、人力で調整を加えてから、剽窃検知ツールにかけてみるという実験で、生成AIの出力そのままで完成原稿が作れることはなかったものの、長くとも2時間以内には投稿できそうな新規原稿を作成できた、とされています。3人の著者それぞれ、使用した生成AIも異なったものの、原稿全体の総合一致率(全体の中で他の文書と一致する部分)は参考文献部分を除けば30%未満、個別リソースとの一致率(特定の文書と一致する部分)も5%を超えず、剽窃検知の警告がなされる基準に達しませんでした。生成AIを用いれば、例え内容は同じであったとしても、見た目の上では他とまったく異なるテキストを、比較的容易(2時間以内)に生成できてしまうわけで、Spick氏らは現在の剽窃検知プロセスは対応できていない、と指摘しています。
5.「冗長な出版」への対策はあるか
Spick氏らのチームは専ら公開研究データセットを対象とする粗製乱造問題に取り組んできたため、今回の研究でもNHANESのデータを用いた論文が対象になっています。同氏らの研究の成果もあり、多くの雑誌は粗製乱造可能なデータ・テーマについて厳正に取り扱うようになっており、Natureの報道によれば今回のプレプリントで名指しにされたFrontiersの雑誌やScientific Reportsにおいても、審査基準を変更し、NHANESに基づく論文の多くは却下されるようになったとのことです[5]。 しかし生成AIを用いれば冗長な出版が容易にできる、という手口は公開データセットに限られるものではありません。それどころか完全な剽窃(他人の論文の盗用)ですら、剽窃検知ツールを容易にかいくぐれるようになっていることが先の実験からは示されています。もちろん先行研究の内容をきちんと踏まえた人間が査読すれば、剽窃の場合は(剽窃とは気づけなくとも、既知の内容であることは)見破れるでしょうが、人間では剽窃の検知が難しい・あまりにも負担であるからと言って剽窃検知ツールを導入してきた経緯を考えると、「人間ならできる」というのは理想論に過ぎるでしょう。 はっきり言って容易な解決策はない、と今回のプレプリントでも述べられてしまっていますが、少なくとも重複投稿については既存の定義を見直し、論文工場の蔓延という実態を踏まえて、著者が同一ではない冗長な出版も取り扱うことが提言されています。まずはそこから、というのは良いとして……そこから先はどうしたものか。 それにしても、どうも生成AIの普及以降、学術出版にかかわる様々な不正行為について、いよいよタガが外れたというか底が抜けたというか。本連載のタイトルは「気になる国際動向」なわけですが、気になる動向、増えすぎでは?
[1] 佐藤翔. オープンな研究データが論文工場の餌食に?. 情報の科学と技術. 2025, vol.75, no.10, p.518-521. https://doi.org/10.18919/jkg.75.10_518, (参照 2025-10-02). [2] Maupin, D. et al. Dramatic increases in redundant publications in the Generative AI era. medRxiv. 2025. https://doi.org/10.1101/2025.09.09.25335401, (参照 2025-10-02). [3] 早川智. 科学不正と出版倫理. 日大医学雑誌. 2019, vol.78, no.6, p.341-345. https://doi.org/10.4264/numa.78.6_341, (参照 2025-10-02). [4] Ding, D. et al. Duplicate and salami publication: a prevalence study of journal policies. International Journal of Epidemiology. 2020, vol.49, no.1, p.281-288. https://doi.org/10.1093/ije/dyz187, (参照 2025-10-02). [5] Naddaf, M. Journals infiltrated with ‘copycat’ papers that can be written by AI. Nature. 2025. https://doi.org/10.1038/d41586-025-03046-z, (参照 2025-10-02).


