Natureに掲載されていた「学者が音頭をとって公開型の自然言語処理モデルを構築すべき」というエッセイを読んで、「たしかに、学術機関が完全無料で自然言語処理のプログラムとかモデルとか公開してくれたらありがたいよな。」と思った。
Arthur Spirling / Nature “Why open-source generative AI models are an ethical way forward for science”
今の膨大なデータを学習して便利だと言われている自然言語処理のAIは、私企業が作っているものだから、何をどういうふうに学習したのかよくわかっていない。
それに、私企業の都合次第で、いつのまにかバージョンが変わってしまったり公開停止されたりしてしまう可能性がある。
そうなると、学術的に自然言語処理を研究しようという行為は大きく阻害される可能性がある。
ある日突然検証も利用もできなくなってしまうものに対して使い方や性能を研究して論文を書く人は、それほど多くはないだろう。
企業がこっそり裏で学習モデルを変更したりしたら、せっかく研究しても意味がなくなってしまうからな。
そういうわけで、エッセイの著者Spirling氏(ニューヨーク大教授、政治とデータ科学が専門)によれば、科学コミュニティがオープンソースの自然言語処理AIを開発して誰にでも無料で公開し利用できるようにするのが、最も倫理的で進むべき道なのだという。
アップデートがあれば前のバージョンも残しつつ新しいバージョンを公開する。
AIがどんなデータを学習したのかもすべてわかるようにする。
ちょっとコードを書き換えたらどうなるか試すことも可能にする。
別に学術の世界では珍しいことでもなんでもなくて、例えば Python やRとかも 学術機関が無料で公開しているよね。
それとおんなじじゃん、というわけだ。
そりゃまあたしかにそうなんだよな。
営利企業が独占的に自然言語処理AIを使いたいのは気持ちはわかるけども、それで得するのは企業の社員とか株主くらいなものだ。
OpenAI社(民間企業)にお金を貢いだところで、とくに日本人である我々が得することはなにもないよね。
最初は「安くて便利だね」みたいな顔をして売っておいて、みんなが慣れた頃合いになったら「サブスク値上げするね(^^)」とやってくるに決まっているのよね。
自然言語処理AIが便利であろうとそうでなかろうと、コアの部分は人類全体の学術的な共有財産として研究・発展させていくという方向性は、支持しておいたほうが良さそうだね。
理想的には、複数の国の政府がお金を出し合って、自然言語処理の研究・管理組織を作るのかな。
個人的にはぜひその方向で進めてくれ、という気持ちになりましたね。