2013年1月9日水曜日

データベースのサポート

新年明けましておめでとうございます。
今年のブログは問題提起から始めたいと思います。

今日の科学においてデータベースは必要不可欠なものとなっています。私も京都大学に在籍していた頃にKEGGの運営をそばから見ていましたし、現在はGIRIでRepbaseの維持運営に携わっています。世の中には無数のデータベースが存在していますが、長期に渡って維持されているものは決して多くありません。公表された直後から放置され、顧みられることが無いデータベースも少なくありません。

これには少なくとも2つの要因があると思います。一つは、データベースの構築の際には多くの情報が得られ、その後その研究者が研究を続けていく上で役立ちます。一方で、最初は膨大な情報が得られますが、その後追加されていく情報は当初に比べれば少なく、知的好奇心を原動力に仕事する研究者が、維持していくことに熱心になれないのも道理です。

もう一つの要因は以下の記事が示すように、研究者だけではなく、社会全体がデータベースの維持をあまり評価していないことです。昨年の9月5日付けのNatureのNews記事では、NIHからのデータベースのサポートが大幅に減額されたことを紹介し、その問題点を指摘しています。

Databases fight funding cuts

データベースにはそれぞれコンセプトがあります。例えばRepbaseは元来ヒトゲノム配列から反復配列を取り除くための配列情報集として始まった経歴もあり、多数の転移因子の配列を元に過去の配列を復元したコンセンサス配列を多く収集しています(収集といっても大多数は我々が解析、登録したものですが)。これは個々の反復配列を探す場合に、コンセンサス配列に対して相同性検索をかける方が、代表的な配列1つにかけるよりも感度が高いためです。また、階層構造化した分類システムを採用しています。最近では反復配列、転移因子のデータベースとしてGypsyDBやSINEBaseなどといったそれぞれの転移因子のグループに特化したデータベースや、生物種に特化したデータベースもありますが、網羅的なデータベースとしてはRepbaseは唯一無二のものです。一方でRepbaseにはない細かい分類やモチーフ配列の情報があるデータベースがあるのも事実です。このため、データを1つにまとめれば他のデータベースは要らないかというとそうではなく、それぞれのデータベースが個性を持って相補しあっていることが科学の発展のために重要です。

記事ではデータベースの維持はデータベースの設計構築とは別の組織、予算で運営するという提案をしています。しかし、コンセプトを維持していくためには、やはり開発したグループがデータベースを発展させていく環境を整備していくことがより重要であると私は考えます。コンセプトを失ったデータベースはただの情報のたまり場になり、有用性を失っていくのではないでしょうか?

0 件のコメント:

コメントを投稿