
NNIテクノロジーズ
はじめに
2025.03.09
1.ビッグアーカイブ(BA)とは、
ビッグアーカイブ(BA)とは、日々蓄積され続けることで膨大な規模に達する表形式データです。コネクティッドカーデータ、電話会社の通話記録、製造トレーサビリティデータ、センサーログ、アクセスログなど、さまざまな分野で生成され、現代社会における貴重な情報資産となっています。
このようなBAには膨大な情報が含まれていますが、現在活用されているのはごく一部にすぎません。たとえば、アナリティクスによる統計的な情報、エッジ処理による特定の側面の情報、機械学習で得られる予測的・推論的な情報などです。残りの情報の大部分は膨大な数の「FACT(事実)」として存在しています。例えば、トレーサビリティデータには、「いつ、どこからどこへ、何が何個移動したか」といった具体的な記録が蓄積されています。
もしLLMがBAにリアルタイムかつ柔軟にアクセスし、これらのFACTを自由に引き出せるようになれば、科学技術・医療・製造・流通・金融・公共サービスなど、あらゆる分野で画期的なイノベーションを生み出すことができます。
しかし、BAは時に全体で数兆レコード *1、数万カラム *2 に及ぶこともある巨大なデータです。そのため、コストや運用の制約から、多数のファイルに分割され、低コストの環境に保存されるのが一般的です。この結果、BAへのアクセスは極めて困難になっています。
2.3つの課題
この状況を打破し、LLMがBA内のFACTを低コストで高速かつ柔軟に利用できるようにするには、極めて困難な3つの大きな課題を克服する必要がありました。
課題1.目的別BAの生成
BAは多数のファイルに分割され、さらにさまざまなカラムを含んでいることが多いため、そのままでは利用しにくい状態です。利用目的に応じて、必要なカラムを抽出し、ファイルを結合して「目的別BA」を作成する必要があります。
しかし、この過程にはデータの結合、カラムの選別、形式の変換(単位の統一など)が含まれ、処理には膨大な時間を要します。
課題2.目的別BAへの高速アクセス
作成した目的別BAは、そのままでは検索や参照に最適化されておらず、インデックスも存在しません。そのため、巨大な目的別BAをクラウド環境などに置いたとしても、リアルタイムにアクセスすることは極めて困難です。検索やデータ抽出のたびに膨大な処理が発生し、実用的なレスポンスを得ることができません。
課題3.目的別BAの保管・転送
目的別BAは、BA全体である場合もあり、その保存や転送が大きな課題となります。保存できなければデータの継続的な利用が困難で、転送できなければ共同作業が難しくなるからです。
これらの3大課題を以下のようにして一挙に解決したのが、私たちが98年から研究・開発してきた「自然数インデックス」と23年に実用化された「写像表形式データ」の組合せです。
-
千個ものBAを統合した写像表形式データはリアルタイムに生成でき、それが目的別BAです。
-
写像表形式データの全てのカラム、全てのカラムの組合せ、全ての部分集合にインデックスがあるため、写像表形式データである目的別BAは高速アクセス可能です。
-
写像表形式データは値を持たず、写像だけでできているため、どんなに巨大な表形式データを表現していても極めてコンパクトです。そのため目的別BAの保管・転送は容易です。
すでに、千個以上のBAを結合して31.5兆レコード・3千カラム規模の巨大表形式データを生成し、それをPC1台で対話型操作するデモを公開しています。課題解決への歩みはこちら。
このような目的別BAにメタ情報の管理機能、関連アプリなどを追加すると、LLMがリアルタイムでアクセスできるBAのRAG「BA-RAG」を作ることができます。まとめると、写像表形式データ=目的別BA、目的別BA+α=BA-RAG となります。
3. FACT を活用する 次世代BA-RAG
従来のRAGは、主に埋め込みベクトルを用いた「知識」を検索するものでした。一方、BA-RAGは知識ではなく、BAに蓄積された正確かつ詳細な「FACT」(例:製品の販売記録)を検索します。例えば、あるロット番号のCPUに不具合があったことが判明した場合、出荷したどのPCの中にそのCPUが組み込まれていたか、は BA-RAG で検索できます。
この BA-RAG は、LLMがアクセスできる情報の範囲を異次元に拡大します。その結果、科学技術・製造・流通・金融・医療・公共サービスなど、あらゆる分野で新たなサービスとイノベーションが創出されることになります。
4. BA-RAG のドキュメント: Peta Book
1つ1つのBA-RAGを章として、1冊の本のようにBAをまとめ上げたものが Peta Book (PB)です。PBは Excel が各シートをまとめてブック形式にするのに似ています。例えば、2020年の部品の仕入れの記録、組み立ての記録、出荷の記録それぞれのBA-RAGを章として「2020仕入れ・製造・出荷記録」と言う本(PB)を作ることができます。
写像表形式データが極めてコンパクトであるため、Peta Bookもコンパクトであり、保管・転送が容易です。そのため Peta Book は、ExcelやWord, PDF と同じように一つのドキュメントとして扱うことができます。気軽に保持し、利用し、コピーや転送もできます。組織内に貯まった膨大なBAが手間もコストも最小限で保管でき、保管したBAがいつでもどこでも気軽に利用できるようになります。また、ECサイトで販売することも可能になります。
5. 私たちの使命 ー BAを基盤とした新たな情報社会の実現
私たちが開発した「自然数インデックス」と「写像表形式データ」は、BAを活用した次世代の情報社会を築く大きな可能性を持っています。そして、これを現実のものとすることこそが、私たちの使命です。
この使命を果たすために、最も重要なのは技術の普及と標準化の推進です。 BA-RAGを広く世界に浸透させ、あらゆる分野での活用を加速することで、FACTに基づく新たな知の活用が推進されます。
私たちは、この技術を社会に根付かせるためにパートナーシップの強化、オープンな技術基盤の提供、実証事例の拡大を進めていきます。そして、BAを誰もが容易に利用できる未来を実現することで新たな情報革命を切り拓いていきます。
*1. 数兆レコード:電話会社の通話記録、大規模IoTデータの例
*2. 数万カラム:半導体製造装置のセンサー、最近の宇宙機の例
Information
756PB のビューイングとは
(Youtube 2024.02)
オンデマンドでテイラーメイドのエクサバイトDBを供給
ビッグデータの共創・共同利用プラットフォームを実現
(スライド)UPDATED 2025.02.01
スライド
ビッグアーカイブの RAG を実現する Peta Book
(スライド)UPLOADED 2025.03.01
スライド
宇宙科学情報解析シンポジウム(2025.02.14) での発表資料