マテリアルズ・インフォマティクス(MI)推進のためのデータ構造化【セミナー記事】

  • 公開日 2025-11-14
  • 最終更新日 2025-11-14

セミナー情報

  • 開催日:2025年8月27日(オンライン開催)
  • 講師:石橋 和也(法人事業部 DXコンサルティング部 リーダー)

材料開発の現場において、AIを活用し、開発期間の短縮やコスト削減を実現するマテリアルズ・インフォマティクス(MI)への期待は高まっています 。

しかし、多くの企業で「データはあるけど、活用できない」という課題に直面し、MIの推進が停滞しています。MIの成功のカギは、AI活用に不可欠な「実験データの構造化」にあります。

このセミナーでは、研究開発現場が抱える具体的な課題を明らかにし、その解決策となる「データ構造化」の具体的な手法とケーススタディをご紹介します。

MIの現場課題 〜MIの3つの目的、現場の3つの壁〜

MIは、材料開発の期間短縮・効率化を実現する技術です。

AIやシミュレーションを駆使するためには、過去の実験データをうまく活用できる形に整えることが大切です。そのため「データの構造化」は、MIを進めるための基盤だと考えています。

あらためて、MIの3つの目的は次のとおりです。

  • 開発期間の短縮
    従来数年かかっていた新材料開発を数ヶ月に短縮し、研究開発のスピードをより早くする。
  • 実験回数の削減
    シミュレーションや予測モデルにより、重複実験や無駄な試行を減らし、研究者の負担を軽減する。
  • 探索効率化
    AIにより膨大な探索空間から有効候補を絞り込み、効率的に新材料を見つけ出す。

現場課題の全体像という点で、私もMI導入についてお客様と打ち合わせをする機会がありますが、データはあるけど使えない状態や状況であったり、各研究員が使っているデータフォーマットが異なるため、AIや機械学習などが利用できないという声をよく聞きます。これらの課題は、多くの現場で共通するのではないかと思います。

つまり、「データが存在するのに活用できない」ということが、MIを推進することのボトルネックになっているケースが多いようです。

お客様のさまざまな声を3つに分類すると、1つ目はデータが散在していたり、検索が難しかったりすること、2つ目は形式・フォーマットが人によって異なっているということ、3つ目が属人化となります。

これら3つの課題について、詳しく説明しましょう。

図:現場課題の全体像を示す。主な課題は①データ散在・検索困難 ②形式不統一 ③属人化。

課題1:データの散在・検索困難

現場では、部署やチーム、システムごとに研究データが分散・管理されてしまい、必要な情報を見つけるのに時間を要することが珍しくありません。

原因として、次の3つが考えられます。

  1. 保存場所の分散
    保存場所データが個人PCや紙ノートなど、さまざまな場所に散在しているという問題
  2. 探索の非効率
    データの所在が不明確で検索に時間を要したり、過去実験を繰り返す事態も発生するケースあり
  3. 知見の喪失
    研究者の異動や退職でデータが失われ、長期的な知見の蓄積が困難になる

これらによって、データ検索に時間がかかったり、AIが活用できなかったりと、研究開発の非効率化が起きてしまっている、という状況がよくあります。

図:研究データの分散と検索困難を示す。課題は①保存場所の分散 ②探索の非効率 ③知見の喪失

課題2:形式の不統一

同じ種類の実験でも、部署・チーム・個人ごとにフォーマットや単位が異なるケースがあります。

次の3つが代表的な例です。

  1. 表記揺れ
    「Temp」「温度」「℃」などの名称不一致
  2. 単位不一致
    「K」と「℃」、「MPa」と「N/mm²」などの混在
  3. フォーマット差異
    スプレッドシートの列順や項目数がバラバラで、統合処理(機械的な処理やAI解析に利用すること)が難しい

表記揺れや単位不一致が頻発し、機械的な処理やAI解析に利用することが難しくなります。これらの不統一は「活用可能なデータ」への変換を阻む壁のひとつです。

図:形式不統一を示す。主な問題は①表記揺れ ②単位不一致 ③フォーマット差異。

課題3:知見の属人化

データ整理や記録方法が個人に依存し、「あの人しか分からない」「あの人なら分かるよ」という状態が頻発していることが、私自身もよく耳にします。

課題としては、次の3つがあります。

  1. 独自ルールの氾濫
    研究者ごとに異なるフォーマットや命名規則
  2. 引き継ぎ困難
    他者が理解できず、業務が個人に依存
  3. 知見消失
    研究成果が組織に蓄積されず、再利用・展開が進まない

独自ルールや命名規則により引き継ぎが困難になり、知見が組織に残りません。属人化は研究成果を“個人知”に留め、組織資産化を阻害してしまっています。

図:属人化を示す。主な問題は①独自ルールの氾濫 ②引き継ぎ困難 ③知見の消失。

実験データの構造化とは? 〜MI活用の基盤となる取り組み〜

それでは、本題に入っていきましょう。 一般的な「データ構造化」も含めて話していきます。

データ構造化の要素とメリット

データ構造化の3つの要素は次のとおりです。

  1. 統一フォーマット
    列名・単位・データ型を統一し、同じ軸で比較できる状態にします。これにより機械可読性が確保され、AIの基盤となります。
  2. メタデータ付与
    実験ID、担当者、装置、条件などをタグとして記録します。これにより、表記揺れを防ぐとともに、条件検索や横断検索が可能となり、データの検索性が大幅に向上します。
  3. 関係性の明示
    試料準備、測定条件、結果データをリンク化し、データの追跡を可能にします。

これらの要素を満たすデータ構造化を推進することで、次のようなメリットが生まれます。

  • 研究の効率化
    過去データを再利用し、探索時間を大幅に短縮
  • AI活用
    機械学習モデルを構築し、新規実験を削減・予測精度を向上
  • 知見の組織化
    横断検索で傾向を把握し、個人知から組織知へ転換

これらの構造化を実現し、研究開発部門における材料開発を加速させるためのデータ蓄積プラットフォームとして、アイデミーには「Lab Bank」があります。Lab Bankを活用することで、データの一括管理、高い汎用性、そしてMIモデルによる物性予測機能を提供し、材料開発の時間とコストを削減できます。

図:データ構造化の要素とメリットを示す。要素は統一フォーマット、メタデータ付与、関連性の明示。メリットは研究効率化、AI活用、知見の組織化。

構造化の落とし穴

さて、データ構造化は万能ではなく、導入時には負担や定着の難しさといった課題があることも押さえておきましょう。

具体的には、次の3点が課題として挙げられます。

  1. 初期工数の大きさ
    既存データの棚卸しや変換ルール作成に時間がかかる
  2. 現場負担が大きい
    入力作業が増え、研究者から抵抗感が出やすい
  3. 運用定着の難しさ
    ルールが守られなければ、すぐに形骸化してしまう

補足すると、これらの課題によって、昔のやり方のほうが慣れているからと、勝手に運用方法を戻してしまう可能性があります。

これらの落とし穴を事前に認識し、計画的に推進することが成功のカギです。

図:構造化の落とし穴を示す。主な課題は①初期工数の大きさ ②現場負担の大きさ ③運用定着の難しさ。

実験データの造化とは?

このセミナーでの「実験データの造化」について、簡単に定義をしておきましょう。

私たちは、実験データの造化とは「AIや機械処理で検索・分析できるように整理すること」と定義しています。単なるファイル管理ではなく、データを使える形に整えることを意味します。このことが、MI推進の前提条件であり、研究開発の効率化の出発点となります。

実験データの造化に必要な要素は、次の3つです。

  1. 機械可読性
    列名や単位を揃えることで、プログラムやAIが誤解なく処理でき、分析や自動化の基盤となる
  2. 検索性
    メタデータやタグを付与しておくことで、条件検索や横断検索が可能になり、再利用の効率が大幅に向上する
  3. AI活用前提
    形式が統一されたデータは学習データとして活用でき、予測モデル構築や新規知見の発見につながる
図:実験データの構造化とは何かを説明する。主な要素は機械可読性、検索性、AI活用前提の3点。

ケーススタディ 〜データ構造化の具体例〜

今回ご紹介する事例の背景とゴールについて説明します。

まず、背景としては、

  • 実験データは研究者ごとに別フォーマットで管理している
  • Excelで実験データを管理している
  • 同じ研究を行っている研究者は3人いる(Aさん、Bさん、Cさん)

となります。

ゴールは、

  • 3人分のExcel実験データを、統一フォーマットのCSVファイルに集約する

としています。

処理フロー(全体像)

実験データは研究者ごとに形式が異なるため、そのままでは分析や共有が困難です。本ケーススタディでは3つのExcelファイルを共通フォーマットに構造化し、最終的に1つのCSVに統合します。

  1. Step 1:ファイルの選定
    構造化する上で、理想の形式に最も近いファイル(手本ファイル)を選定します。
  2. Step 2:データの構造化(フォーマット生成)
    手本ファイルのスクリーンショットやデータをコピーし、指定したプロンプトを入力することで、CSV(またはExcel)形式に変換します。この処理を、残りの2人分のファイルについても同様に実施します。
  3. Step 3:ファイル結合
    複数のCSVファイルを縦に結合し、データに不整合や違和感がないかを確認します。問題がなければ、構造化は完了となります。

Step 1:ファイルの選定

構造化の基準となる手本ファイルを選定します。実験で取得すべきデータが網羅され、単位や表記に一貫性のあるファイルを基準にすることで、後続の処理をスムーズに進めることが可能です。

ファイル選定のフローとしては、次のようになります。

  1. 比較ファイルの比較
    Aさん、Bさん、CさんのExcelファイルを比較
  2. 手本ファイルの選定
    データの網羅性、単位・表記の一貫性、構造化されているかの観点で比較する
  3. 手本ファイルの決定
    Bさんのファイルを手本ファイルとして決定

Aさんのファイルは、1実験1行になっておらず、構造化しづらい形式であり、網羅性△、一貫性◯、構造化×。
Bさんのファイルは、1実験1行になっており、他のファイルよりも網羅性を担保できているため、網羅性◯、一貫性◯、構造化◯。
Cさんのファイルは、日付行があり、構造化されていないといったことから、網羅性△、一貫性△、構造化×。

このように評価した上で、Bさんのファイルを手本ファイルとすることに決定しました。

※どのファイルを手本ファイルとした場合でもデータ構造化を行うことは可能です。しかし、効率的なデータ構造化を行うために、手本ファイルの選定を行います。

図:ファイルの選定を説明する。比較ファイルの把握、手本ファイルの選定、手本ファイルの決定の3段階を示す。
図:ファイルの選定を示す。Aさん・Bさん・Cさんの3つのファイル例を比較し、Bさんのファイルが最も構造化に適していることを示す。

Step 2:データの構造化(フォーマット生成)

次のステップでは、Step 1で選んだ手本ファイルをともに、生成AIを用いてデータをCSV形式に構造化します。これにより、異なるフォーマットの実験記録を統一的に整理できるようになります。

データ構造化の流れは、次のとおりです。

  1. ファイル内容(スクリーンショットとコピー)+プロンプトを入力
  2. 生成AIにファイルを生成するPythonスクリプトを生成してもらう
  3. Pythonファイルの実行と出力されたCSVファイルの確認
図:データの構造化(フォーマット生成)を示す。手本ファイルを基にPythonスクリプトでCSV形式を生成し、統一フォーマットを作る流れを説明。

実際に、生成AIにプロンプトを入力する画面を見てみましょう。Aさん、Bさん、Cさんのファイルそれぞれを処理していきます。

一回ではうまくいかず、エラーが発生する場合もありますが、どのように処理を進めて欲しいのかを伝えることで、ブラッシュアップしながらフォーマットを作っていくことになります。

スクリーンショット:ChatGPT画面。Pythonコードを用いて実験データをCSVに変換する処理と、KeyError発生時のエラーメッセージ対応例を示す。

Step 3:ファイル結合

最後に、手本ファイルで作成した変換スクリプトを基準に、他のExcelファイルも同様にCSV化します。

  1. Step 2で生成されたPythonスクリプトを実行し、CSVファイルを出力する
  2. 出力されたCSVの列名・表記が一致しているか確認
  3. 3つのファイルを直接開きコピー&ペーストで1ファイルにまとめる

CSVファイルを出力するPythonスクリプトを生成させることで、本ケーススタディのゴールを達成することができました。

図:ファイル結合を示す。Aさん・Bさん・CさんのCSVファイルを比較し、列名と表記を揃えて1つのファイルに統合する手順を説明。

セキュリティ課題の克服

生成AIを活用したデータの構造化をご紹介しましたが、やはりセキュリティ上の懸念を抱く方も多いと思います。

今回のケーススタディでは、ダミーデータを使用したため、そのままChatGPTに投入が可能でした。しかし、実際の実験データを既存のAIアプリなどにそのまま入れるのは基本的許されないケースもあるでしょう。

たとえば、OpenAIのChatGPTアプリの場合、デフォルトでは投入したデータは今後のGPTモデルの学習に使用されてしまう点であったり、学習への使用が無くとも、海外のAIサーバーにデータが送信される時点で一定のリスクが存在し、企業で許されるケースは少ないと考えています。

では、どのような回避策があるのかというと、次の2つがあると思います。

  • ローカルLLMを使用
    高自由度であるが、高コスト(構築・維持)というデメリットも。
  • データの中で、機密に該当するような情報をマスクして投入
    今回のデータの場合、2行目以降の具体的な数値が特異的な資産と考えられるため、Excelの1行目の列名部分のみを入力して変換スクリプトを書かせるなどの対応が有効。
    マスク作業に多少時間がかかったとしても、変換スクリプトを自前で書いたり、手作業でデータを整備するよりも基本的には楽なケースの方が多い。

まとめ

今回のケーススタディではデモデータを利用していたため、ChatGPTを活用したデータ構造化を行いました。

普段の業務で、ChatGPTやCopilotに研究データを入れることができるケースは稀であると考えています。ローカルLLMやデータのマスクなどの回避策を利用して生成AIを活用する道筋もあるかと思います

実際に本セミナー後、生成AIを活用した構造化を実践してみて、お困りごとがあればぜひアイデミーにお声がけください。

導入事例へ戻る

資料ダウンロード

サービスに関する詳細や
導入事例についてご紹介した
資料をダウンロードいただけます。

お問い合わせはこちら

お悩みや課題に合わせて
活用方法をご提案いたします。
お気軽にお問い合わせください。