教育データサイエンス部がキュビナのデータ指標を設計した話【メンバーインタビュー#31】
こんにちは、採用広報の伊藤です。
前回の記事では、「COMPASSのメイン事業売上を支えるビジネス組織のエリアマネージャー」にインタビューをした記事を掲載しましたが、ご覧いただけましたでしょうか?
今回は、メンバーインタビュー#29でご紹介した「教育データサイエンス部がQubena導入による学力向上を検証した話」に続き、COMPASSの教育データサイエンス部の取り組みをご紹介する記事の第2弾をお届けいたします!
▼第1弾「教育データサイエンス部がQubena導入による学力向上を検証した話」はこちら
前回の記事同様に、ここからは、教育データサイエンス部でデータサイエンティストとして働く、中嶋さんにバトンタッチします!よろしくお願いします。
▼教育データサイエンス部中嶋さんの過去インタビューはこちらからも読めます(※教育R&Dチームは現教育データサイエンス部の名称です)
中嶋:
こんにちは!株式会社COMPASS教育データサイエンス部の中嶋です。
COMPASSは、「新しい学びの環境を創り出す」をミッションに、学習eポータル+AI型教材キュビナを開発し、全国の小中学生に提供しています。
前回の記事では、キュビナを活用したことによる効果、その中でもまずは学習教材という立場から学力向上に寄与できるかを検証した事例を紹介しました。今回は、COMPASSの教育データサイエンス部で取り組んでいるデータ指標設計に焦点を当て、その理論的背景や実践的なアプローチについて紹介していきたいと思います。
1. 指標設計の重要性
データ指標設計は、単なるデータの集計以上に、意思決定を支える重要な要素です。正しく設計された指標は、サービスの改善に貢献し、より良い方向性を示します。一方で、適切でない指標は、誤った結論を導き出し、サービス改善の機会を逃してしまう可能性があります。
そのため、COMPASSでは、教育データを活用してキュビナの学習効果を最大化するために、綿密な指標設計に取り組んでいます。
2. 指標設計のプロセス
1. どのようなログを取得するか
指標設計の最初のステップは、「どのようなログを取得するか」の設計です。意味のある指標を作成するためには、どのデータをどのように記録するかを定義する必要があります。
例えば、キュビナでは、生徒がどのような学習行動を取っているかを把握するために、説明をタップしている、ヒントをタップしている等のイベントや、解答ボタンを押すまでの秒数などのログを取得しています。
他にも、どの機能から取り組んだ問題なのかや、問題への正誤などを1問ごとに記録しています。
2. 要件定義と目標設定
データ指標を設計する次のステップは、分析の目的を明確に設定することです。目的を明確にすることで、どのような指標が必要であり、どのようなデータを収集するのが最適かを判断できます。必要に応じてステップ1に戻り、ログの取得方法を見直すこともあります。
COMPASSでは、キュビナの効果的な学習方法を探るため、さまざまな仮説を立て、それを基に指標を設計しています。例えば、「学習効果に結びつく効果的なキュビナの使い方は何か?」という問いに対し、いくつかの仮説が考えられます。
例:
間違えた問題をしっかり解き直しているか
説明をきちんと読んでいるか
解説をしっかり読んでいるか
自分で問題を選んで学習しているか
先生が出題した問題を学習しているか ・・・など
このように立てた仮説を検証するために、必要なログデータを収集し、指標を設計しています。
例として、上で挙げた仮説「間違えた問題をしっかり解き直すことが効果的なキュビナの使い方であるか」を確かめるために設計した指標である「再学習した割合」を取り上げて、この後の指標設計のプロセスについて紹介します。
3. データの選定と指標の構築
指標を設計する際、まずは適切なログデータを選定します。
今回例に取り上げているのは、「間違えた問題をしっかり解き直しているか」という状況を示すデータです。まず、間違えた問題と同じ問題を再度解き直したかに注目しました。しかし、単純に間違えた問題と同じ問題の復習を行った数を指標とした場合、間違えた数が多い生徒ほど復習を行える機会も増えるため、数が多いこと自体が復習の効果を示しているわけではありません。
つまり、単に復習した問題の数をカウントするだけでは、学習者がしっかりと間違えた問題を復習している状況を正確に評価できないという課題がありました。
そこで、復習の効果を正しく測定するために、次のような指標を設計しました:
初めて取り組んだ問題で不正解だった問題を再度解き直した件数 ÷ 初めて取り組んだ問題で不正解だった件数
この比率により、「再学習した割合」という指標を導き出すことができ、間違えた問題をどの程度しっかり復習しているかを定量的に把握できるようになりました。
4. データの前処理
前処理は、データの品質を確保し、正確な分析結果を得るために重要です。具体的な前処理の工夫としては、以下のようなものがあります。
欠損値の処理:データセット内の欠損値を適切に処理することで、分析結果にバイアスがかからないようにする
異常値の検出と対応:外れ値や異常なデータポイントを検出し、分析に影響を与えないようにする
今回の例では、[初めて取り組んだ問題で不正解だった問題を再度解き直した件数÷初めて取り組んだ問題で不正解だった件数]を集計するにあたり、次のような処理を行いました。
分母「初めて取り組んだ問題で不正解だった件数」が0件である生徒、つまり、1問も間違えていない生徒がいる可能性があります。このような生徒のデータは欠損データとして扱うこととしました。
一方、分子「初めて取り組んだ問題で不正解だった問題を再度解き直した件数」が0件である生徒、つまり、1問も間違えた問題を解き直していない生徒がいる可能性もあります。このような生徒は再学習した割合が0として処理することとしました。
5. 指標の評価とデータ指標の改善
設計した指標を用いて仮説を検証し、必要に応じて指標の改善を行います。
今回の例では、「再学習した割合」を使って、間違えた問題を解き直すことが効果的な学習方法であるかを重回帰分析で検証しました。(効果検証に関する内容はこちらの記事をご参照ください。)
検証の結果、間違えた問題をしっかり解き直すことが効果的なキュビナの使い方であることが明らかになりました。しかし、キュビナでは、再学習に複数の手段が用意されています。それぞれの手段が学習効果に与える影響を正確に測るためには、細分化された指標を設計する必要があります。そこで、以下の手段ごとにデータを取得し、対応する指標を追加作成することとしました。
目次一覧での解き直し
関連する単元の自動出題での再学習
類似する問題の自動出題での再学習
ワークブック指定パートでの再学習
ワークブック確認パートでの再学習
ワークブック復習パートでの再学習
学習履歴からの再学習
5分間復習の問題での再学習
これにより、生徒がどの手段を使って再学習に取り組んでいるかを把握し、その効果を定量的に評価することが可能です。
3. 今後の展望
COMPASSでは、より適切に子どもたちの学習状況を把握できるよう、データ指標の改善に取り組んでいきます。データに基づいた指標の設計と評価は、今後の教育現場での改善策を提供する上で重要な役割を果たすでしょう。
教育データサイエンス部では、これからもデータドリブンなアプローチを通じて、子どもたちの学びを支え、教育の質を向上させるための取り組みを続けていきます。
4. 終わりに
COMPASSの教育データサイエンス部では、データ分析を通じて、教育の未来を形作っています。指標設計に興味を持たれたデータアナリストの皆さん、ぜひ私たちと一緒に新しい可能性を追求してみませんか?ぜひ以下のページからご応募ください。
▼データ・AIユニット/教育データサイエンス部の募集要項はこちら
まずはざっくばらんにCOMPASSの話を聞いてみたい!という方は、カジュアル面談をお申し込みください。
▼カジュアル面談のお申し込みはこちらへ
中嶋さん、今回もありがとうございました。
教育データサイエンス部の取り組みについては第3弾の記事も予定していますので、ぜひ楽しみにお待ちください。
COMPASSではデータ・AIユニット/教育データサイエンス部で、一緒に走ってくれる仲間を募集しています!皆さんのご応募ぜひお待ちしております。