6 minute read

Exploiting Cognitive Structure for Adaptive Learning

0. Abstract

  • 적응형 학습(Adaptive learning)이란 개별 학습자에게 학습항목(learning item)을 제공하는 것이다.
  • 인지구조(cognitive structure)는 지식 수준(knowledge level)과 지식 구조(knowledge structure)로 이뤄져 있는데, 이전 방법들은 둘 중 한 것만 다뤘다면 CSEAL(Cognitive Structure Enhanced framework for Adaptive Learning)은 두 개를 동시에 이용한다.
  • 그 과정은 3단계로 나눌 수 있는데 학습자의 지식 수준을 추적하고, 학습 경로를 파악할 지식 구조를 탐색하고, 다음은 무엇을 학습할지 결정하는 것이다.

1. Introduction

  • 적응형 학습은 학습자의 현재 지식수준과 학습 항목 간의 선수지식(prerequistie)을 이용해 ‘두 자리 수 더하기’ 후 ‘곱셈’처럼 적절한 학습 경로를 제시하는 것이다.
  • 지식 수준 혹은 지식 구조만 이용한 적응형 학습은 부족한 면을 보여왔다. 그래서 두 개념을 모두 이용하는 인지구조를 활용한다면 이 점을 해결할 것이다.
  • 이를 위해 3가지 과제가 존재한다.
    • 학습자의 지식 수준은 직접 관찰할 수 있지 않으며, 학습에 의해 계속 변하므로 이를 표현할 방법이 필요하다. –> 지식 추적(knowledge tracing) 모델을 이용해 지식 수준을 파악
    • 지식 구조는 논리적인 학습경로를 가져야한다. –> 인지 탐색(Cognitive Naviagtion)알고리즘을 통해 지식 구조 기반의 후보 학습항목을 선택
    • 한 단계가 아닌 모든 학습경로를 거친 후의 성과가 좋은 학습경로를 추천해야한다. –> Actor-Critic 강화학습 알고리즘을 이용해 이후 학습할 내용을 결정하고 파라미터를 갱신

image.png

2. Relation work

  • Learing path recommendation
  • Cognitive structure
  • Reinforcement learning

3. Preliminaries

용어 정리

  • Learning session : 학습 세션은 학습 목표(learning target)를 가지고 있으며, 학습자가 학습하기 위한 항목이 나열된 학습경로와 그 학습경로를 통한 학습효과(learning effectiveness)를 측정하기 위한 시험(examinations)으로 구성되어있다.
    • 학습 세션의 효과를 표현하는 점수 \(E_P=\frac{E_e-E_s}{E_{sup}-E_s}\)
    • $E_s$는 학습 시작 시 점수
    • $E_e$는 학습 종료 시 점수
    • $E_{sup}$는 만점
  • Prerequistite graph : 지식 그래프의 서브그래프이며, 학습 항목 간의 계층적 구조를 표현하기 위해 DAG형태이다. 즉, 각 개념을 알기 위해 먼저 알아야하는 선수 지식을 표현한 그래프이다.

image.png

정의

  • target T = {$t_0, t_1, … $} : 학습하기 위한 하나 이상의 학습 항목
  • historical learning record H = {$h_0, h_1, …, h_m $} : 이전의 학습 세션에서 만들어진 기록
    • 각 $h_i$는 {k, score}로 이뤄져있으며 이때 k는 학습 항목, score는 문항 응답(보통 0 or 1로 정오표현)이다.
  • learning path P = {$p_0, p_1, …, p_N $} : N개의 항목이 나열된 학습 경로
    • 단계 i에서 학습 항목 $p_i$가 추천되고, 그에 대한 기록 $F_i = (p_i, score_i)$가 발생한다.
  • 학습 세션이 끝나면 학습 효과 $E_P$를 구할 수 있다.
  • 결국 H, T, G(Prerequistite graph)가 주어지면 $E_P$를 최대화하는 경로 P를 구하는 문제

4. CSEAL

Knowledge tracing

  • 지식 추적은 이전 학습 기록들 $L_{i-1} = H \oplus F_{0,1,…i-1}$을 이용해 학습자에 내재된 지식 수준 $S_i$를 표현할 수 있다. 즉, DKT 모델을 이용해 이전 학습 기록 $L_t$ = {$p_t, score_t$}마다 $score_t$를 추정한다.
  • 이때 embedding 차원은 그래프 G의 노드의 갯수 M을 이용한다. 아웃풋 역시 M차원 벡터이다.

Cognitive naviagtion

  • 학습 항목 간의 관계를 표현하는 지식 구조는 논리적으로 배열되어야한다. 그러나 지식 수준과 지식 구조의 결합이 가지는 복잡성 때문에 명확한 해결책을 쉽게 낼 수 없다.
  • 대신 빠르게 잠재 후보를 고르는 방법을 선택한다. 이러한 잠재 후보들은 권장 학습 항목이 경로의 논리성을 위반하는 것을 방지할 뿐만 아니라 넓은 검색 공간을 줄일 수 있다.
  • 막 학습이 끝난 항목3을 ‘central focus’라고 하자. 그렇다면 선수학습 항목인 0,1,2를 다시 검토하거나, 후행학습 항목인 4를 살펴볼 수 있는데 이들이 바로 후보(candidate)이다.
  • 이 후보들 중에서 다음에 학습할 항목을 정한다.
  • 알고리즘은 다음과 같다.

image.png

Actor-Critic recommender

환경 셋팅

  • 우리의 타겟은 인지구조 기반의 맞춤형 학습경로를 제시하는 것이다. 그래서 decision making problem으로 연속적인 학습경로 생성을 모델링하고 이를 MDP(markov decision process)으로 다룬다.
  • State
    • 매 스텝마다 $state_i$는 학습 목표 T와 현재 지식 수준 S의 결합으로 표현된다.
    • 학습 목표 T는 원-핫 인코딩으로 표현한다. \(T=\{0,1\}^M ; T^j = \begin{cases}1&if \;j \;in \;the \;learning \;target\\0&otherwise\end{cases}\) 이때 M은 선수지식 그래프의 노드 갯수
    • 그러나 현재 지식 수준은 바로 확인할 수 없어서, 이전 학습을 통한 기록 H과 현재 학습 경로를 따르면서 생긴 기록 $F_{0,…,i-1}$을 합친 $L_{i-1}$으로 대체한다.
  • Action
    • 매 스텝마다 $a_i$는 학습 항목 $p_i$을 추천한다.
    • 이는 다음 분포를 따르는 stochastic policy이다 \(\pi_\theta(a \mid state_i) = P_\theta(a \mid H,F_{0,...,i-1},T)\)

    $\theta$는 모델 파라미터이다.

  • Reward
    • 행동을 취하게 되면 보상 받게 되는데, 스텝 i에서의 보상 $r_i$는 0으로 설정한다. 이후 행동들에 대한 보상만 고려하기 때문이다.
    • 한 번 learning session이 종료되면 보상은 $E_P$이며, 우리의 목적은 각 스텝마다 discount reward의 합 $R_i$을 최대화 하는 것이다.
    \[R_i = \sum_{j=0}^{N-i} \gamma^jr_{i+j}\]

    $\gamma$는 discount factor이며 0.99로 설정했다.

actor-critic 알고리즘

  • 현재 학습 수준에 맞게 적당한 후보를 선정하기 위해 사용됐다.
  • actor
    • CN에서 구한 후보 집합 D에서 $\pi_\theta(a \mid state_i)$를 이용해 action을 취하는 policy network
    • policy gradient를 이용해 학습한다. \(\nabla_\theta = log \;\pi_\theta(a \mid state_i)(R_i - v_i)\)
  • critic
    • 각 state에서의 expected return을 평가하는 value network
    • $state_i = S_i \oplus T$를 input으로 받아, i단계의 expected return은 다음과 같이 계산한다. \(v_i = V_\theta(state_i) = V_\theta(S_i \oplus T)\)
    • 예상하는 value $v_i$와 실제 보상 $R_i$간의 거리를 최적화하며 학습한다. \(Loss_{value} = \left\| v_i - R_i \right\|^2_2\)
  • 최종 loss function \(\left\| V_w(state_i) - R_i \right\|^2_2 + \alpha \cdot log \;\pi_\theta(a \mid state_i)(R_i - v_i) + \beta \cdot -log \;\pi_\theta(a \mid state_i)R_i\)
  • 왜 actor-critic일까?
    • 이 Critic은 action value function을 통해 현재의 Policy를 평가하는 역할을 한다. action을 해보고 그 action의 action value function이 높았으면 그 action을 할 확률을 높이도록 policy의 parameter를 update하는데 그 판단척도가 되는 action value function또한 처음에는 잘 모르기 때문에 학습을 해줘야하고 그래서 critic이 필요하다.

구동 방식

  • KT 모델을 통해 각 단계별로 이전 학습 기록을 통해 현재 지식 수준 S를 찾는다
  • CN을 통해 선수지식 그래프 기반으로 몇몇 후보를 고른다.
  • ACR을 통해 모든 학습 경로 중 가장 좋은 경로를 택하는 후보를 선택한다.
  • 한 learning session이 끝나면 episode reward를 통해 모델을 업데이트한다.

image.png

5. Experiments

데이터 셋

  • 학습자id, 개념이름, 세션id, 정오, 타임스템프로 이뤄진 여러 학습자 log와 하나의 지식그래프
  • 지식그래프에서 선수지식 그래프를 추출하고 이를 DAG로 표현
  • 하나의 세션에서 한 개념을 반복적으로 학습하거나 관련된 개념이 동시에 학습될 수도 있다.

image.png

System simulators

  • 현실의 데이터는 고정적이다. 다시 말해 실제 학습자가 모델이 추천한 학습 경로를 통해 학습된 데이터는 추가될 수 없기 때문에 새로 학습할 개념에 대해 어떤 대답을 할 지 알 수 없다. 그래서 현재 가진 데이터로 지적 성장을 이뤘는지 확인할 시뮬레이터 환경이 필요하다.
  • Knowledge Structure based Simulator(KSS)
    • 질적인 지식 성장 패턴이 지식 구조에 완벽하게 맞는 시뮬레이터
    • 선수지식의 이해도가 새로 배울 지식에 얼마나 영향을 끼치는가?
    • 문항반응이론(IRT)의 $P(\theta)$을 각 $p_i$에 대한 $score_i$의 계산과 reward 계산에 이용한다.
    • 이때 관련 파라미터나 학습자의 능력은 전문가가 제시하는 것이므로 KSS는 rule-based expert 시스템이다.
    • 현실과 잘 맞지 않을 수 있다.
  • Knowledge Evolution based Simulator(KES)
    • 학습자의 지식 수준이나 성장을 잘 표현하기 위한 data-driven 시스템
    • DKT모델을 이용해 현재 지식 수준을 기반으로 다음 문항을 맞출 확률을 구해 이를 $p_i$에 대한 $score_i$의 계산과 reward 계산에 이용한다.
    • 지식 구조의 연관성을 표현하는데 문제가 있다.
  • 결국 두 시뮬레이터는 상호보완적인 관계이다.

evaluation metrics

  • 학습 경로 추천은 학습 효과에 대해 다루기 때문에 기존의 대표적인 추천 시스템과는 다른 결을 가지고 있다. 그렇기 때문에 기존의 metric인 precision이나 recall등을 사용할 수 없다.
  • 그래서 시뮬레이터에서 나온 학습 효과 지표 $E_P$와 전문가에 의한 학습 경로 논리성 판단을 합쳐서 평가해야 한다.

experimental results

  • baseline 모델보다 좋은 성능을 얻을 수 있다.
  • KSS환경에서 지식 구조를 이용한 모델이 그렇지 않은 모델보다 좋은 성능을 내고 있다.
  • KES환경에서 지식 수준과 구조를 이용한 모델이 나은 성능을 보이는 것을 보아 지식 수준과 지식 구조를 종합적으로 사용한 인지 구조 활용이 필요해보인다.
  • 추천 학습 경로에 대한 여러 전문가의 평점을 보았을때 CSEAL이 높은 점수를 받았다. 또한 CN을 이용한 모델이 높은 점수를 받은 것을 알 수 있다.
  • session의 길이 또한 영향을 끼치는데, KES는 모든 세션 길이의 중앙값 정도를 가지는 것이 좋고, KSS는 rule에 의해 만들어져 길이의 한계를 정하지 않았기 때문에 길면 길 수록 성능이 향상한다.
  • CSEAL이 다른 모델에 비해 효과적인 학습 경로를 제시한다.

$E_P$ 지표

image.png

전문가 평점 image.png

CN의 유무에 따른 expected return의 차이

image.png

세션 길이에 따른 성능 지표

image.png

모델 별 학습 목표에 대한 추천 경로 예시

image.png

리뷰

학습 경로를 추천하는 논문을 처음 읽어봤다. 교사에게 있어 학생의 선수지식을 파악하고 이를 바탕으로 학습법을 제시하는 것은 중요한 일이다. 아무리 그 개념을 가르쳐봤자 선수 개념이 없으면 그 학생은 평생 이해하지 못 할 것이다. 이런 교수 학습법을 세 가지 모듈을 통해 구현했다는 점이 재밌었다. 계속 KT모델로 학생 수준 측정만 다루다가 처음 추천 시스템이 결합되니 굉장히 이해하기 어려웠지만, 교육 ai에 대한 안목을 넓힐 수 있는 좋은 기회였다.

Updated: