[강화학습] 강화학습 개요
https://www.edwith.org/move37/lecture/47697 라벨링이 필요 없는, 자가 피드백을 통한 학습 역사마르코프 체인으로부터 시작. Transition Matrix를 구한다. 한 상태에서 다른 상태로 연속적으로 이동할 수 있는 프로세스의 상태 세트를 가지고 있다.Base case S0 = [1 0 0]에서 Inductive step St+1 = st*T 각 이동은 단일 단계이며, 한 상태에서 다음 상태로 이동하는 방법을 정의하는 전이 모델 T를 기반으로 한다. 마르코프 속성(Markov property)는 주어진 현재의 미래는 조건부로 과거와 독립적이다.주어진 현재 단계는 무조건 한 단계 전의 상태에만 의존한다는 걸 전제로 한다. 예제만약 2가지 상태가 있는 모델을 정의한다고 ..
데이터 사이언스 & 로봇/강화학습(RL)
2024. 5. 25. 18:09