https://lms.kmooc.kr/course/view.php?id=5667#section-12 제어라는 학문은 로봇 공학 이전에 제어공학이라는 학문을 설명한다. 강좌에선 나오지 않아 필자가 대신 간단히 설명하자면, 어떠한 물체가 움직이는 것에 대해, 그에 관련된 수학적 모델링을 하고, 그 수학적 모델링을 엮어 하나의 제어 루프나 공식을 완성시켜, 그 공식이 완전한지 불완전한지를 판단하는 학문이다. 따라서 본 강좌가 이해가 안되는 부분이 있다면 제어공학에서의 내용들을 리뷰하고 공부하는 걸 추천한다. One - DOF exampleunconstrained (or fee) control이라고 하는 개념이다. 만약에 마찰이 없는 평면에 다음과 같이 물체가 있다고 하자. 그럼 당연하게도 마찰이 없으므로, F..
https://www.edwith.org/move37/lecture/59777?isDesc=false 정책은 크게 결정 정책(Deterministic Policy)와 확률적 정책(Stochastic Policy)로 나뉜다. 결정 정책은 하나의 행동에 대한 기준을 준다.예를 들어, 거리가 5를 넘어가면 리셋을 하고, 거리가 2보다 작으면 기록한다. 확률적 정책은 조건부 확률, 즉, 결정 정책이 이미 실행되었을 때 리셋될 확률에 대해 결정해준다.예를 들어, 거리가 5를 넘어갔으면 0.5 확률로 리셋을 한다는 걸 정해준다.혹은 거리가 2보다 작으면 0.4 확률로 리워드를 반영한다. 나머지 0.1은 결정 정책처럼 계속해서 반복한다. 이런 결정 정책은 a = 파이(s) 처럼, 어떠한 상태가 주어지면 그에 걸맞는 ..
https://www.edwith.org/move37/lecture/59776/?isDesc=false Gym은 강화학습 알고리즘을 개발하고 비교평가하는 툴킷이다.Gym은 에이전트를 만들 때 특정한 가정을 요구하지 않고, TensorFlow나 Therno와 같은 라이브러리와도 호환된다. gym 라이브러리는 강화학습의 테스트 문제들을 연습해 볼 수 있는 환경을 모아놓은 곳이다. pip install gymnasiumgym은 2023년 이후로 gymnasium으로 바뀌었다. 가장 일반적인 cart pole 예import gymnasium as gymimport numpy as npimport matplotlib.pyplot as pltfrom IPython.display import display, cle..
https://www.edwith.org/move37/lecture/59774/?isDesc=false 벨만 방정식이 어떻게 작동하는지 모른다면, 강화학습을 이해하는 데 어려움을 겪을 것이다. 벨만 방정식의 콘셉트STATE = 무엇을 숫자로 표현할 것인가? 숫자로 표현되는 것 중에 에이전트가 찾아야 하는 어떠한 상태들ACTION = 주어진 시간 어떠한 행동을 할 것인가? 에이전트가 해당 환경에 제공하는 inputREWARD = 환경에서 액션을 취했을 떄 에이전트에게 주어지는 보상. 이것은 해당 환경에 에이전트가 얼마나 잘 적응하고 있는지를 나타내는 척도로 정해야 한다. 예 : point가 얼마나 되었는지, 레벨이 얼마나 달성했는지, 등등 강화학습의 최종 목표현재 상황에서, 가장 최적화된 행동을 통해 해..
https://www.edwith.org/move37/lecture/47697 라벨링이 필요 없는, 자가 피드백을 통한 학습 역사마르코프 체인으로부터 시작. Transition Matrix를 구한다. 한 상태에서 다른 상태로 연속적으로 이동할 수 있는 프로세스의 상태 세트를 가지고 있다.Base case S0 = [1 0 0]에서 Inductive step St+1 = st*T 각 이동은 단일 단계이며, 한 상태에서 다음 상태로 이동하는 방법을 정의하는 전이 모델 T를 기반으로 한다. 마르코프 속성(Markov property)는 주어진 현재의 미래는 조건부로 과거와 독립적이다.주어진 현재 단계는 무조건 한 단계 전의 상태에만 의존한다는 걸 전제로 한다. 예제만약 2가지 상태가 있는 모델을 정의한다고 ..
보호되어 있는 글입니다.