Computer Science/Machine learning 9. Backpropagation - 728x90 반응형 Back-propagationDownstream gradient를 upstream gradient와 local gradient를 활용해서 구할 수 있다.Computational Graph복잡한 함수를 small function으로 쪼갠다는 것이 핵심기본적으로 upstream gradient와 local gradient를 곱해서 downstream gradient를 구한다.💡local gradient를 구하는 방법은 함숫값을 이용할 수도 있고, input값을 이용할 수도 있다. 두가지 방법 모두 다 적용해서 해볼 것.추가적으로 Sigmoid 단위로 묶으면 좀 더 편할 수 있다.💡local gradient는 함숫값을 이용해서 쉽게 구할 수 있다. 여기에서는 0.73×0.270.73 \times 0.270.73×0.27이다. 따라서 downstream gradient는 (0.73×0.27)×1(0.73 \times 0.27) \times 1(0.73×0.27)×1이다.추가적으로 위에서 나와있는 것처럼 Computational graph representation은 유일하지 않다→ local gradient를 쉽게 표현할 수 있는 방향으로 computation al graph를 짜는 것이 유리하다. 반응형 공유하기 URL 복사카카오톡 공유페이스북 공유엑스 공유 게시글 관리 구독하기비룡의 컴퓨터이야기 Contents 당신이 좋아할만한 콘텐츠 11. Clustering and K-means Algorithm 2023.07.01 10. Generalization and Regularization 2023.07.01 8. Neural Networks 2023.07.01 7. Support Vector Machine 2023.07.01 댓글 0 + 이전 댓글 더보기
Back-propagationDownstream gradient를 upstream gradient와 local gradient를 활용해서 구할 수 있다.Computational Graph복잡한 함수를 small function으로 쪼갠다는 것이 핵심기본적으로 upstream gradient와 local gradient를 곱해서 downstream gradient를 구한다.💡local gradient를 구하는 방법은 함숫값을 이용할 수도 있고, input값을 이용할 수도 있다. 두가지 방법 모두 다 적용해서 해볼 것.추가적으로 Sigmoid 단위로 묶으면 좀 더 편할 수 있다.💡local gradient는 함숫값을 이용해서 쉽게 구할 수 있다. 여기에서는 0.73×0.270.73 \times 0.270.73×0.27이다. 따라서 downstream gradient는 (0.73×0.27)×1(0.73 \times 0.27) \times 1(0.73×0.27)×1이다.추가적으로 위에서 나와있는 것처럼 Computational graph representation은 유일하지 않다→ local gradient를 쉽게 표현할 수 있는 방향으로 computation al graph를 짜는 것이 유리하다.