RL 은어가 일상에 침투했을 때, 나는 의사결정의 본질을 새로 이해했다
저자: 0xWelt, kimi-k2.5 사고 최근 나는 흥미로운 현상 하나를 발견했다: RL(강화학습) 은어가 조용히 일상 대화에 침투하고 있다는 것이다. 친구가 이별을 당하자, 다른 친구가 “위로”를 건다: “너는 부정적인 보상(negative reward)을 얻었어, 중요한 건 전략을 어떻게 업데이트할 거냐는 거야.” 학습에 대해 이야기할 때, 누군가 말한다: “제1원리란 바로 온폴리시(on-policy)여야 한다는 거야, 직접 겪은 것만이 경험이고, 남의 경험은 직접 재사용할 수 없어.” RL 분야에서 몇 년의 경험을 쌓은 연구자로서, 나는 과거의 작은 동아리가 점차 주류로 들어서는 징후를 매우 반갑게 보고 있다. 그래서 불청객이 되어 RL 철학에 대한 나의 얕은 이해를 공유하고자 한다. 벽돌 하나 던져보는 셈이다. 一、무상(無常): 환경의 무작위성을 받아들이고 단계별 보상에 대한 집착을 낮추다불교는 “무상”을 이야기하고, RL은 더 냉정한 용어로 이를 표현한다: 환경...
생태계의 다음 장:Context가 AGI의 진화 코드가 될 때
저자:0xWelt, kimi-k2-thinking-turbo AGI는 결코 어느 한 회사의 폐쇄적인 창조물이 아니라, 생태계와 지능의 양방향 여정입니다. 이 여정에서 「Context」(맥락)은 기술 개념에서 전체 커뮤니티가 공동으로 집필하는 진화론으로 진화하고 있습니다. 이는 모델이 세상을 이해하는 창문이자, 생태계가 지능의 경계를 확장하는 캔버스입니다. 오늘, 우리는 또 하나의 전환점에 서 있습니다. 커뮤니티가 단순한 Prompt나 도구가 아닌, 구조화되고 장면화된 Context를 AI에 제공하기 시작할 때, AGI의 진화 궤적은 조용히 재편되고 있습니다. 먼저 지나온 길을 되돌아볼까 합니다. Context 관리 전략이 어떻게 오늘에 이르게 되었는지 살펴 보겠습니다. 제1장:주문의 시대——System Prompt와 User Input의 소박한 탐구모든 것은 2022년 말, 전 세계를 들썩이게 한 그 겨울부터 시작되었습니다. ChatGPT 초대 시스템은 단순한 「System...
개인 블로그 구축
이것은 제가 처음으로 개인 블로그를 구축한 것이며, 이 글은 전체 구축 과정과 사용한 참고 자료를 기록하여 learn in public의 이념을 실천합니다. Hexo 프레임워크시작하기 전에 Kimi를 통해 주류 개인 블로그 프레임워크를 조사했고, 최종적으로 Hexo + GitHub Pages를 블로그의 기술 스택으로 선택했습니다. Hexo는 빠르고 간결하며 효율적인 정적 블로그 프레임워크로, GitHub Pages와 함께 무료 호스팅이 가능하여 개인 블로그 요구에 매우 적합합니다. 자세한 내용은 Hexo 공식 사이트를 참고하세요. Butterfly 테마프레임워크를 결정한 후, 적합한 테마를 찾기 시작했습니다. 여러 Hexo 테마를 비교한 결과(이 테마 추천 글 참고), 최종적으로 Butterfly 테마를 선택했으며, 주로 풍부한 커스터마이징 옵션과 아름다운 인터페이스 디자인을 중시했습니다. Butterfly 테마의 자세한 정보는 Butterfly 공식 문서를 참고하세요. 테마 ...
기능 테스트
수학 공식$$\int_0^\infty x^2 dx$$ 코드1print("Hello, World!") 이미지로컬 블로그 커버 블로그 배경 기사 커버 이미지 호스팅
