Nir Moneta, Shany Grossman, Nicolas W. Schuck et al.
2024년 12월 11일
Trends in Neurosciences, December 2024, Vol. 47, No. 12
https://doi.org/10.1016/j.tins.2024.10.005
Abstract
The orbitofrontal cortex (OFC) and ventromedial-prefrontal cortex (vmPFC) play a key role in decision-making and encode task states in addition to expected value. We review evidence suggesting a connection between value and state representations and argue that OFC / vmPFC integrate stimulus, context, and outcome information. Comparable encoding principles emerge in late layers of deep reinforcement learning (RL) models, where single nodes exhibit similar forms of mixed-selectivity, which enables flexible readout of relevant variables by downstream neurons. Based on these lines of evidence, we suggest that outcome-maximization leads to complex representational spaces that are insufficiently characterized by linear value signals that have been the focus of most prior research on the topic. Major outstanding questions concern the role of OFC/ vmPFC in learning across tasks, in encoding of task-irrelevant aspects, and the role of hippocampus–PFC interactions.
Orbitofrontal cortex (OFC) and ventromedial-prefrontal cortex (vmPFC) areas encode a rich diversity of variables that intertwine value, task state, and outcome properties, using mixed selectivity.
A core benefit of this representational space is that it can encode contextual variables that are not directly observable but are required for predicting outcomes.
Task state representations emerge in deep reinforcement learning networks alongside value-like signals, offering insights into why the brain multiplexes value with other task-related variables.
The complex activity patterns in OFC/vmPFC can be interpreted as an internal representation that maps internal states, sensory observations, and past knowledge onto values and choice preferences.
Figure 1. Values and task states in orbitofrontal and ventromedial prefrontal cortex.
초록
안와전두피질(OFC)과 복내측전전두피질(vmPFC)은 의사결정에서 중요한 역할을 하며, 과제의 예상되는 가치뿐만 아니라 과제의 상태를 인코딩한다. 본 논문에서는 가치와 상태 표현 사이의 연결을 제시하는 증거를 제시하고, OFC/vmPFC가 자극, 맥락, 결과 정보를 통합하는 역할을 한다고 주장한다. 비슷한 인코딩 원리가 심층 강화 학습(RL) 모델의 후반 층에서 나타나며, 여기서 단일 노드는 혼합 선택성의 유사한 형태를 나타내어, 하위 뉴런들이 관련 변수를 유연하게 읽어낼 수 있게 한다. 이러한 증거를 바탕으로, 결과 최적화는 선형 가치 신호로 충분히 설명되지 않는 복잡한 표현 공간을 생성한다고 제안합니다. 아직 해결되지 않는 질문들은 OFC/vmPFC가 과제 전반에 걸친 학습에서 어떤 역할을 하는지, 과제와 관련 없는 측면을 어떻게 인코딩하는지, 그리고 해마와 전두엽 간의 상호작용이 어떤 역할을 하는지와 관련된 것이다.
안와전두피질(OFC)과 복내측전전두피질(vmPFC)은 혼합 선택성(뉴런의 복잡한 인지 작업에서 분산된 정보를 인코딩하는 것)을 사용하여 가치, 과제 상태, 결과 특성을 얽힌 다양한 변수를 인코딩한다.
이 표현 공간의 핵심적인 이점은 직접 관찰할 수 없는 맥락적 변수를 인코딩할 수 있다는 점으로, 이는 결과 예측에 필수적이다.
과제 상태 표현은 심층 강화 학습 네트워크에서 가치와 유사한 신호와 함께 나타나며, 뇌가 가치와 다른 과제 관련 변수를 다중화하는 이유에 답해준다.
OFC/vmPFC의 복잡한 활동 패턴은 내부 상태, 감각적 관찰, 과거 지식을 가치 및 선택 선호도로 매핑하는 내부 표현으로 해석될 수 있다.
#Orbitofrontal cortex, #OFC, #Ventromedial-prefrontal cortex, #vmPFC, #Value-based decision making, #Deep neural networks, #Deep RL, #Reinforcement learning