- Candidate Generation → "방대한 데이터 집합에서 시작하여 더 작은 후보 집합을 생성합니다."
- Scoring → "다른 모델이 후보를 평가하고 순위를 매겨, 사용자에게 표시할 아이템 집합(약 10개)을 선택합니다."
- Re-ranking → "최종 순위를 위해 추가 제약 조건을 고려합니다. 이 단계는 사용자가 명시적으로 싫어하는 항목을 제거하거나 사용자 선호도와 잘 맞는 항목의 점수를 높입니다."
첫 번째 필터링 방법:
설명에서 유사한 아이템 간의 유사도를 이용하여 추천을 생성한다고 되어 있습니다. 이는 Content-based filtering에 해당합니다.
정답: "Content-based"
두 번째 필터링 방법:
설명에서 사용자 간의 유사성과 아이템 간의 유사성을 동시에 고려하여 추천한다고 되어 있습니다. 이는 Collaborative filtering에 해당합니다.
정답: "Collaborative"
Matrix Factorization에 대한 설명을 기반으로 각 선택지를 분석하여 올바른 답을 찾겠습니다.
행렬 분해는 추천 시스템에서 사용자와 아이템 간의 관계를 수치로 나타내어 예측하는 기법
첫 번째 선택지: "A conventional content-based filtering model is based on matrix factorization, which uses shallow encoders for users and items."
Matrix Factorization은 주로 협업 필터링에 많이 사용되며, content-based filtering과는 개념적으로 다릅니다. 일반적인 content-based 필터링 모델이 Matrix Factorization을 기반으로 한다는 설명은 맞지 않습니다.
오답입니다.
두 번째 선택지: "The embeddings are learned such that UVTUV^TUVT is a good approximation of AAA."
이 설명은 Matrix Factorization의 핵심 개념을 잘 설명하고 있습니다. 사용자 임베딩 행렬 U와 아이템 임베딩 행렬 V를 통해 A (피드백 행렬)를 근사하는 방식입니다.
정답입니다.
세 번째 선택지: "Given the feedback matrix A∈Rm×nA \in \mathbb{R}^{m \times n}A∈Rm×n (mmm is the number of users (or queries) and nnn is the number of items), the model learns: A user embedding matrix U∈Rm×dU \in \mathbb{R}^{m \times d}U∈Rm×d, where row iii is the embedding for user iii. An item embedding matrix V∈Rn×dV \in \mathbb{R}^{n \times d}V∈Rn×d, where row jjj is the embedding for item jjj."
이 설명은 Matrix Factorization에서 피드백 행렬 A와 임베딩 행렬 U, V의 관계를 정확하게 설명하고 있습니다.
정답입니다.
네 번째 선택지: "The recommender system needs only the feedback matrix to train a matrix factorization model."
Matrix Factorization 모델을 학습하는 데 피드백 행렬이 필요하지만, 최적의 성능을 위해 추가적인 메타데이터나 정규화 기법이 요구될 수 있습니다. 이 설명은 단순화된 설명이므로 완전히 맞는 설명이라고 보기는 어렵습니다.
오답입니다.
최종 답안
- 정답: 2번, 3번
이 문제는 binary loss와 recall metric의 특성을 구분하여 이해하는 문제입니다.
문제 해설
- Binary Loss: 설명에 따르면, binary loss는 모든 사용자에 대해 전체적으로 긍정/부정 관계를 고려하여 계산됩니다. 즉, 이는 개별 사용자가 아닌, 전체 집합에 대해 비개인화(non-personalized)된 방식으로 계산된다는 의미입니다.
- Recall Metric: recall은 개별 사용자에 대해 정의되므로 개인화(personalized) 되어 있습니다. 각 사용자에 대해 추천된 항목 중 실제로 긍정적 반응을 보인 항목의 비율을 측정하기 때문에 사용자별로 다른 값을 가질 수 있습니다.
PinSage의 **커리큘럼 러닝(curriculum learning)**에 대한 설명 중 틀린 문장을 찾는 것입니다.
Pinsage의 커리큘럼 러닝은 모델이 학습할때 난이도를 점진적으로 높여가는 방식
처음에는 비교적 쉬운 샘플을 사용하고, 점차 어려운 샘플을 추가하여 모델이 좀 더 복잡한 패턴을 학습할 수 있도록 도와줌
Epoch 가 진행될 수록 hardnegative 샘플의 수를 점차 증가시킴
상위에 랭크된 항목을 무작위로 선택
선택지 분석
The model will gradually learn to make fine-grained predictions.
커리큘럼 러닝의 일반적인 목적에 맞는 설명입니다. 모델이 점진적으로 더 정밀한 예측을 하도록 학습합니다.
맞는 문장입니다.
This curriculum learning includes more and more hard negative samples for each epoch.
커리큘럼 러닝에서 epoch가 진행될수록 hard negative 샘플의 수를 점차 증가시키는 것은 일반적인 전략입니다.
맞는 문장입니다.
The number of hard negatives gradually increases in the process of training.
마찬가지로, 훈련 과정에서 hard negative의 수를 점차 증가시키는 방식은 커리큘럼 러닝에서 자주 사용됩니다.
맞는 문장입니다.
In this curriculum learning, we randomly sample item nodes that are ranked high but not too high, e.g., 2000th – 5000th.
커리큘럼 러닝에서 상위에 랭크된(그러나 최상위는 아닌) 항목을 무작위로 선택하는 것은 일반적인 방법입니다.
맞는 문장입니다.
At n-th epoch, we add n−1n - 1n−1 hard negative items in curriculum learning.
이 문장은 잘못된 설명일 가능성이 있습니다. 일반적으로 nnn-번째 epoch에 n−1n-1n−1개의 hard negative를 추가하는 방식이 항상 사용되는 것은 아니며, 이 방식이 적용되지 않는 경우도 많습니다.
틀린 문장입니다.
정답
따라서, 정답은 다섯 번째 선택지입니다.
'theory 📓 > 딥러닝' 카테고리의 다른 글
rdb, nosql, gdb (0) | 2024.11.11 |
---|---|
Graph Node / GNN / GCN (0) | 2024.11.08 |
Self Attention / Transformer / Decoding (2) | 2024.11.08 |
CNN Applications (0) | 2024.11.06 |
CNN (0) | 2024.11.06 |
댓글