GPT-4가 처리할 수 없는 그래프 추론, HKUST 7B 모델이 처리할 수 있음

avatar
36氪
06-11
이 기사는 기계로 번역되었습니다
원문 표시

대형 모델은 그래프 추론 작업을 수행합니다. 대형 모델이 결과만 제공하기를 원합니까, 아니면 정확한 답변을 제공하면서 자세한 추론 프로세스를 출력하기를 원합니까?

먼저 GPT-4 의 성능을 살펴보겠습니다.

매우 짧고 잘못된 답변이 주어졌습니다(그래프에 순환이 없다고 판단). 이는 긴 입력을 처리하는 모델의 한계나 그래프의 복잡한 구조에 대한 오해 때문일 수 있습니다. 이는 그래프 이론 문제에 적응할 때 대형 모델이 직면하는 과제를 보여줍니다.

이에 비해 HKUST 팀이 개발한 GraphWiz는 정답을 제시했을 뿐만 아니라 명확하고 상세한 추론 경로를 제공했습니다.

GraphWiz는 다양한 그래프 추론 작업을 해결하기 위해 현재 오픈 소스 대형 모델의 기능을 향상하도록 설계되었습니다.

대규모 모델의 목표 미세 조정을 통해 다양한 복잡성의 그래프 추론 작업을 처리하고 명확하고 일관된 추론 경로를 동시에 출력합니다.

인간이 이 규모의 그래프에서 고리를 감지하는 것은 극히 어렵습니다. 일반적으로 인간은 이 작업을 완료하기 위해 외부 도구에 의존하거나 대량 시간을 소비해야 합니다. 왜냐하면 정신적 계산에만 의존하는 것은 비현실적이기 때문입니다.

이는 GraphWiz의 공간 추론 및 메모리 보존 기능을 강조합니다. 이는 모델이 그래프 이론의 기본 원리를 효과적으로 흡수했으며 대규모의 복잡한 그래프 구조에서 자율적으로 탐색하고 추론할 수 있음을 보여줍니다. 복잡한 그래프 문제를 처리하는 GraphWiz의 능력은 실제 응용 분야에서 엄청난 잠재력을 보여줍니다.

요약하면, 이 기사의 주요 기여는 다음과 같습니다.

그래프 작업을 처리하고 해석 가능성을 향상시키기 위한 명확한 추론 경로를 제공하기 위해 언어 모델을 훈련하는 데 사용되는 대규모 데이터 세트인 GraphInstruct를 만들었습니다.

명시적 추론을 통해 다양한 그래프 문제를 해결하는 데 능숙하고 GPT-4보다 성능이 뛰어난 오픈 소스 대규모 언어 모델 GraphWiz를 출시했습니다.

훈련 데이터 양과 DPO 프레임 다운샘플링 전략이 모델 성능에 미치는 영향을 연구했으며, 후속 모델 최적화 및 성능 개선을 위한 지침을 제공하기 위해 GraphWiz의 작업 간 마이그레이션 기능을 탐색했습니다.

그래프 추론 작업 소개

이 연구에서 팀은 다음을 포함하여 연구의 폭과 깊이를 다루는 다양한 수준의 계산 복잡성을 지닌 9개의 그래프 문제를 신중하게 선택했습니다.

4가지 선형 복잡성 작업: 연결성 및 주기 감지, 이분 그래프 테스트 및 위상 순서

세 가지 다항식 복잡성 작업: 최단 경로, 최대 삼각형 합, 최대 흐름;

두 가지 NP 완전 작업: 해밀턴 경로 및 하위 그래프 일치.

이 9가지 그래프 문제를 선택하여 팀의 작업은 간단한 문제부터 복잡한 문제, 풀 수 있는 문제부터 어려운 문제까지 그래프 이론에 대한 포괄적인 탐구를 수행했습니다. 이러한 다양한 선택은 팀이 그래프 알고리즘을 이론적으로 이해하는 데 도움이 될 뿐만 아니라 광범위한 실제 응용 문제를 해결합니다.

GraphInstruct 데이터 세트 구성

GraphInstruct의 구성에는 다음과 같은 주요 단계가 포함됩니다.

그래프 문제 생성. 모델 훈련 및 테스트를 위한 다양하고 까다로운 그래프 문제 라이브러리를 만들기 위해 팀은 프로그래밍 지원 방법을 사용하여 각 미리 설정된 작업에 대한 무작위 그래프 문제를 생성했습니다. 팀은 그래프가 방향이 있는지 없는지, 가장자리에 가중치가 있는지 등과 같은 그래프의 고유한 속성을 캡처하기 위해 각 작업에 대한 고유한 템플릿을 설계했습니다. 무작위 그래프 생성팀은 Erdös-Rényi(ER) 모델을 채택했습니다.

명시적 추론 경로 생성. GraphInstruct는 각 그래프 문제 쌍에 대한 명시적인 추론 경로를 갖추고 있습니다. 이러한 그래프 작업에 대한 추론 경로에 수동으로 레이블을 지정하는 것이 복잡하고 시간이 많이 걸린다는 점을 고려하여 팀은 GPT-4를 사용하여 예비 추론 경로를 생성하기로 결정했습니다.

데이터 증대 및 거부 샘플링. GPT-4가 초기 데이터 세트의 최대 흐름 작업과 같은 많은 그래프 작업에서 성능이 좋지 않다는 관찰로 인해 100개 미만의 샘플로 정확했지만 팀은 거부 샘플링 전략을 채택하여 더 다양한 것을 포함하도록 데이터 세트를 늘렸습니다. 추론 경로.

다양한 추론 경로 중에서 선택하세요. 이 단계에서는 정확성과 다양성 사이의 균형을 찾아야 합니다. 이를 위해 팀은 문자열 기반 방법과 의미 기반 방법으로 구분된 일련의 세련된 전략을 채택하여 다양한 생성 추론 경로를 필터링했습니다.

GraphWiz 교육

GraphInstruct를 기반으로 팀은 그래프 문제를 해결하고 명시적인 추론 경로를 제공하는 현재 대형 모델의 기능을 최적화하는 것을 목표로 GraphWiz를 교육했습니다. GraphWiz의 교육 방법은 혁신적인 2단계 프로세스입니다.

혼합 작업 지시 튜닝 : 첫 번째 단계에서 팀은 다양한 그래프 문제를 해석하고 해결하는 모델의 능력을 향상시키는 데 중점을 두었습니다. 이러한 접근 방식을 통해 GraphWiz는 문제 이해, 그래프 속성 식별, 그래프 알고리즘 적용 등 여러 하위 작업을 처리하는 방법을 학습합니다.

직접 선호도 최적화 정렬 : 두 번째 단계에서 팀은 더 효과적인 문제 해결 경로와 덜 효과적인 문제 해결 경로를 구별하도록 모델을 훈련하여 모델의 추론 능력을 더욱 선명하게 합니다. DPO 정렬을 통해 모델은 보다 이상적인 추론 경로를 식별하고 생성할 수 있으므로 문제 해결 효율성과 정확성이 향상됩니다.

GraphWiz 성능 검토

팀은 다음과 같은 주요 질문에 답하기 위해 GraphWiz를 평가했습니다.

Q1: GraphWiz는 다양한 복잡성의 그래프 문제에서 어떻게 수행됩니까? 특히 현재 가장 강력한 비공개 소스 모델인 GPT-4와 비교하면 어떻습니까?

Q2: 훈련 데이터 양의 변화가 GraphWiz 성능에 어떤 영향을 미치나요?

Q3: GraphWiz는 다양한 그래프 문제를 얼마나 잘 마이그레이션합니까?

Q4: 그래프의 노드 수 변화는 GraphWiz 성능에 어떤 영향을 미치나요? 게다가 효율적으로 처리할 수 있는 가장 복잡한 그래프의 크기는 얼마입니까?

Q5: 하이퍼파라미터 ß는 모델 성능에 어떤 영향을 미치나요?

위 표에서 볼 수 있듯이 팀의 모델은 다양한 오픈 소스 모델에서 GPT-4의 성능을 크게 뛰어넘는 뛰어난 결과를 보여주었습니다. 이는 쉬운 범주부터 어려운 범주까지 작업 전반에 걸쳐 일관성을 유지합니다. DPO는 평균 모델 성능을 더욱 향상시킵니다. 그러나 DPO는 특정 작업에 부정적인 영향을 미칠 수 있습니다. 이는 DPO가 일반적으로 모델 추론을 개선하는 데 도움이 되지만 특정 문제 유형에 부정적인 영향을 주지 않으려면 추가 조정이 필요할 수 있음을 나타냅니다.

위 표에 따르면, 팀은 훈련 코퍼스가 증가함에 따라 두 모델 모두 효율성이 향상되었음을 관찰했습니다. 예를 들어 GraphWiz(Mistral-7B)의 평균 정확도는 1:1 비율에서 46.56%에서 1:1 비율에서 53.75로 상승. :5%. 이는 보다 다양한 추론 경로가 일반적으로 그래프 추론 문제를 해결하는 데 있어 모델의 전반적인 성능에 도움이 된다는 것을 의미합니다.

팀은 삼각형 및 해밀턴 경로 문제와 같은 일부 작업에서 정확도가 크게 향상되지 않았으며 데이터 양이 증가함에 따라 약간 감소하는 것을 확인할 수 있었습니다. 예를 들어 GraphWiz(Mistral-7B)는 삼각합 문제에서 1:1 비율에서 47.00%의 정확도를 보인 다음 1:5 비율에서 38.75%로 떨어집니다. 이는 모델이 보이지 않는 데이터에 해당하지 않는 훈련 데이터의 패턴을 기억하기 시작하는 과적합을 나타낼 수 있습니다.

요약하면, 데이터 양과 추론 경로의 다양성을 늘리면 일반적으로 모델 성능이 향상될 수 있지만 특정 복잡한 작업에서는 과적합의 징후가 있을 수 있으며, 이는 모델 교육을 신중하게 설계하고 다양한 그래프에서 교육을 수행해야 한다는 점을 강조합니다. 광범위한 일반화 기능을 보장하기 위해 작업이 검증되었습니다.

다양한 그래프 작업에서 GraphWiz의 전송 가능성을 탐색하기 위해 팀은 추가 모델 변형인 GraphWiz-High를 구축했습니다. 이 모델은 두 가지 고복잡성(NP-완전) 그래프 작업인 해밀턴 경로와 하위 그래프 일치에 대해서만 학습되었습니다. 마이그레이션 기능을 연구하기 위해 팀은 두 가지 비교 실험을 수행했습니다.

복잡성이 높은 작업 비교. 팀은 먼저 복잡한 작업에 대해 GraphWiz-High를 일반 GraphWiz와 비교했습니다. 위 그림 (a)는 GraphWiz가 더 좋은 성능을 보여주어 혼합 작업 훈련의 효과를 검증한 것입니다. 이 결과는 또한 모델이 다른 작업에서 학습한 지식을 특정 고복잡성 작업으로 전달할 수 있음을 보여줍니다.

제로 샘플 마이그레이션 기능. 팀은 훈련된 적이 없는 낮고 중간 정도의 복잡성 작업에 대해 GraphWiz-High의 제로 샷 전송 기능을 추가로 테스트했습니다. 위의 (b)에서 볼 수 있듯이 GraphWiz-High는 Mistral-Base에 비해 성능이 크게 향상되었습니다. ChatGPT와 비교해도 팀의 모델은 비슷한 성능을 유지합니다. ChatGPT와 GraphWiz-High 사이의 매개변수 수의 큰 차이를 고려하면 이는 팀의 모델이 칭찬할만한 교차 작업 일반화 기능을 갖추고 있어 실제 적용에 대한 상당한 잠재력을 보여줍니다.

다양한 그래프 크기에 따라 모델 성능이 어떻게 변화하는지에 대한 질문에 대답하고 모델이 효과적으로 해결할 수 있는 최대 그래프 크기를 결정하기 위해 팀은 GraphWiz의 최고 성능 작업(a) 링 감지 및 최악 성능 작업(b)을 위 그림에 표시합니다. 최단 경로에서의 성능.

이 그림을 통해 팀은 다음과 같은 결론을 도출했습니다.

GraphWiz와 GPT-4는 모두 그래프 크기가 ​​증가함에 따라 성능 저하를 나타냅니다. 그러나 팀의 모델은 그래프 크기가 ​​일정할 때 대부분의 경우 GPT-4보다 성능이 뛰어나 그래프 구조에 대한 이해와 처리가 더 강력하다는 것을 나타냅니다.

팀은 최단 경로에서 노드 수가 증가함에 따라 성능이 크게 저하되는 것을 관찰했습니다. 이러한 감소는 두 가지 주요 요인에 기인할 수 있습니다. 작업에는 더 높은 시간 복잡성으로 인해 높은 추론 및 기억 능력이 필요하고, 강력한 계산 기술이 필요하므로 모델 용량에 추가적인 문제를 일으킬 수 있습니다. 실제로 팀은 두 모델 모두 솔루션에 도달하기 위해 주로 열거에 의존한다는 사실을 발견했습니다. 따라서 그래프 크기가 ​​커질수록 필요한 열거형 추론은 기하급수적으로 늘어나 노드 수가 60개를 초과하면 정확도가 크게 떨어지고 그 이후에는 거의 정확하지 않게 됩니다.

이러한 관찰은 GraphWiz가 그래프 관련 작업을 처리하는 데 있어 GPT-4보다 훨씬 뛰어난 성능을 발휘하지만, 특히 단순한 추론 이상의 계산이 필요한 작업에서는 복잡성의 한계점이 있어 최첨단 모델에서도 성능이 떨어지기 시작했음을 시사합니다. 상당히.

마지막으로 팀은 매개변수 ß가 모델 성능에 미치는 영향도 조사했습니다. 팀은 ß가 높을수록 어려운 작업의 성능에 어느 정도 이점이 있는 것처럼 보였지만 이는 엄밀히 말하면 선형 관계가 아니며 다양한 모델 크기에 걸쳐 일관성이 없었습니다. 이는 다양한 난이도의 작업 간 최적의 균형을 달성하고 모델의 전반적인 정확도를 향상시키기 위해 ß의 세심한 조정이 필요함을 의미합니다.

더 많은 예

또한 팀은 다양한 작업에 대한 더 많은 GraphWiz 추론 예제를 시연했습니다.

연결 작업:

해밀턴 경로 임무:

최단 경로 작업:

하위 그래프 일치 작업:

논문 링크: https://arxiv.org/abs/2402.16029 프로젝트 홈페이지: https://graph-wiz.github.io/

이 기사는 WeChat 공개 계정 "Qubit"(ID: QbitAI) 에서 가져온 것입니다. 저자: Chen Nuo of Hong Kong University of Science and Technology, 36 Krypton 승인을 받아 게시되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트