인간 시험에서 ChatGPT의 성능 시각화
OpenAI가 개발한 언어 모델인 ChatGPT 는 다양한 상황에서 인간과 같은 반응을 생성 할 수 있는 능력으로 인해 지난 몇 년 동안 엄청나게 인기를 끌었습니다 .
실제로 ChatGPT는 매우 유능해져서 학생들이 숙제를 도와주는 데 사용하고 있습니다. 이로 인해 여러 미국 학군에서는 네트워크에 있는 동안 장치가 모델에 액세스하지 못하도록 차단했습니다.
그렇다면 ChatGPT는 얼마나 스마트할까요?
2023년 3월 27일에 발표된 기술 보고서 에서 OpenAI는 GPT-4로 알려진 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 일련의 검사 결과가 포함되어 있으며 위의 그래픽으로 시각화했습니다.
GPT-4 대 GPT-3.5
ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학업 시험의 테스트 실행을 시뮬레이션했습니다. 여기에는 SAT, 변호사 시험 및 다양한 AP(Advanced Placement) 결승전이 포함됩니다.
성과는 각 시험 유형의 응시자에 대해 가장 최근에 사용 가능한 점수 분포를 기반으로 하는 백분위수 로 측정되었습니다 .
백분위 점수는 다른 사람의 성과와 비교하여 자신의 성과를 평가하는 방법입니다. 예를 들어, 시험에서 60번째 백분위수에 들었다면 응시자의 60%보다 높은 점수를 받았다는 의미입니다.
다음 표에는 그래픽으로 시각화한 결과가 나열되어 있습니다.
백분위수GPT-3.5
백분위수
법 | 통일 변호사 시험 | 90 | 10 |
법 | LSAT | 88 | 40 |
앉았다 | 증거 기반 읽기 및 쓰기 | 93 | 87 |
앉았다 | 수학 | 89 | 70 |
대학원 기록 시험(GRE) | 양적 | 80 | 25 |
대학원 기록 시험(GRE) | 언어 적 | 99 | 63 |
대학원 기록 시험(GRE) | 글쓰기 | 54 | 54 |
고급 배치(AP) | 생물학 | 85 | 62 |
고급 배치(AP) | 계산법 | 43 | 0 |
고급 배치(AP) | 화학 | 71 | 22 |
고급 배치(AP) | 물리학2 | 66 | 30 |
고급 배치(AP) | 심리학 | 83 | 83 |
고급 배치(AP) | 통계 | 85 | 40 |
고급 배치(AP) | 영어 | 14 | 14 |
고급 배치(AP) | 영문학 | 8 | 8 |
경쟁 프로그래밍 | Codeforces 평가 | <5 | <5 |
위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 보다 포괄적인 결과는 OpenAI의 기술 보고서를 참조하십시오.
보시다시피 GPT-4(2023년 3월 출시)는 대부분의 시험에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 강력합니다. 그러나 AP 영어 와 경쟁 프로그래밍 에서는 향상되지 않았습니다 .
AP English(및 서면 응답이 요구되는 기타 시험)와 관련하여 ChatGPT의 제출물은 "해당 에세이를 채점하는 관련 업무 경험이 있는 자격을 갖춘 제3자 계약자 1~2명"이 채점했습니다. ChatGPT는 확실히 적절한 에세이를 작성할 수 있지만 시험 프롬프트를 이해하는 데 어려움을 겪었을 수 있습니다.
경쟁 프로그래밍을 위해 GPT는 10개의 Codeforces 콘테스트에 각각 100회씩 도전했습니다. Codeforces는 참가자가 복잡한 문제를 해결해야 하는 경쟁 프로그래밍 콘테스트를 주최합니다. GPT-4의 평균 Codeforces 등급은 392(5번째 백분위수 미만)이며, 단일 대회에서 가장 높은 점수는 약 1,300점이었습니다. Codeforces 등급 페이지를 참조하면 최고 점수를 받은 사용자는 3,841점을 받은 중국 사용자 입니다.
GPT-4로 변경된 사항은 무엇입니까?
다음은 GPT-4가 GPT-3.5에 비해 사용자 경험을 개선한 일부 영역입니다.
인터넷 액세스 및 플러그인
GPT-3.5의 제한 요소는 인터넷에 액세스할 수 없고 2021년 6월까지의 데이터에 대해서만 교육을 받았다는 것입니다.
GPT-4를 사용하면 사용자 는 ChatGPT가 인터넷에 액세스하고 최신 응답을 제공하며 더 넓은 범위의 작업을 완료할 수 있도록 하는 다양한 플러그인 에 액세스할 수 있습니다 . 여기에는 ChatGPT가 전체 휴가를 예약할 수 있게 해주는 Expedia와 같은 서비스의 타사 플러그인이 포함됩니다.
시각적 입력
GPT-3.5는 텍스트 입력만 허용하지만 GPT-4는 이미지를 분석할 수도 있습니다. 사용자는 ChatGPT에 사진 설명, 차트 분석 또는 밈 설명을 요청할 수 있습니다.
더 긴 컨텍스트 길이
마지막으로 GPT-4는 훨씬 더 많은 양의 텍스트를 처리하고 대화를 더 오래 지속할 수 있습니다. 참고로 GPT-3.5는 최대 요청 값이 4,096 토큰으로 약 3,000단어에 해당합니다. GPT-4에는 8,192개의 토큰(6,000단어)과 32,768개의 토큰(24,000단어)의 두 가지 변형이 있습니다.