명품습관

ChatGPT는 얼마나 스마트합니까?

명품 인생 2023. 7. 16. 23:27
반응형

▼ 이 시각화 사용

인간 시험에서 ChatGPT의 성능 시각화

OpenAI가 개발한 언어 모델인 ChatGPT 는 다양한 상황에서 인간과 같은 반응을 생성 할 수 있는 능력으로 인해 지난 몇 년 동안 엄청나게 인기를 끌었습니다 .

실제로 ChatGPT는 매우 유능해져서 학생들이 숙제를 도와주는 데 사용하고 있습니다. 이로 인해 여러 미국 학군에서는 네트워크에 있는 동안 장치가 모델에 액세스하지 못하도록 차단했습니다.

그렇다면 ChatGPT는 얼마나 스마트할까요?

2023년 3월 27일에 발표된 기술 보고서 에서 OpenAI는 GPT-4로 알려진 최신 모델에 대한 포괄적인 개요를 제공했습니다. 이 보고서에는 일련의 검사 결과가 포함되어 있으며 위의 그래픽으로 시각화했습니다.

GPT-4 대 ​​GPT-3.5

ChatGPT의 기능을 벤치마킹하기 위해 OpenAI는 다양한 전문 및 학업 시험의 테스트 실행을 시뮬레이션했습니다. 여기에는 SAT, 변호사 시험 및 다양한 AP(Advanced Placement) 결승전이 포함됩니다.

성과는 각 시험 유형의 응시자에 대해 가장 최근에 사용 가능한 점수 분포를 기반으로 하는 백분위수 로 측정되었습니다 .

백분위 점수는 다른 사람의 성과와 비교하여 자신의 성과를 평가하는 방법입니다. 예를 들어, 시험에서 60번째 백분위수에 들었다면 응시자의 60%보다 높은 점수를 받았다는 의미입니다.

다음 표에는 그래픽으로 시각화한 결과가 나열되어 있습니다.

범주시험GPT-4
백분위수GPT-3.5
백분위수
통일 변호사 시험 90 10
LSAT 88 40
앉았다 증거 기반 읽기 및 쓰기 93 87
앉았다 수학 89 70
대학원 기록 시험(GRE) 양적 80 25
대학원 기록 시험(GRE) 언어 적 99 63
대학원 기록 시험(GRE) 글쓰기 54 54
고급 배치(AP) 생물학 85 62
고급 배치(AP) 계산법 43 0
고급 배치(AP) 화학 71 22
고급 배치(AP) 물리학2 66 30
고급 배치(AP) 심리학 83 83
고급 배치(AP) 통계 85 40
고급 배치(AP) 영어 14 14
고급 배치(AP) 영문학 8 8
경쟁 프로그래밍 Codeforces 평가 <5 <5

위에 보고된 점수는 시각적 입력이 활성화된 GPT-4에 대한 것입니다. 보다 포괄적인 결과는 OpenAI의 기술 보고서를 참조하십시오.

보시다시피 GPT-4(2023년 3월 출시)는 대부분의 시험에서 GPT-3.5(2022년 3월 출시)보다 훨씬 더 강력합니다. 그러나 AP 영어  경쟁 프로그래밍 에서는 향상되지 않았습니다 .

AP English(및 서면 응답이 요구되는 기타 시험)와 관련하여 ChatGPT의 제출물은 "해당 에세이를 채점하는 관련 업무 경험이 있는 자격을 갖춘 제3자 계약자 1~2명"이 채점했습니다. ChatGPT는 확실히 적절한 에세이를 작성할 수 있지만 시험 프롬프트를 이해하는 데 어려움을 겪었을 수 있습니다.

경쟁 프로그래밍을 위해 GPT는 10개의 Codeforces 콘테스트에 각각 100회씩 도전했습니다. Codeforces는 참가자가 복잡한 문제를 해결해야 하는 경쟁 프로그래밍 콘테스트를 주최합니다. GPT-4의 평균 Codeforces 등급은 392(5번째 백분위수 미만)이며, 단일 대회에서 가장 높은 점수는 약 1,300점이었습니다. Codeforces 등급 페이지를 참조하면 최고 점수를 받은 사용자는 3,841점을 받은 중국 사용자 입니다.

GPT-4로 변경된 사항은 무엇입니까?

다음은 GPT-4가 GPT-3.5에 비해 사용자 경험을 개선한 일부 영역입니다.

인터넷 액세스 및 플러그인

GPT-3.5의 제한 요소는 인터넷에 액세스할 수 없고 2021년 6월까지의 데이터에 대해서만 교육을 받았다는 것입니다.

GPT-4를 사용하면 사용자 는 ChatGPT가 인터넷에 액세스하고 최신 응답을 제공하며 더 넓은 범위의 작업을 완료할 수 있도록 하는 다양한 플러그인 에 액세스할 수 있습니다 . 여기에는 ChatGPT가 전체 휴가를 예약할 수 있게 해주는 Expedia와 같은 서비스의 타사 플러그인이 포함됩니다.

시각적 입력

GPT-3.5는 텍스트 입력만 허용하지만 GPT-4는 이미지를 분석할 수도 있습니다. 사용자는 ChatGPT에 사진 설명, 차트 분석 또는 밈 설명을 요청할 수 있습니다.

더 긴 컨텍스트 길이

마지막으로 GPT-4는 훨씬 더 많은 양의 텍스트를 처리하고 대화를 더 오래 지속할 수 있습니다. 참고로 GPT-3.5는 최대 요청 값이 4,096 토큰으로 약 3,000단어에 해당합니다. GPT-4에는 8,192개의 토큰(6,000단어)과 32,768개의 토큰(24,000단어)의 두 가지 변형이 있습니다.
 

반응형