정보글) 딥시크 보다 충격적인 AI 등장

18 0 0 2025-02-11 11:03:23 신고
※ 5회 신고 누적시 자동 게시물이 블라인드 처리됩니다. 단 허위 신고시 신고자는 경고 또는 불이익을 받을 수 있습니다.

 

선 요약

- Open AI 에서 딥 리서치 라는 AI모델을 발표함.

- 딥 리서치 는 고도로 숙련된 논리구조의 논문을 완성하거나 어려운 문제를 해결하는데 특화된 전문가 역할을 하는 모델을 목표로 구현됨

- 논리구조가 완벽한 논문을 30분내로 만들어내는 역할을 하는데 다른 교수들이 검증해도 논리에 허점이없음

- 인류 최후의 시험(HLE) 에서 최고 수준인 26.6%의 정답률을 받음. 딥시크의 R1(9.4%)과 비교해 약 3배 높음

 

 

이번에 Open AI에서 새로운 AI모델 딥 리서치를 출시했음.

 

이건 기존에 빠른 대답을 해주는 대화형 AI가 아니라 어려운 문제 논문 같은걸 작성하는데 특화된 전문가 영역에서의 논리구조를 이해하고 만들어내는데 특화된  AI였음.

 

타일러 코웬 조지메이슨대 경제학과 교수는 딥리서치에 ‘리카도의 지대론’을 주제로 10쪽 분량의 보고서 작성을 맡겼더니 6분 만에 완성한 결과물에서 오류를 발견하지 못했다고 자신의 블로그에 평가를 남겼다.고 함

 

리카도 지대론은  지주와 소작농 사이에 발생하는 자본주의적 동작기작에 대한 설명을 하는 이론이라고 위키에 적어놨는데 읽으면서도 걍 무슨소린지 제대로 이해한 부분이 없는 수준임..

 

 

AI에 대해서 AI의 성능이 인간 전문가 영역 혹은 그 수준으로 도달했는지 알아보는 테스트가 있음.

 

흔히 알려져있는 튜링테스트 의 경우 상대방이 인간인지 AI인지 구분할수있는 테스트 방식을 이야기하고

 

이미 10년전에 구글이 AI 비서 로 미용실 예약하고 이런걸 실시간으로 보여주면서 튜링테스트 통과한 그런 언어모델들은 이미 수없이 많이 나와있는 상태임.

 

저런 튜링테스트와 다르게 HLE(Human's Last Exam) 인류 최후의 시험 을 만들었음.

 

전 세계 50개국 500개 이상의 기관에서 약 1,000명의 전문가가 참여했다.

7만 개의 시험 문항 중 1.3만 개가 전문가 검토를 거쳐 최종 3,000개의 문항이 선정되었다

수학, 자연과학, 인문학 등 광범위한 분야를 아우르는 전문가급 문제들로 구성되었다

 

 

최신 AI 모델들도 전문가급 문제의 10% 미만만 정확히 답변할 수 있었다.

GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, OpenAI o1 등 최신 모델들이 테스트를 받았다.

 

라고 결과가 나와있음.

 

 

해당 HLE에 대한 특집기사도 나왔는데 대표적인게 아래 뉴욕타임즈 와 로이터에서 나온 기사임

 

뉴욕타임즈에서 특집기사로 나온 제목이 AI가 이 테스트를 통과하면 조심하세요.

https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html

 

로이터 에서는 AI를 난처하게 만들기위해 전문가들이 인류 최후의 질문을 준비했습니다.

https://www.reuters.com/technology/artificial-intelligence/ai-experts-ready-humanitys-last-exam-stump-powerful-tech-2024-09-16/

 

라는 특집기사를 낸적이있음.

 

저 기사의 핵심은 AI가 인류 전문가들이 만들어낸 어려운 문제를 풀어낼수있을만큼 성능이 높은가를 시험하기 위해 만든거였고..

당연히 평범한 학문과 거리가 먼 사람들은 질문이 뭔지도 이해조차 못하는 그런 문제를 냈었음.

 

저런식의 문제에 대한 답을 AI에게 요구했을때 대부분 10% 미만의 정답률을 냈었는데..

 

이번에 발표된 딥 리서치 는 왠만한 인간들보다 높은 26.6%의 정답률을 보임.

 

왠만한 인간들 보다 높다고 하는 이유는 각 분야의 전문가들이 각자의 분야에서 어려운 문제를 냈기때문에

그 분야가 아닌걸로 넘어가면 아무리 박사 수준의 전문가 라고 하더라도 자기분야에서 정답을 찾을수있을뿐이지 그외 분야에서는 제대로 답을 할수없기때문 이기도 하고.

 

문제가 너무 어려워서 해당분야에 전문가 지식이 있다고 하더라도 못푸는 경우도 많기 때문임.

 

 

해당 문제 소개기사.

https://www.ainet.link/18575

 

 

 

▼ 댓글 더보기
※ 로그인 후 이용가능합니다.
0 / 300
번호 제목 작성자 시간
◈ 베픽 파워볼 & 파워사다리 픽등록 연승 이벤트 ◈ 낮지기3
24-10-02 16:24
◈ 베픽 커뮤니티 리뷰 홍보 이벤트 ◈ 낮지기3
24-10-02 16:24
29077
N 오늘 챔스 어떻게 보시나요 가츠동
25-02-11 16:15
29076
N 여러분들 아침식사 뭐 드셧나용? 군주
25-02-11 11:37
29075
N 붕어빵 안 사먹게되네요 ㅋㅋ 픽샤워
25-02-11 11:04
29074
N [MBC} '애국 신자는 알뜰폰' - '선동' 뒤에서 돈벌이 픽도리
25-02-11 11:03
VIEW
N 정보글) 딥시크 보다 충격적인 AI 등장 질주머신
25-02-11 11:03
29072
N 미국 하는거 웃기네요. 관세를 전 세계에 부과하면.. 본인 나라 국민들은 피해 안보나? 해골
25-02-11 11:03
29071
N 통진당 기록을 깨야할 국민의힘 ㄷㄷ 소주반샷
25-02-11 11:02
29070
N [민주당] 박찬대 원내대표 메시지 곰비서
25-02-11 11:02
29069
N 법사위 달라니.. 진짜 개뻔뻔하네요 ㅋㅋ 와꾸대장봉준
25-02-11 11:01
29068
N 식당 고추가루 원산지 외국산이라고 되어있는데 철구
25-02-11 11:01
29067
N [단독] 초등생 살해 교사 "내 목숨 끊으려 흉기 구매" 진술 손예진
25-02-11 11:01
29066
N 어르신들중에 한국 중화요리를 "청요리"라고 하시는 분들 계시네요 애플
25-02-11 11:00
29065
N 원피스 1138화 번역 고화질 조폭최순실
25-02-10 23:05
29064
일본 로또가 개부럽네요 장그래
25-02-10 20:28
29063
92세라는 어르신 노랑색옷사고시퐁
25-02-10 17:58
29062
뭔가 바뀐거같은데 섹시한황소
25-02-10 15:32
29061
점심 맛있게 드세요 박과장
25-02-10 13:02
29060
올림픽 보면서 밥먹었는데 박과장
25-02-09 16:59
29059
운동을 좀 시작해야하나 사이타마
25-02-09 15:42
29058
오늘 자이온이 폭격하네 이아이언
25-02-09 13:00
29057
골스가 조졌으니 쇼트트랙으로 넘어갈까 크롬
25-02-09 11:27
29056
맨시 골 ㅅㅅㅅㅅ 이아이언
25-02-08 22:34
29055
이제야 퇴근하네요.. 캡틴아메리카
25-02-08 21:59
29054
믿고거르는조합 가츠동
25-02-08 19:53