글등록

정보글) 딥시크 보다 충격적인 AI 등장

202 0 0 2025-02-11 11:03:23 신고

선 요약

- Open AI 에서 딥 리서치 라는 AI모델을 발표함.

- 딥 리서치 는 고도로 숙련된 논리구조의 논문을 완성하거나 어려운 문제를 해결하는데 특화된 전문가 역할을 하는 모델을 목표로 구현됨

- 논리구조가 완벽한 논문을 30분내로 만들어내는 역할을 하는데 다른 교수들이 검증해도 논리에 허점이없음

- 인류 최후의 시험(HLE) 에서 최고 수준인 26.6%의 정답률을 받음. 딥시크의 R1(9.4%)과 비교해 약 3배 높음

이번에 Open AI에서 새로운 AI모델 딥 리서치를 출시했음.

이건 기존에 빠른 대답을 해주는 대화형 AI가 아니라 어려운 문제 논문 같은걸 작성하는데 특화된 전문가 영역에서의 논리구조를 이해하고 만들어내는데 특화된 AI였음.

타일러 코웬 조지메이슨대 경제학과 교수는 딥리서치에 ‘리카도의 지대론’을 주제로 10쪽 분량의 보고서 작성을 맡겼더니 6분 만에 완성한 결과물에서 오류를 발견하지 못했다고 자신의 블로그에 평가를 남겼다.고 함

리카도 지대론은 지주와 소작농 사이에 발생하는 자본주의적 동작기작에 대한 설명을 하는 이론이라고 위키에 적어놨는데 읽으면서도 걍 무슨소린지 제대로 이해한 부분이 없는 수준임..

AI에 대해서 AI의 성능이 인간 전문가 영역 혹은 그 수준으로 도달했는지 알아보는 테스트가 있음.

흔히 알려져있는 튜링테스트 의 경우 상대방이 인간인지 AI인지 구분할수있는 테스트 방식을 이야기하고

이미 10년전에 구글이 AI 비서 로 미용실 예약하고 이런걸 실시간으로 보여주면서 튜링테스트 통과한 그런 언어모델들은 이미 수없이 많이 나와있는 상태임.

저런 튜링테스트와 다르게 HLE(Human's Last Exam) 인류 최후의 시험 을 만들었음.

전 세계 50개국 500개 이상의 기관에서 약 1,000명의 전문가가 참여했다.

7만 개의 시험 문항 중 1.3만 개가 전문가 검토를 거쳐 최종 3,000개의 문항이 선정되었다

수학, 자연과학, 인문학 등 광범위한 분야를 아우르는 전문가급 문제들로 구성되었다

최신 AI 모델들도 전문가급 문제의 10% 미만만 정확히 답변할 수 있었다.

GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro, OpenAI o1 등 최신 모델들이 테스트를 받았다.

라고 결과가 나와있음.

해당 HLE에 대한 특집기사도 나왔는데 대표적인게 아래 뉴욕타임즈 와 로이터에서 나온 기사임

뉴욕타임즈에서 특집기사로 나온 제목이 AI가 이 테스트를 통과하면 조심하세요.

https://www.nytimes.com/2025/01/23/technology/ai-test-humanitys-last-exam.html

로이터 에서는 AI를 난처하게 만들기위해 전문가들이 인류 최후의 질문을 준비했습니다.

https://www.reuters.com/technology/artificial-intelligence/ai-experts-ready-humanitys-last-exam-stump-powerful-tech-2024-09-16/

라는 특집기사를 낸적이있음.

저 기사의 핵심은 AI가 인류 전문가들이 만들어낸 어려운 문제를 풀어낼수있을만큼 성능이 높은가를 시험하기 위해 만든거였고..

당연히 평범한 학문과 거리가 먼 사람들은 질문이 뭔지도 이해조차 못하는 그런 문제를 냈었음.

저런식의 문제에 대한 답을 AI에게 요구했을때 대부분 10% 미만의 정답률을 냈었는데..

이번에 발표된 딥 리서치 는 왠만한 인간들보다 높은 26.6%의 정답률을 보임.

왠만한 인간들 보다 높다고 하는 이유는 각 분야의 전문가들이 각자의 분야에서 어려운 문제를 냈기때문에

그 분야가 아닌걸로 넘어가면 아무리 박사 수준의 전문가 라고 하더라도 자기분야에서 정답을 찾을수있을뿐이지 그외 분야에서는 제대로 답을 할수없기때문 이기도 하고.

문제가 너무 어려워서 해당분야에 전문가 지식이 있다고 하더라도 못푸는 경우도 많기 때문임.

해당 문제 소개기사.

https://www.ainet.link/18575

베픽 보증업체 + 보증업체 더보기

베픽추천 당근벳

당신 근처의 당근벳

25-06-03 03:02:05

4.7점 / 36명

#파워볼 , #에볼루션 , #슬롯 , #스포츠 , #미니게임 , #E스포츠 , #레볼루션홀덤

5천만원보증

베픽보증 뉴헤븐

뉴헤븐카지노 라이브카지노·미니게임·슬롯게임 다양한 이벤트 진행, 첫충·재충·페이백 혜택과 빠른충전 무제한환전 지원

26-05-07 21:32:50

5점 / 12명

#미니게임 , #토지노 , #가상게임 , #실시간 , #인플레이 , #콤프 , #에볼루션 , #슬롯 , #페이백 , #쿠폰

베픽추천 야옹이

특별한 혜택! 자금력 1위!

25-06-03 02:50:48

4.8점 / 40명

#파워볼 , #에볼루션 , #슬롯 , #스포츠 , #미니게임 , #E스포츠 , #레볼루션홀덤

전체

글등록

번호	제목		작성자	시간
	◈ 베픽 파워볼 & 파워사다리 픽등록 연승 이벤트 ◈		낮지기3	24-10-02 16:24
	◈ 베픽 커뮤니티 리뷰 홍보 이벤트 ◈		낮지기3	24-10-02 16:24
37041		N 티원 두가자	호랑이기운호열	26-05-28 19:40
37040		N 퇴근해야지	로드칫추	26-05-28 16:51
37039		N 출석합니다.	아쿠마	26-05-28 15:16
37038		N 5월도 곧 끝이네요	다넘어왔으	26-05-28 15:13
37037		N 오늘따라 물맛이 좋네	너무하네	26-05-28 13:49
37036		N 엄청피곤하네	호동행님	26-05-28 13:30
37035		N 점심 챙기세요	틈새라면	26-05-28 12:54
37034		N 덥다 더워	플플플뱅뱅	26-05-28 11:57
37033		N 오케이 깁슨 잘던졌고 옵션당하자	픽샤워	26-05-28 09:26
37032		N 와 저지 홈 보살 ㅅㅂ ㅋㅋㅋㅋㅋㅋㅋ	픽도리	26-05-28 09:26
37031		N 저지 ㅅㅅㅅㅅㅅㅅ	질주머신	26-05-28 09:26
37030		N 시발 콜과 저지	해골	26-05-28 09:25
37029		N 대물 자지 씨발 ㅋㅋㅋㅋㅋㅋ	소주반샷	26-05-28 09:25
37028		N 오늘경기는 저런빠따면 볼 의미가 더 없네	곰비서	26-05-28 09:25
37027		N 키건 에이킨 그만쓰라고 했다	와꾸대장봉준	26-05-28 09:24
37026		N 콜아 1실점 막아줬으니 득점 지원은 없을거같다	철구	26-05-28 09:24
37025		N 포기하고 힘빼서 살짝던지는줄 알았는데	손예진	26-05-28 09:23
37024		N 캬 ERA 12.27로 대폭락 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ	애플	26-05-28 09:23
37023		N 좋은 하루보내셔요	감자로얄	26-05-28 04:44
37022		N ㅎㅇㅎ	오타쿠	26-05-28 01:21
37021		N 술마이무따이	호랑이	26-05-28 01:20
37020		N 대한민국의 수도는 어디죠	손나은	26-05-28 01:19
37019		N 챔결 기대됩니다	아이언맨	26-05-28 01:18
37018		N 하품나와..	가습기	26-05-28 01:16