AI 발전 속도 너무 빨라…빅테크들, ‘성능평가’ 서둘러 재설계

오픈AI 로고 [로이터 연합뉴스 자료사진. 재판매 및 DB 금지]

“사람이 만든 테스트 충분하지 않은 시기로 진입”

인공지능(AI) 기술이 급속히 발전하면서 미국 기술 기업들이 AI 모델을 테스트·평가하는 방식을 서둘러 재설계하고 있다.

9일(현지시간) 파이낸셜타임스(FT)에 따르면 기업들은 ‘벤치마크’로 불리는 테스트를 통해 AI 모델의 능력을 평가하는데, 최근 기존 테스트로 신모델을 평가할 경우 정확도가 90%대로 지나치게 높아 새로운 테스트의 필요성이 부각되고 있다.

메타플랫폼(페이스북 모회사) 관계자는 “업계의 발전 속도가 극히 빠르다”면서 “측정 능력이 포화하기 시작했으며 (AI 신모델을) 평가하기가 점점 어려워지고 있다”고 말했다.

일례로 오픈AI·마이크로소프트·메타·앤스로픽 등은 최근 인간을 대신해 자동으로 업무를 수행할 수 있는 ‘AI 에이전트’ 구축 계획을 발표한 바 있는데, 이를 위해서는 평가가 필요한 상황이다.

이에 따라 기술기업 다수는 자체적인 벤치마크를 만들고 있는데, 업계 일각에서는 공개적인 테스트가 없는 만큼 기술을 어떻게 비교할 수 있을지에 대한 우려를 내놓고 있다.

오픈AI 관계자는 “사람이 만든 테스트 다수가 더는 AI 모델 능력의 바로미터로 충분하지 않은 시기로 들어서고 있다”고 평가했다.

현재 공개된 벤치마크들은 다지선다형 질문을 통해 다양한 주제에 대한 지식을 평가하는데, 이제 이러한 방식은 불필요하며 더 복잡한 테스트가 필요하다는 것이다.

이러한 흐름 하에 기존 벤치마크 중 하나인 ‘SWE-bench Verified’는 지난 8월 오픈AI 등의 의견을 수렴해 업데이트를 진행했으며, 개발자 플랫폼 ‘깃허브’ 등에서 가져온 실제 문제를 테스트에 이용하고 있다.

오픈AI의 최신 AI 모델인 GPT-4o은 이 테스트 결과 41.4%의 문제를 풀었고, 앤스로픽 ‘클로드 3.5 소넷’은 49%를 해결했다.

한 스타트업은 다양한 전문가들로부터 추상적 추론이 필요한 복잡한 질문을 클라우드 소스 형태로 모은 ‘인류 최후의 시험’ 프로젝트를 지난 9월 발표하기도 했다.

다만 AI 모델 평가에 대한 명시적 합의가 없는 만큼 기업들이 경쟁사 모델을 평가하거나 사용자들이 이해하기 어려울 수 있다는 전문가 우려도 나온다.

AI 세이프티의 댄 헨드릭스는 “테스트가 공개되지 않으면 재계나 사회 전반에서 (비교에 대해) 말하기 어렵다”고 말했다.

0
0

TOP 10 NEWS TODAY

오늘 가장 많이 본 뉴스

LATEST TODAY NEWS

오늘의 최신 뉴스

Leave a Reply

Your email address will not be published. Required fields are marked *

시니어 생활

오피니언 Hot Poll

청취자가 참여하는 뉴스, 당신의 선택은?

최신 뉴스

“상업용 부동산 낙관적이지만… 법안 변경 등 불확실성도”

‘부동산 자문 위원회’ 보험료 등 이슈 꼽아 금융 비용 높아 투자자들 ‘신중 모드’ 지속 세계적인 부동산 자문 기구인‘부동산 자문 위원회’(CRE·Counselors ...

세계실내육상선수권 금메 우상혁 …도쿄까지 행복한 점프

난징 세계실내육상선수권 남자 높이뛰기 2m31로 우승 ‘파리 올림픽 챔피언’ 해미시 커의 축하받아 '스마일 점퍼' 우상혁(28·용인시청)이 빛나는 2025 세계실내육상선수권대회 금메달을 목에 ...

‘군인’ BTS 정국, 복무 중 ‘주식 83억’ 탈취 피해

“해킹범 못 찾아”..빅히트 입장은? 그룹 방탄소년단(BTS) 멤버 정국이 군 입대 후 해킹으로 주식을 탈취당하는 피해를 입었던 사실이 뒤늦게 알려졌다. 22일(한국시간) ...

‘사재기 구속’ 영탁 전소속사 대표 실형 불복..4월 항소심 재개

재판부는 피고인들의 혐의를 모두 유죄로 인정 음원 사재기 혐의로 결국 실형을 선고받은 가수 영탁의 전 소속사 대표가 항소심으로 넘겨져 오는 ...

“’신혼여행’까지 미루고..” 조보아는 무슨 죄?

김수현 첫사랑→최대 피해자 배우 조보아가 김수현 사태로 인해 안방극장 복귀에 차질이 생기는 '불똥'이 튀며, '최대 피해자'로 떠올랐다. 조보아는 OTT 디즈니+ ...

민주당, 트럼프 재집권 이후 중간선거 패배 우려 고조

2026년 중간선거 패배 가능성에 대한 우려가 커져 민주당이 2024년 대선 패배 이후 유권자들의 실망과 분노에 직면하며 2026년 중간선거에서의 패배 가능성에 ...

존립위기에 처한 LA 문화거점, 리틀 도쿄… 엘에이 한인타운도 위험..

100년 전통의 엘에이 리틀 도쿄 존립위기... 엘에이 한인타운도 비슷한 상황에 처해 있으나 대비책 없어 로스앤젤레스의 대표적 일본 문화 중심지 '리틀 ...

유럽국가들, 성전환자 미국입국에 ‘주의 요망’…

성별 지정이 엑스(X)로 돼 있거나 성별을 바꾼 적이 있다면 여행 전 미국 대사관에 연락해 안내 받아야.. 여러 유럽 국가가 미국을 ...

“Empire Crumbling! California Democrats Face Unprecedented Republican Rebellion”

Newsom's podcast politics falls flat as conservative voices gain traction in America's progressive stronghold LOS ANGELES (AP) - California's long-established ...

향후 영주권자 사회보장 혜택 축소 가능성 논의 급부상

세금을 납부한 시민과 시민권자 혜택을 우선으로 변경 가능성 커져... 클린턴 행정부 당시 영주권자에 대한 사회복지 혜택이 제한된적 있어 최근 미국 ...

” 영주권자들 불안해서 못살겠다”, 한인 영주권자들도 두려움커져..

미국 내 그린 카드 소지자의 불안이 커지고 있다 시민권 서둘러 취득하는것이 안전.. 밴스, "그린카드 소지자가 미국에 영구적으로 머무를 권리가 없어" ...

캘리포니아 민주당 제국의 몰락이 시작되나?

진보의 성지에서 울려 퍼지는 공화당의 함성... 2/3 의석이 무색해진 현실 서부 진보의 상징 캘리포니아에서 오랜 기간 절대 권력을 누려온 민주당이 ...

경찰 헬리콥터를 향해 산탄총 겨누는 불법 거주자..

채스워스 지역의 20000 Tipico St에서 발생한 사건에서, 한 남성이 경찰 헬리콥터를 향해 산탄총을 겨누는 사건이 발생했습니다. 이 사건은 약 일주일 ...

중국 AI 스타트업 딥시크, 핵심 인력 여권 압수..

딥시크 기술 해외 유출 우려.. 중국의 인공지능 스타트업 DeepSeek이 핵심 연구개발 인력의 여권을 압수하는 강력한 조치를 취했다. 이는 자사의 첨단 ...

공공주택, 불법 이민자 거주 허용 논란

대기중인 시민권자의 권리 침해 논란... 바이든 행정부에서 도입한 "혼합가족" 지원이 원인... 미국에서 불법 이민자들이 공공주택에 거주하는 문제가 논란이 되고 있습니다 ...

[속보]한국 곳곳에서 산불 발생 , 4명 사망… 대규모 비상 상황 선포

산청서 올해 첫 대형산불…4명 사망·6명 부상·이재민 263명 주택도 7채 소실…대기 건조·강풍·험한 지형, 진화에 악재로 진화율 30%까지 곤두박질…밤새 인력·장비 동원 지상진화 ...

위기의 테슬라, 머스크 사임 압박 거세져..

테슬라 주가 급락과 연이은 방화 사건으로 경영 위기 직면 최근 테슬라가 연이은 방화 사건과 주가 하락으로 심각한 위기에 직면하고 있다 ...

캘리포니아의 전력망, AI 수요 증가로 위협받아..

ChaptGPT 하나가 작동하는 데는 20분 동안 전등을 켜는 것과 동일한 에너지가 필요 캘리포니아는 세계 최상위 AI 기업의 절반 이상을 보유하고 ...

오카시오-코르테스, 결국 민주당 뉴리더십 차지하나?

당내 불만과 비판에도 대중적 인기와 인지도 높아.. 오카시오-코르테스 의원은 슈머 상원의원에 대한 경선 출마 의사를 밝히지 않았지만, 그녀의 높은 인지도와 ...

컬럼비아대 굴복시킨 트럼프…25년 전 원한때문에?

캠퍼스 확장 부지로 트럼프 땅 한때 검토…가격 너무 높아 불발 도널드 트럼프 미국 행정부가 명문 컬럼비아대에 연방보조금을 취소하며 강하게 압박한 ...

AOC 와 샌더스, 아리조나에서 트럼프 행정부 비판 집회 개최

1만 명 이상 참석한 대규모 집회서 불평등과 정부 조치 강력 비판 아리조나주 템피에서 열린 대규모 집회에서 알렉산드리아 오카시오-코르테즈 하원의원과 버니 ...

“격돌! 페터먼 vs AOC… 민주당 내 내전 발발”

"트럼프와 협력? VS 더 강하게 싸워라!"... 실용주의와 이상주의 충돌 펜실베이니아 출신 존 페터먼 상원의원과 뉴욕의 알렉산드리아 오카시오코르테스(AOC) 하원의원 간 정치적 ...

‘KO 머신’ 조지 포먼, 76세로 타계…최고령 헤비급 챔프

알리와 '세기의 대결' 회자…1994년 45세로 최고령 헤비급 챔프 올라 'KO 머신'으로 불렸던 미국의 복서 조지 포먼이 타계했다. 향년 76세. 미국 ...

LA 시정부, 재정 적자 심화…무능하고 이기적인 시의회 비판 여론 확산

엘에이시 예산 낭비의 주범은 시의회라는 분위기 확산.. 시정 개혁을 통한 시예산 권한 시장에게 주어져야... 로스앤젤레스(LA) 시정부의 심각한 재정 위기가 날로 ...

트럼프, 바이든 전 대통령 등 고위 공직자 기밀 정보 접근권 취소

트럼프, 국가 이익 문제로 인해 바이든, 해리스, 클린턴 등 15명 기밀 정보 접근권 제한 지시 도널드 트럼프 대통령이 바이든 대통령, ...

트럼프, ‘악의적 소송 로펌 제재’ 지시

도널드 트럼프 미국 대통령이 자신이 추진하는 정책에 대한 법률적 문제 제기를 사실상 규제하고 나섰다. 21일(현지시간) 로이터통신에 따르면 이날 트럼프 대통령은 ...

Democratic Party’s Contradiction: Criticizing the Oligarchs They Helped Create

Can Democrats rebuild public trust while criticizing the tech giants they once supported? Today's Tesla was born from the California ...

[심층기획] 민주당, 올리가키를 키워놓고 자신들이 공격하는 모순..

자신들이 지원한 테크 기업 비판하는 민주당, 국민 신뢰 회복 위한 진정한 개혁 가능할까? 지금의 테슬라는 캘리포니아 주정부의 강력한 보조금정책과 적극적 ...

트럼프, DOGE의 개인정보 접근권 거부시 사회보장 중단 위협

트럼프 행정부의 갈수록 도를 넘는 작태 비판의 목소리 높아 도널드 트럼프의 임시 사회보장국 책임자인 리 두덱이 목요일 밤 충격적인 발언을 ...

샌더스·AOC “과두제 반대 투어”, 민주당 내 모순 논란 불러

민주당역시 재계 및 테크 거물들과 밀접한 관계를 맺고 있는 현실.. ‘과두제 반대’를 외치는 이들의 투어는 민주당 내부에서도 정책적 자기모순이라는 비판 ...

경제 • IT

칼럼 • 오피니언

국제

한국

LIFESTYLE

K-NOW

K-NEWS

K-BITES