AIPida · AI 뉴스 & 커뮤니티

Today

오늘의 AI 브리핑

방금 올라온 AI 소식과 핵심 인사이트

Claude Agent SDK 별도 크레딧 분리, OpenAI Agent Builder는 종료 예고

에이전트 프레임워크 시장이 기능 경쟁을 넘어 과금·라인업 정리 국면으로 들어섰다. Anthropic은 6월 15일부터 Claude Agent SDK 사용량을 구독 요금과 분리된 별도 월간 'Agent SDK 크레딧'에서 차감하기 시작한다 — 구독으로 무한정 에이전트를 돌리던 패턴에 명시적 비용 경계가 생기는 변화다. OpenAI는 6월 3일 Agent Builder와 Evals 제품의 단계적 종료를 발표했고, 두 제품은 11월 30일부터 플랫폼에서 제공되지 않는다(앞서 4월 Agents SDK에 네이티브 샌드박스 실행과 모델 네이티브 하니스를 추가한 흐름의 후속). 한편 프레임워크 진영은 메이저 버전이 안착했다. LangChain 1.0·LangGraph 1.0(2025년 말 GA)은 각각 표준 툴콜링 에이전트 빌드와 장시간·상태 지속(durable state) 오케스트레이션으로 역할이 갈렸고, Microsoft Agent Framework 1.0은 4월 3일 GA, Google ADK도 Java·Go용 1.0을 출시했다.

별도 크레딧 분리는 '구독만 있으면 에이전트는 공짜'라는 착시를 끝내고, 에이전트 실행을 명시적 원가 항목으로 끌어올린다. 자율 루프·스케줄 에이전트를 상시 가동하는 한국 팀은 이제 토큰 단가뿐 아니라 SDK 크레딧 소진 속도를 별도 모니터링해야 한다. OpenAI의 Agent Builder 종료는 'GUI 노코드 에이전트 빌더'보다 코드 기반 SDK로 무게가 쏠렸음을 보여주는 신호로, 노코드 빌더에 락인되지 않는 설계가 안전하다.

OpenAI / TechCrunch원문 ↗

美 정부 수출통제 지시로 Fable 5·Mythos 5 접속 전면 차단, 출시 3일 만의 반전

5일 전

프롬프트 인젝션은 '버그'가 아니라 '구조적 결함': OWASP 6월 보고서와 MCP 공급망 사고

6일 전

Bezos의 Prometheus, 기업가치 410억 달러에 시리즈B 120억 달러 조달

6일 전

Google, Gemini CLI를 Antigravity CLI로 통합하며 6월 18일 기존 CLI 요청 중단

6일 전

NewsAI 리서치·논문입문·1주 전

Grok 5, Q1 데드라인 넘겨 Q2 베타 전망에 6T 파라미터 MoE 루머

xAI의 Grok 5가 2026년 6월 기준으로 여전히 학습 중이며 공식 출시일·스펙은 발표되지 않았다. xAI는 1월 시리즈 E 업데이트에서 학습이 진행 중임을 확인했고, 일론 머스크가 원래 노렸던 Q1 2026 출시 창은 지나갔다. 현재 xAI 공식 X 계정 기준 가장 유력한 시점은 Q2 2026 공개 베타로 좁혀진다. 스펙은 전부 루머 단계지만 일관되게 거론되는 수치는 6조(6T) 파라미터 + MoE 아키텍처로, 사실이라면 공개 발표된 모델 중 최대 규모이자 Grok 4의 약 2배다. 비교 기준으로 Grok 4는 GPQA Diamond 88%, Humanity's Last Exam 25.4%를 기록했다. 요컨대 Grok 5는 '메가스케일 + 지연'이라는 두 키워드로 정리된다 — 발표 규모는 업계 최대급이지만, 출시는 반복적으로 밀리고 있어 실측 벤치마크는 존재하지 않는다.

Grok 5는 '발표 수치'와 '실출시'를 분리해서 봐야 하는 전형적 사례다. 6T 파라미터는 화제성은 크지만 실측 벤치마크가 없는 한 의사결정 근거가 될 수 없다 — LLM 시세·스펙 환각을 경계하는 우리 함정 목록과 같은 맥락이다. 한국 팀에 주는 실무 교훈은 명확하다. 미출시 모델을 로드맵의 전제로 삼지 말 것. Grok 5는 나올 때 다시 평가하면 되고, 지금은 이미 출시된 Gemini 3.1·Command A+·Kimi K2.6으로 의사결정하는 게 합리적이다.

xAI release trackers (NxCode / WaveSpeed)

NewsAI 코딩중급·1주 전

Cursor Bugbot, /review 프리커밋 게이트로 리뷰 시간 5분에서 90초로 단축

Cursor가 6월 10일 Bugbot 업데이트를 출시해 평균 코드리뷰 시간을 약 5분에서 90초로 줄였다(전체 실행의 90%가 3분 내 완료). 동시에 실행당 버그 검출은 0.56→0.62건으로 약 10% 늘고, 실행당 비용은 약 22% 낮아졌다(PR 크기에 따라 $1.00~1.50 추정). 성능 개선의 기반은 5월 18일부터 Bugbot을 구동하는 Composer 2.5 모델이다. 6월 5일 Cursor 3.7과 함께 도입된 /review 커맨드는 Bugbot을 '푸시 전 게이트'로 재프레이밍한다. push 전에 Bugbot과 Security Review를 돌리고, /review-bugbot·/review-security로 표적 검사가 가능하다(CLI 지원은 예정). 또한 GitHub·GitLab과 동기화해 동일 diff가 PR로 열리면 재리뷰를 건너뛰는 중복 감지, 직전 실행 이후 변경분만 스캔하는 델타 전용 스캔으로 중복 피드백과 이중 과금을 차단한다.

리뷰 속도가 90초대로 떨어지면 코드리뷰의 위치가 '비동기 PR 코멘트'에서 '커밋 직전 인라인 게이트'로 바뀐다. 즉 봇이 사후 지적자가 아니라 사전 차단기가 되는 것이다. 델타 스캔·중복 감지는 LLM 리뷰의 실전 운영비(토큰 비용·노이즈)를 정조준한 설계로, 자체 LLM 리뷰 파이프라인을 운영하는 팀이라면 '전체 재스캔' 대신 '변경분만' 원칙을 그대로 차용할 만하다.

Digital Applied원문 ↗

NewsAI 모델·API중급·1주 전

Anthropic, 민감 주제는 Opus 4.8로 폴백하는 Claude Fable 5 공개

Anthropic이 6월 9일 Opus 클래스보다 한 단계 높은 'Mythos급' 모델을 일반에 처음 공개했다. 동일한 기반 모델을 공유하는 두 버전으로, Fable 5는 콘텐츠 분류기를 탑재해 사이버보안·생화학·증류(distillation) 요청 시 Claude Opus 4.8로 자동 폴백하고(세션의 5% 미만 영향), Mythos 5는 인가된 사용자에 한해 이 안전장치를 해제한다. 가격은 두 모델 모두 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 'Mythos Preview의 절반 미만'이다. Anthropic은 Fable 5가 '거의 모든 벤치마크에서 SOTA'이며 Cognition의 프런티어 코딩 평가 FrontierCode에서 최고점이라고 밝혔다. 외부 파트너와 1,000시간 넘는 레드팀에서 보편적 탈옥은 발견되지 않았다고 했다. 단, 이 모델들은 6월 12일 美 정부 수출통제 지시로 사흘 만에 접근이 차단됐다.

동일 가중치를 안전장치만 달리해 두 SKU로 출시한 구조는 '안전을 모델이 아니라 배포 레이어에 둔다'는 프런티어 랩의 새 운영 모델을 보여준다. 민감 질의를 하위 모델로 라우팅하는 폴백은 능력과 책임을 분리하는 실용적 패턴이지만, 곧바로 정부 회수로 이어진 점은 '안전 SKU'조차 규제 리스크를 상쇄하지 못함을 드러낸다. API 가격 절반 인하는 프런티어급 토큰 단가 경쟁이 가속되고 있다는 실무 신호다.

Anthropic / Tom's Hardware원문 ↗

NewsAI 코딩실전·1주 전

Claude Code, Opus 4.8 기본 탑재로 계획·병렬 서브에이전트·검증 자동화

Anthropic이 5월 28일 출시한 Claude Opus 4.8(claude-opus-4-8)을 Claude Code 기본 모델로 채택했다. 코딩·에이전트·추론 성능이 개선됐고, 특히 자기가 작성한 코드의 결함을 지적 없이 통과시킬 확률이 Opus 4.7 대비 약 4배 낮아져 정직성·신뢰성에 무게를 뒀다. 가격은 입력 100만 토큰당 $5·출력 $25로 4.7과 동일하며, fast 모드는 2.5배 빠르고 3배 저렴해졌다. Claude Code의 핵심 신기능은 '동적 워크플로(dynamic workflows)'로, 작업을 계획하고 병렬 서브에이전트를 띄워 실행한 뒤 산출물을 검증하고 사용자에게 보고하는 루프를 자동화한다(Enterprise·Team·Max 대상 리서치 프리뷰). 또한 보안 가이던스 플러그인이 추가됐고, Claude Code가 터미널·IDE·웹·데스크톱·스케줄 에이전트 워크플로로 확장됐다. 세부 개선으로는 대화 언어로 세션 제목 생성, footerLinksRegexes 설정, Bedrock 자격증명 캐싱 만료 기준 변경, `claude agents --json --all`로 활성/완료 세션 조회 등이 포함된다.

'자기 코드 결함을 4배 덜 눈감는다'는 지표는 에이전트 자율성의 진짜 병목이 능력이 아니라 자기검증 신뢰성임을 정확히 짚는다. 검증 단계를 워크플로에 내장한 dynamic workflows는 Maker→Critic→Integrator 같은 외부 검수 루프를 모델 내부로 끌어들이는 시도다. 다만 리서치 프리뷰가 Max·Team·Enterprise에 한정되므로, 한국의 개인·소규모 팀은 당분간 자체 서브에이전트 검수 패턴을 병행하는 편이 안전하다.

Anthropic / artificialintelligence-news.com원문 ↗

NewsAI 프로덕트·스타트업초급·1주 전

OpenAI, GPT-5.5 Instant을 ChatGPT 기본 모델로 채택하고 모델 선택기 개편

OpenAI가 6월 9일 ChatGPT Go·Free에 개인화 개선을 배포하며 GPT-5.5 Instant을 새 기본 모델로 전환했다. 응답이 더 명확·간결해지고 공유 컨텍스트 활용이 강화됐다. 모델 선택기도 단순화돼 Instant / Medium / High / Pro 전용 티어로 정리되며 웹·iOS·안드로이드의 Plus·Pro 사용자에게 롤아웃됐다. 본체 GPT-5.5는 4월 23일 출시된 OpenAI의 '가장 강력한 에이전틱 코딩 모델'로, 1M 컨텍스트(입력 ~922K + 출력 128K), reasoning effort 레벨 none/low/medium(기본)/high/xhigh를 지원한다. 벤치마크 도약이 크다 — 1M 장문맥 추론이 GPT-5.4의 36.6%에서 74.0%로, Terminal-Bench 2.0은 82.7%를 기록했다. 가격은 표준 입력 $5·출력 $30/MTok로 GPT-5.4($2.50/$15) 대비 약 2배, GPT-5.5 Pro는 $30/$180이다. 6주 만에 가격을 두 배로 올린 셈이라 비용 민감 워크로드에서는 effort 레벨 하향과 모델 분기 전략이 필요하다.

OpenAI의 'effort 레벨'(none~xhigh)은 Anthropic의 effort/adaptive thinking과 같은 방향으로 수렴한 추론-비용 노브다. 두 진영 모두 '얼마나 생각할지'를 호출자가 티어로 제어하는 구조로 표준화되고 있다. 6주 만의 2배 가격 인상은 프론티어 추론 모델의 비용 곡선이 가팔라지고 있음을 보여주며, 한국 팀은 단순 작업은 저-effort/저가 모델, 어려운 에이전틱 작업만 고가 모델로 라우팅하는 분기를 코드에 내장해야 한다.

TechCrunch / OpenAI원문 ↗

NewsAI 모델·API중급·1주 전

Anthropic, 한 모델 두 제품 안전 분기 설계의 최강 플래그십 Claude Fable 5 공개

Anthropic이 6월 9일 가장 강력한 공개 모델 Claude Fable 5를 출시했다. 동시에 같은 가중치를 공유하는 Mythos 5를 검증된 사이버 방어 인력에게만 제한 공개했다. 핵심은 '한 모델을 두 제품으로' 나눈 설계다. 능력으로 가른 게 아니라 안전 분류기(safety classifier) 한 겹으로 갈랐다. Fable 5는 분류기를 얹어 일반 공개, Mythos 5는 같은 모델에서 사이버 가드레일만 벗겨 핵심 인프라 운영자에게만 잠가뒀다. 벤치마크 전반에서 SOTA이며 일부 항목은 Opus 4.8보다 10%p 이상 높다. 컨텍스트 1M, 최대 출력 128K, 입력 $10·출력 $50/MTok(Opus의 2배). API에서 사고가 바뀐다. 분류기가 정당한 인접 작업(보안 툴링, 생명과학)에서도 오탐 거부를 내므로 stop_reason: 'refusal'이 HTTP 200으로 반환된다. content를 읽기 전에 stop_reason을 먼저 분기해야 한다. 또 thinking이 항상 켜져 있어 thinking 파라미터를 명시하면 거부(disabled는 400), raw 사고연쇄는 절대 반환되지 않고 요약만 제공된다.

능력이 아니라 '안전 분류기 한 겹'으로 동일 모델을 두 상품으로 가른 건 프론티어 모델 배포 전략의 전환점이다. 한국 개발자 입장에서 실무 충격은 refusal을 정상 응답 경로로 처리해야 한다는 점이다. content[0]을 무조건 읽는 기존 코드는 거부 시 인덱스 에러로 깨지므로, fable-5를 쓴다면 서버사이드 fallbacks 옵션을 기본 탑재해 거부를 Opus 4.8로 자동 우회시키는 패턴이 사실상 표준이 된다.

Anthropic원문 ↗

NewsAI 리서치·논문고급·1주 전

Cognition, merge 가능성 평가 벤치마크 FrontierCode 공개에 Opus 4.8도 13.4%

Cognition(Devin 개발사)이 6월 8일 정답 여부를 넘어 '실제로 머지할 코드인가'를 묻는 코딩 벤치마크 FrontierCode를 공개했다. 36개 주력 오픈소스 레포에서 추출한 150개 태스크로 구성되며, 20명 이상의 일급 메인테이너가 태스크당 40시간 넘게 투입해 설계했다. 난이도는 Extended(150)·Main(100)·Diamond(최난 50)로 중첩 구성된다. 채점은 기능 정확성에 더해 회귀 안전성, 스코프 침범(scope creep) 여부, 테스트 품질, 코드베이스 규약 준수까지 평가한다. 고전적 단위 테스트, 에이전트가 작성한 테스트가 망가진 코드에서 실제로 실패하는지 검증하는 역방향 테스트, 파일·diff 경계 검증, LLM 기반 코드 품질 리뷰를 결합한다. 'blocker' 기준을 모두 통과해야 0점을 면한다. 최고 성적은 Claude Opus 4.8로 Diamond 13.4%·Main 34.3%·Extended 51.8%, GPT-5.5는 Diamond 6.3%, Gemini 3.1 Pro는 4.7%에 그쳤다. SWE-Bench Pro 대비 오탐률(false positive)이 81% 낮다.

SWE-bench류 포화 속에서 '테스트만 통과하면 통과'라는 벤치마크의 맹점을 정면으로 겨냥했다 — METR도 고득점 패치가 메인테이너에게 거절되는 현상을 지적해왔다. Diamond 13.4%라는 낮은 천장은 에이전트 코드의 프로덕션 머지 적합성이 마케팅 수치보다 훨씬 뒤처져 있음을 보여준다. 한국 개발팀에는 코딩 에이전트 도입 시 정답률이 아니라 회귀·스코프·리뷰 통과율로 평가 기준을 재설정하라는 실무 지침이다.

Cognition원문 ↗

NewsAI 에이전트고급·1주 전

MCP 차기 명세 릴리스 후보 공개, 스테이트리스 코어·Tasks·MCP Apps로 최대 개편

Model Context Protocol 차기 명세의 릴리스 후보(RC)가 공개됐고, 최종본은 7월 28일 확정된다. 프로토콜 출범 이래 최대 규모 개정이며 호환성을 깨는 변경(breaking changes)을 포함한다. 핵심은 다섯 가지다. ① 일반 HTTP 인프라에서 확장 가능한 '스테이트리스 코어' — 세션 상태 의존을 걷어내 로드밸런서·서버리스 환경에서 스케일이 쉬워진다. ② Extensions 프레임워크 — 코어를 얇게 유지하고 기능을 확장으로 분리. ③ Tasks 확장 — 장시간 실행 작업을 표준화. ④ MCP Apps — 서버가 렌더링하는 UI를 클라이언트에 노출. ⑤ OAuth·OpenID Connect 배포에 더 부합하는 인가(authorization) 하드닝과 공식 deprecation 정책. RC 공개 후 약 10주의 검증 윈도가 주어지며, Tier 1 SDK는 이 기간 내 지원을 출시할 것으로 예상된다. SDK 메인테이너와 클라이언트 구현자가 실제 워크로드로 변경을 검증하는 단계다.

스테이트리스 코어로의 전환은 MCP가 '로컬 데스크톱 어시스턴트 연결 규약'에서 '프로덕션 분산 인프라용 표준'으로 성숙한다는 신호다. 다만 breaking changes가 명시된 만큼, MCP 서버를 운영 환경에 배포한 팀은 인가 흐름(OAuth 정합)과 세션 가정을 7월 28일 전에 재점검해야 한다. Tasks·MCP Apps는 그간 각자 커스텀으로 구현하던 장시간 작업·서버 UI를 표준화하므로, 자체 비표준 확장을 걷어낼 좋은 기회다.

Model Context Protocol Blog원문 ↗

Q&A