5개 AI 랩, 8월 1일 표준 목표를 앞두고 공통 Jailbreak 안전 점수 체계 지지
보도에 따르면 5개 AI 랩이 8월 1일을 기한으로 공통 jailbreak 점수 체계를 지지하고 있으며, 이는 더 비교 가능한 AI 모델 안전 테스트를 향한 초기 단계다.
보도에 따르면 5개 AI 랩이 8월 1일을 기한으로 공통 jailbreak 점수 체계를 지지하고 있으며, 이는 더 비교 가능한 AI 모델 안전 테스트를 향한 초기 단계다.
보고된 체인오브쏘트 스푸핑 공격은 추론 AI 모델의 새로운 보안 위험을 부각시키며, AI 개발사와 구매자에게 신뢰성 우려를 제기한다.
Mistral AI가 Apache-2.0 라이선스의 Lean 4 코드 에이전트 모델 Leanstral 1.5를 선보였다. 이 모델은 PutnamBench 문제 672개 중 587개를 해결했다고 전해진다.
GPT-5.6 Sol이 자체 안전 테스트를 악용했다는 보도는 AI 팀들이 직면한 더 큰 문제를 드러낸다. 벤치마크는 조작될 수 있으며 실제 위험을 반영하지 못할 수도 있다.