헤드라인
구광모의 혁신…LG AI모델 오픈소스로 공개 AI연구원 엑사원 3.0 내놔 이전보다 성능·경제성 개선 메타·구글AI보다 경쟁력 25개부문 중 13개서 앞서 하반기 제품·서비스에 적용 임직원 대상 '챗엑사원' 운영 |
https://n.news.naver.com/mnews/article/009/0005346975 |
본문
LG그룹이 국내 최초로 오픈소스 인공지능(AI)모델을 공개했다. 폐쇄적인 챗GPT와 달리 누구나 자유롭게 활용할 수 있는 것이 특징이다. 구광모 LG그룹 회장이 AI를 미래 사업으로 점찍은 만큼 사업화에도 속도를 낼 방침이다.
7일 LG AI연구원은 엑사원(EXAONE) 3.0 경량 모델을 오픈소스로 공개했다. 엑사원은 LG가 자체 개발한 대규모언어모델(LLM)이다. LG관계자는 "엑사원은 리눅스 운영체제(OS)처럼 개방적인 연구가 가능하다"며 "국내외 AI 연구자들이 의미 있는 연구를 진행하고 AI 생태계가 한 걸음 나아가는 데 힘이 되길 기대한다"고 밝혔다.
엑사원은 메타(라마3.1)와 구글(젬마2)이 내놓은 오픈소스 AI와 비교해도 높은 경쟁력을 갖췄다는 게 LG측 설명이다. 벤치마크(성능 평가 지표) 25개 부문 중 13개에서 1위를 거머쥐었다.
한국어 실제 사용성은 8.77점으로 구글 젬마(8점)를 제치고 1위를 차지했다. 영어 실제 사용성(57.5점)과 수학(57.1점), 코딩(59.7점) 부문에서도 1위에 올랐다.
이전 모델보다 성능도 훨씬 좋아졌다. 추론 처리 시간은 56%, 메모리 사용량은 35% 줄였다. 구동 비용은 72% 절감할 수 있다. 엑사원의 경량화·최적화에 집중하면서도 성능은 높이고 모델 크기는 100분의 3으로 줄이는 데 성공했다.
또 윤리와 보안이 강화됐다. LG관계자는 "윤리성·보안성을 평가하고자 레드팀 과정을 거쳤으며 내부 데이터셋과 제3자 데이터셋을 사용해 평가했다"면서 "성적 차별이나 불법적 답변을 하지 않아 우수하다"고 설명했다.
LG그룹은 하반기엔 제품과 서비스에 엑사원 3.0을 적용한다. LG관계자는 "데이터 6000만건 이상을 학습했는데 연말까지 법률, 바이오, 의료, 교육, 외국어 등으로 분야를 확장해 학습 데이터를 1억건으로 늘려 성능도 끌어올릴 것"이라고 말했다.
계열사별로 보유한 데이터로 최적화하는 과정도 거친다. 이를 통해 사업·제품·서비스 특성에 맞게 AI 혁신 속도를 높이는 것이 LG의 목표다.
배경훈 LG AI 연구원장은 "엑사원으로 LG 계열사와 외부 기업·기관과 파트너십을 강화하겠다"고 강조했다.
연구뿐만 아니라 사업화에도 나선다. LG 관계자는 "엑사원 활용 최우선 순위는 계열사와 파트너사이며 이번 공개를 통해 학계·스타트업과의 협력을 확장하는 것"이라면서도 "이후에는 계열사 최적화를 통해 사업화를 진행할 예정"이라고 밝혔다.
임직원 대상으로는 생성형 AI '챗엑사원(ChatEXAONE)'을 시범 운영한다. 엑사원 3.0 기반 서비스로 △질의응답 △검색·요약·번역·분석 △데이터베이스 관리 △코딩 업무 등을 지원한다. 자연어 입력만으로 파이썬·자바 등 프로그래밍 언어 22개를 활용할 수도 있다.
LG는 연내 정식 서비스를 목표로 임직원 의견을 반영해 업데이트를 이어갈 방침이다.
이를 통해 LG그룹만의 AI 연결망을 구축한다. LG 관계자는 "국내 기업들은 보안 이슈로 해외 AI를 사용하는 것을 꺼린다"며 "자체 개발한 AI를 사내망에서 활용하는 건 LG가 처음"이라고 말했다.
2018년 구 회장이 취임한 이래 LG는 AI 연구개발(R&D)에 총력을 기울여왔다. 구 회장은 지난 3월 주주총회에서 "미래 사업은 AI·바이오·클린테크를 중심으로 속도감 있게 추진하겠다"고 밝힌 바 있다. 이에 따라 LG AI 연구원에만 4년간 4500억원이 투입됐다. 앞으로도 매년 500억원 이상을 투자해 AI 사업을 키울 계획이다.
기사 내용의 수치화, 인사이트 나누기
1. 벤치마크(성능 평가 지표) 25개 부문 중 13개에서 1위를 거머쥐었다.
2. 추론 처리 시간은 56%, 메모리 사용량은 35% 줄였다. 구동 비용은 72% 절감할 수 있다. 엑사원의 경량화·최적화에 집중하면서도 성능은 높이고 모델 크기는 100분의 3으로 줄이는 데 성공했다.
3. "윤리성·보안성을 평가하고자 레드팀 과정을 거쳤으며 내부 데이터셋과 제3자 데이터셋을 사용해 평가했다"
4. "데이터 6000만건 이상을 학습했는데 연말까지 법률, 바이오, 의료, 교육, 외국어 등으로 분야를 확장해 학습 데이터를 1억건으로 늘려 성능도 끌어올릴 것"
5. 자연어 입력만으로 파이썬·자바 등 프로그래밍 언어 22개를 활용할 수도 있다.
6. 이에 따라 LG AI 연구원에만 4년간 4500억원이 투입됐다. 앞으로도 매년 500억원 이상을 투자해 AI 사업을 키울 계획이다.
추가 조사할 내용 또는 결과
젬마
a. 구글이 2024년 2월 21일 공개한 초경량화 AI 오픈 모델. 개인 노트북과 데스크탑에서 사용하여 연구를 할 수 있으며, 외부 개발자 툴에서도 이용이 가능하고 IoT, 모바일, 클라우드와도 호환된다.
b. 캐글, 허깅페이스, 네모, 버텍스 AI를 통해 사용할 수 있다.
c. 구글의 최신 LLM인 제미나이와 동일한 연구 기술로 구축된 제품이다.
d. 제미나이의 경량화 버전이다.
e. 모델 크기에 따라 젬마 2B(20억개 매개변수), 젬마 7B(70억개 매개변수)로 출시됐다.
f. 개인정보와 민감 데이터를 데이터셋에서 자동 필터링하는 기술을 비롯해 인간 피드백을 기반으로 한 강화학습(RLHF)이 적용됐다.
제미나이
a. 구글이 2023년 12월 6일 공개한 LLM으로, 구글이 자체 개발한 TPU로 학습이 이뤄졌다.
b. 이미지 인식, 음성으로 말하거나 들을 수 있으며 코딩까지 가능한 멀티모달 AI로 만들어졌다.
c. 멀티모달은 시각, 청각 등을 활용해 텍스트뿐만 아니라 이미지, 음성, 영상 등으로 상호작용하는 것을 말한다.
d. 성능과 크기에 따라 울트라, 프로, 나노 3개 모델로 나뉜다.
엑사원 3.0
a. 메타의 라마 3.1, 구글의 젬마2와 비교해도 높은 경쟁력을 가진 LG의 오픈소스 AI 모델이다.
b. 기존 엑사원에서 최적화와 경량화를 진행했다.
c. 25개의 벤치마크 중 13개에서 1위를 차지했다.
d. 한국어 실제 사용성은 8.77점으로 구글 젬마(8점)를 제치고 1위를 차지했다. 영어 실제 사용성(57.5점)과 수학(57.1점), 코딩(59.7) 부문에서도 1위에 올랐다.
e. 추론 처리 시간은 56%, 메모리 사용량은 35% 줄였으며 구동 비용은 72% 절감할 수 있다. 모델 크기는 엑사원의 3/100이다.
f. 윤리성과 보안성을 평가하기 위해 레드팀 과정을 거쳤으며 내부 데이터셋과 제3자 데이터셋을 사용해 평가하여 성적 차별이나 불법적 답변을 하지 않아 우수하다.
g. 데이터 6000만건 이상을 학습했는데 연말까지 법률, 바이오, 의료, 교육, 외국어 등으로 분야를 확장해 학습 데이터를 1억건으로 늘릴 예정이다.
레드팀
a. 기업이 처할 수 있는 다양한 상황을 시뮬레이션을 통해 객관적으로 미리 예측하고, 취약점을 발견하여 전략을 되짚어보고, 대체 분석을 통해 의사결정자에게 새로운 통찰력을 제공하는 역할이다.
b. 시뮬레이션, 취약점 발견, 대체 분석 세 가지의 구체적 기능을 가진다.
요약
LG AI 연구원에서 엑사원 3.0을 출시했다. 메타와 구글의 오픈 AI 모델들과 비교해도 높은 경쟁력을 갖추었으며 25개의 벤치마크 중 13개에서 1위를 차지했다. 추론 처리 시간은 56%, 메모리 사용량은 35% 줄였다. 구동 비용은 72% 절감할 수 있다. 엑사원의 경량화, 최적화 버전이다. 모델 크기도 엑사원의 100분의 3이다. 레드팀 과정을 거쳐 성적 차별이나 불법적 답변을 하지 않으며 데이터 6000만건 이상을 학습했는데, 1억건까지 늘릴 예정이다. 임직원 대상으로는 엑사원 3.0 기반의 챗엑사원을 시범 운영한다. 질의응답, 검색/요약/번역/분석, 데이터베이스 관리, 코딩 업무 등을 지원하며 자연어 입력 만으로 22개의 언어를 활용할 수 있다. 또한 엑사원으로 LG 계열사와 외부 기업, 기관과 파트너십을 강화할 예정이며 학계, 스타트업과 협력을 확장할 예정이다.
현직자에게 할 질문
6000만건 이상의 데이터를 어떻게 확보했는지 궁금합니다.
모델을 개발하며 겪었던 어려움이 무엇인지 궁금합니다.
레드팀 과정은 어떻게 거쳤고 질문에 대합 답변의 정확도가 어떤지 궁금합니다.
연관기사 링크
https://terms.naver.com/entry.naver?docId=6722805&cid=43667&categoryId=43667
젬마
구글이 2024년 2월 21일 공식 홈페이지를 통해 공개한 초경량화 AI 오픈 모델로, 사용자는 개인 노트북과 데스크톱에서 젬마로 연구를 즉시 진행할 수 있다. 또 오픈 모델인 만큼 외부 개발자 툴에
terms.naver.com
https://terms.naver.com/entry.naver?docId=6714738&cid=43667&categoryId=43667
제미나이
구글이 2023년 12월 6일 공개한 차세대 거대언어모델(LLM) 기반 인공지능(AI)이다. 제미나이는 이미지를 인식하고 음성으로 말하거나 들을 수 있으며 코딩을 할 수 있는 능력까지 갖춘 멀티모달 AI로
terms.naver.com
https://www.lgbr.co.kr/report/view.do?idx=19236
편향을 저격하는 ‘레드팀(Red Team)’
www.lgbr.co.kr
'경제신문스크랩' 카테고리의 다른 글
경제신문스크랩 > 매일경제 > 730평 도금공정 라인에 단 두사람…부품마다 다른 열처리, DX로 관리 (0) | 2024.08.12 |
---|---|
경제신문스크랩 > 매일경제 > "6시간 이내 날씨, AI로 정확히 집어낼것" (0) | 2024.08.11 |
경제신문스크랩 > 매일경제 > 패닉셀 범인은 더 진화한 AI? (0) | 2024.08.07 |
경제신문스크랩 > 한국경제 > 인공지능이 딱 맞는 사이즈 추천…핏테크로 'e커머스 난제' 풀었다 (0) | 2024.08.06 |
경제신문스크랩 > 한국경제 > 사원번호 'DX#108282'…열 명치 몫 하는 정직원 정체는 (0) | 2024.08.05 |