반갑습니다. 투자하는 아재입니다. 오늘을 현재 OPEN AI의 Chat GPT가 공개되면서 전 세계의 주목을 받고 있는 AI의 특징과 역사를 살펴보고 AI모델을 구현하기 위한 각종 반도체 칩(Processor 및 Memory)과 종합 반도체 기업(IDM)인 삼성전자에 대해 이야기하겠습니다. 이글 하나로 AI와 반도체의 전체적인 개념 정리가 가능할 것으로 기대해 봅니다.
그렇다면 인공지능이라 불리는 AI는 무엇일까요?
인간의 학습능력과 추론능력, 지각능력 및 자연언어의 이해능력 등 지능적인 행동을 어떻게 기계 시스템에 적용할 수 있을지 연구하는 컴퓨터 과학의 한 분야입니다. 즉, 인공지능은 컴퓨터나 로봇과 같은 기계 시스템을 인간과 비슷한 방식으로 생각할 수 있게 합니다.
인공지능에게 어떠한 일을 주면 주위 환경에서 정보를 가져오고 분석하여 적절한 답을 선택합니다. 만약 실수를 했다면 다음번에 더 잘할 수 있도록 대안을 학습합니다.
인공지능은 머신러닝과 자연어 처리를 포함한 광범위한 기술을 나타내는 포괄적인 용어로 4차 산업의 초입인 오늘날에는 스마트폰과 가전제품은 물론 자율주행 자동차, 산업 제조, 의료, 로봇 등 다양한 분야에서 활용되고 있으며 앞으로 더욱 활용도가 높아질 것으로 예상됩니다.
그렇다면 인공지능의 특징에 대해 알아보겠습니다.
[인공지능의 특징]
1. 학습능력
- 기계, 장치인 디바이스(Device)가 스스로 생각하기 위해서는 머신러닝이 필요합니다. 여기서 머신러닝은 컴퓨터가 특정 작업을 수행하도록 프로그래밍되는 것이 아닌 기기가 스스로 데이터의 패턴을 식별하고 스스로 신뢰할 수 있는 결정을 하도록 학습한다는 개념입니다. 이러한 머신러닝을 통해 시간이 지날수록 점점 정확도는 향상됩니다. 또한, 머신러닝의 하위 개념으로 딥 러닝이 있습니다. 딥 러닝은 인간의 뇌 구조에서 찾은 알고리즘인 인공 신경망을 활용하여 대량의 데이터에서 패턴을 식별하는 것입니다. 딥 러닝은 이미지 분류와 자연어 분석 등의 핵심 요소로 현재 사람을 능력을 능가하여 번역은 물론 자율 주행 및 로봇 등의 각종 디바이스에 활용되고 있습니다.
2. 추론능력
- 어떠한 지식을 근거로 새로운 결정이나 판단을 통한 결론을 이끌어내는 추론 능력은 인공지능이 기존 데이터와 결과를 분석하여 새로운 판단을 하도록 합니다.
딥 러닝을 바탕으로 인간과 비슷하게 유연한 사고가 가능하게 되고, 인식한 대상 간의 상대적 관계에서도 판단할 수 있습니다. 이러한 능력은 단순한 작업부터 디자인, 작사, 작곡 등의 예술적 창작에 이르기까지 삶의 다양한 분야에 새로운 경험을 제공하고 있습니다.
3. 지각능력 및 자연언어 이해능력
- 인공지능은 주변 환경이나 사물을 사람처럼 인지할 수 있습니다. 현재 빠르게 발전하고 있는 두 가지 영역은 이미지 인식과 음성 인식입니다.
이미지 인식은 사물의 형태나 사람의 얼굴 표정뿐만 아니라 그 이면의 느낌과 맥락들도 빠르게 인식할 수 있도록 발전하고 있습니다. 이러한 인식 능력을 활용하면 완전히 새롭고 매우 사실적인 이미지를 생성할 수 있게 됩니다.
음성 인식 시스템은 딥 러닝을 통해 수십억 개의 단어는 물론 복잡한 구문이나 문장 구조를 분석할 수 있습니다. 최근 주목받고 있는 Chat GPT와 같은 AI 언어 모델은 사용자의 명령을 이해하고 이에 응답할 수 있습니다.
다음으로 인공지능의 역사에 대해 간략히 이야기하겠습니다.
[인공지능의 역사]
사실상 생각하는 기계에 대한 초기 연구는 30년대 후기부터 시작되어 인공지능은 1940년대에 논의되기 시작했고 1956년에 이르러 학문 분야로 들어섰습니다. 과거의 학자들은 사람만이 지능적인 일이 가능하고 기계가 지능적인 일을 하는 것은 불가능한 것이라 치부하였습니다. 하지만 "존 폰 노이만"은 1948년 기계가 생각하는 것은 불가능하다는 강의를 듣고 "당신은 기계가 할 수 없는 어떤 것이 있다고 주장한다. 만일 당신이 기계가 할 수 없는 것이 무엇인지를 정확히 이야기해 준다면, 나는 언제든지 그것을 수행할 수 있는 기계를 만들 수 있다"라고 말하였다고 합니다. 폰 노이만은 이미 '쳐지- 튜링 이론'을 언급하면서 모든 처리과정은 컴퓨터에 의해 시뮬레이션될 수 있다고 했다고 합니다. 여기서 튜링이론은 1950년 앨런 튜링의 생각하는 기계의 구현 가능성에 대한 분석이 담긴 논문으로 텔레프린터를 통한 대화가 사람인지 기계인지 구별할 수 없을 정도로 기계가 대화를 잘 이끌어 간다면, 이것은 기계가 생각하고 있다는 근거가 된다는 것입니다. 이 튜링테스트는 인공지능의 역사에 한 획을 긋는 최초의 심도 깊은 철학적 제안으로 평가받고 있습니다.
1951년, 매체스터 대학의 '페란티 마크'는 기계를 사용하여 크리스토퍼 스트레이(Christopher Strachey)는 체커 프로그램을 작성했고, 디트리히 플린트는 체스 프로그램을 작성했습니다. 이후, '아서 새뮤얼'에 의해 50년대 중반과 60년 대 초반에 개발된 체커 프로그램은 혁신적인 기술적 발전을 이루었습니다.
디지털 컴퓨터에 접할 수 있어진 50년대 중반, 몇몇 과학자들은 기계가 숫자를 다루듯 기호를 다루고 사람처럼 기호의 본질까지 다룰 수 있을 것이라 생각했습니다. 1956년에 열린 다트머스 콘퍼런스는 '마빈 민스키'와 '존 매카시', 그리고 IBM의 수석 과학자 '클로드 섀년'과 '나타니엘 로체스터'는 다트머스 콘퍼런스를 개최했습니다.'앨런 뉴얼'과 '허버트 사이먼'은 러셀과 화이트 헤드의 '수학 원리'에 나오는 52개의 정리 중 32개를 증명해 낸 '논리 이론'을 소개하였고 매카시는 AI(Artificial Intelligence)를 그들의 연구를 칭할 것을 제안하였습니다. 1956년 다트머스 콘퍼런스는 넓은 의미의 AI가 탄생하는 역사적인 콘퍼런스로 AI라는 이름, 목표점을 정립하였습니다.
다트머스 콘퍼런스 이후에 AI라는 새로운 영역은 급속도로 발전하기 시작하였습니다. AI 프로그램은 대수학 문제를 풀었고 기하학의 정리를 증명했으며, 영어를 학습했습니다. 몇몇 학자들은 이와 같은 기계의 '지능적' 행동을 보고 AI로 모든 것이 가능할 것이라 믿었으며, 완전한 지능을 갖춘 기계가 20년 안에 탄생할 것이라고 예측하였습니다. 같은 시기 ARPA(Advanced Research Projects Agency) 같은 정부 기관은 AI 분야에 돈을 쏟아부었습니다.
1963년 6월, MIT는 220만 달러를 고등 연구 계획국(Advanced Research Projects Agency - 후에 DARPA)에게 제공받았습니다. 자금은 민스키와 맥카시가 5년 전 설립한 "AI 그룹"이 포섭한 프로젝트 MAC에서 사용되었습니다. DARPA는 계속해서 매년 300만 달러를 70년대까지 제공하였습니다.
1970년대에 이르자, 높은 기대에 성과가 부진하자 AI는 비판의 대상이 되었고 재정적 위기에 봉착했습니다. 70년대의 AI 프로그램의 가능성은 제한적이어서 장난감 수준으로 치부되었고 근본적인 한계에 다다랐습니다. 이러한 한계는 몇십 년 지속되었습니다.
● 인공지능(AI)의 한계
* 컴퓨터 능력의 한계 : AI 학자들의 이론이나 논리를 연구하기에는 하드웨어적인 능력이 한계에 부딪쳤습니다. 메모리와 연산 처리 속도 및 능력에서 AI를 구현하기에는 한계에 봉착했습니다.
* 폭발적인 조합 수와 비용이성 : 1970년대의 장난감 수준의 AI는 간단한 문제의 최적의 답을 찾는데 상상할 수도 없이 많은 시간을 요구하였습니다.
* 상징적 지식과 추론 : 영상 처리나 자연어 처리와 같이 간단해 보이는 핵심적이고 중요한 AI 프로그램은 사실상 어마한양의 데이터와 정보를 필요로 합니다. 그래야 AI가 인간처럼 듣고 보고 학습하고 추론이 가능합니다. 이러한 요구와 과정은 아이가 세상을 알아가는 과정과 비슷하다고 합니다. 1970년대에는 어느 누구도 이러한 데이터가 포함된 데이터베이스를 만들지 못했습니다.
* 모라벡의 패러독스 : 인간이 어려워하는 이론을 제작하고 가하학적 문제를 해결하는 것은 컴퓨터의 세상에선 비교적 쉬운 일입니다. 하지만 인간이 쉽게 할 수 있는 얼굴을 인식하고 장애물을 피해 목적지에 도달하는 일은 컴퓨터에게는 매우 어려운 일입니다.
* 프레임 문제, 자격 문제 : 존 맥켄시와 같은 연구가들은 규칙이 스스로의 구조를 변경하지 못한다면 관련 계획이나 기본 추론을 할 수 없다는 것을 발견했습니다.
1980년대에는 전 세계적으로 '전문가 시스템'이 부각되었습니다. 이러한 '전문가 시스템'은 소규모의 지식의 영역에서는 스스로 제한점을 두어 상식적인 문제를 피했습니다. XCON이라 불리는 전문가 시스템은 디지털 장비 회사인 CMU에서 완성되었습니다. 이 시스템은 매년 4천만 달러를 절약시켜 주는 매우 큰 성과를 보였습니다. 전 세계의 회사들은 1985년에 1억 달러 이상을 AI에 사용하여 이를 개발하고 전문가 시스템을 배포하였습니다. Symbolics, Lisp Machines과 같은 하드웨어 회사와 IntelliCorp, Aion 등의 소프트웨어 회사들이 이를 지원하면서 같이 성장하였습니다.
이것은 1970년대의 AI 연구 기법에 새로운 방향을 일으켰습니다. “AI 과학자들은 지능이란 것이 다양한 방법들로 많은 양의 다양한 지식들을 사용하는 능력에 기반한 것이라고 생각하기 시작하였습니다. 지식 기반 시스템과 지식 엔지니어링은 1980년대 AI 연구자들의 주요 관심사였습니다.
1980년대에는 일반인들이 모두 알 만한 일상적인 사실들을 모두 포함한 아주 거대한 데이터베이스를 만들어 상식 문제에 대한 직접적 해결을 시도한 Cyc의 탄생을 볼 수 있었습니다. 이 프로젝트를 이끈 Douglas Lenat는 '컴퓨터가 인간의 개념을 알게 하기 위한 유일한 길은 그들을 가르치는 것이다. 이 프로젝트는 수 십 년 동안 완료될 것이라 생각되지 않는다. 지름길은 없다'라고 말했습니다.
80년대 AI의 성장은 다시 투자금의 유입으로 이어졌습니다. 1981년, 일본의 국제 무역상사와 산업 부서는 5세대 컴퓨터 프로젝트를 위해 8억 5천만 달러를 확보하여 연구하였습니다. 목적은 기계가 사람처럼 프로그램을 작성하고 대화를 수행할 수 있는 시스템과 언어를 번역하거나 그림을 해석하는 것이었습니다.
다른 나라들 또한 그들만의 고유한 프로그램을 개발하기 시작하였습니다. UK는 3억 5천만 달러를 들여 Alvey 프로젝트를 시작했고 미국 회사들은 AI의 거대한 프로젝트를 투자받기 위해 마이크로 전자공학과 컴퓨터 기술 협력이라는 형태를 취했습니다. 또한 1984년 ~ 1988년 사이에 DARPA는 전략적 컴퓨팅 계획을 설립하고 AI에 대한 투자를 세배로 늘렸습니다.
1982년 , 물리학자 John Hopfield는 완벽한 새로운 길에서 정보를 프로세스하고 배울 수 있는 신경망의 형태를 증명해 냈습니다. 이 시기에, David Rumelhart는 “역전파”라고 불리는 새로운 신경망 개선 방법을 알리고 있었습니다. 이러한 두 가지 발견은 1970년 이후 버려진 신경망 이론을 부활시켰습니다. 새로운 분야는 1986년 분산 병렬처리의 형태(GPU)로부터 영감을 받아 통일되어 기준이 됐습니다. 추후, 신경망은 1990년대에 광학 문자 인식 및 음성 인식과 같은 프로그램의 구동 엔진으로 사용되며 상업적으로 성공하였습니다.
하지만 1990년대 또다시 한계에 봉착하면서 1980년대 말에서 90년대 초에 이르러 투자금이 끊겼습니다. DARPA는 AI 투자를 끊고 즉각적인 결과를 나타낼 수 있는 프로젝트에 직접 투자를 하는 방향으로 선회했습니다. 다른 AI 프로젝트도 마찬가지로 큰 기대에 부합되지 못한 성과로 투자금은 다시 빠져나가기 시작했습니다. 이때 살아남은 연구원들은 AI의 암흑기를 'AI winter'이라 명하였습니다.
AI winter 기간의 첫 번째 사건은 1987년에 특성화된 AI 하드웨어 시장이 갑자기 무너진 것입니다. 1987년에 애플이나 IBM의 데스크톱 컴퓨터(PC)들은 급격히 빨라지고 성능이 좋아졌습니다. 또한 Symblics과 기타 회사들이 만든 기존의 비싼 Lisp 컴퓨터 기기들 보다도 더욱 좋은 성능을 나타내었습니다. 점점 Lisp 기기들은 효용성을 잃었습니다. 결국 최초로 성공한 '전문가 시스템'인 XCON은 유지비용이 너무 많이 들고 업데이트하기에도 너무 어려웠으며 학습도 되지 않는다는 한계점이 드러났습니다. 이 전문가 시스템은 특별한 경우에서만 유용할 뿐 일반적이지 않은 질문을 했을 때 괴상한 행동을 하는 일명 "brittle"일뿐이었습니다.
그러자 1980년대 후반 몇몇의 연구원들은 로봇 공학을 기반으로 AI(인공 지능)에 관한 새로운 접근을 시작하였습니다. 그들은 실제 인간의 지능을 보여주려면 기계 또한 사람처럼 이 세상에서 인식하고, 이동하고, 살아남고 거래할 줄 알 필요가 있기에 기계에도 몸통이 필요하다고 믿었습니다. 그들은 이런 감각 운동 기술은 상식적인 추론과 같은 더 높은 단계의 기술이 필요하다고 말하였습니다. 실제로 추론은 인간이 가지고 있는 특별하고 흥미로운 중요한 기술입니다. 또 다른 선구자인 David Marr는 모든 상식적인 접근법(McCarthy's logic and Minsky's frames)을 거절하며 AI는 시각에 대한 육체적인 기계장치를 씸볼릭 프로세싱하기 전에 가장 바닥에서부터 위로 이해할 필요가 있다고 말했습니다.
거의 한 세기 가량 연구해 오던 AI의 분야는 마침내 가장 오래된 목표 중 몇 가지를 달성했고 새로운 문제점도 부각되었습니다.
첫 째, 컴퓨터의 성능이 증가했습니다. 하드웨어의 발전은 AI의 실현적인 능력을 높여 주었습니다.
둘째, 고립된 문제들이 해결되었습니다. 물론, 비즈니스 분야에서의 AI의 평판은 여전히 좋다고 볼 순 없습니다. 하지만, 1960년대의 인간과 동일한 수준의 지능을 실현하겠다는 드높은 이상의 기대치가 현실적으로 낮춰졌습니다. 그로 인해 하위 파트에서 AI의 일부분을 도와주던 모든 요소들은 특정 문제나 접근 방식에 초점이 맞혀지게 되었습니다. 그 후, AI는 여태 해왔던 것보다 더욱 성공적으로 발전하였습니다.
셋째, 보안이 중요한 이슈로 떠올랐습니다. 인공지능의 보안이슈로는 학습된 인공지능을 속일 수 있는 공격형 태인 Poisoning Attack, Evasion Attack, 인공지능 모델 자체를 탈취할 수 있는 Model Extraction Attack, 학습된 모델에서 데이터를 추출해 내는 Inversion Attack 등이 있습니다.
1990년대 에는 '지능형 에이전트’라고 불리는 새로운 패러다임이 다 방면에서 확산되었습니다. 지능형 에이전트는 Judea Pearl, Allen Newell 등 다른 이들이 AI를 결정론과 경제성이라는 개념을 접목하기 전까지는 현대식 형태를 갖추지 못했습니다. 경제학자들의 합리적 에이전트라는 정의와 컴퓨터 과학자들의 객체 혹은 모듈러 정의가 합쳐졌을 때 지능형 에이전트의 패러다임이 완성될 수 있었습니다.
지능형 에이전트 시스템은 환경을 인식하고 성공을 가장 극대화할 수 있는 행동을 취합니다. 지능형 에이전트의 정의는 인간과 인간의 조직처럼 (회사처럼) 특정 문제를 해결하는 간단한 프로그램을 지능형 에이전트라고 합니다. 이것은 인간의 지능을 넘어 모든 종류의 지능의 연구를 추구합니다.
이러한 패러다임은 당시 연구자들이 고립 문제에 대해 연구하고 다양하고 유용한 해결법을 찾도록 해주었습니다. 또한 서로서로 문제와 해결책을 공통의 언어로 표현하였고 추상적 에이전트를 사용한 경제학이나 제어 이론 등과 같은 다른 개념에도 사용되었습니다. 어떤 연구자들은 지능형 에이전트의 상호 작용에서 더 다양하고 지능적인 시스템을 만들기를 바랐고 완전한 에이전트 아키텍처가 되기를 바랐습니다. 이것은 21세기의 보편적인 교과서들이 인공 지능을 정의하는 방식입니다.
현재의 AI 연구자는 과거에 사용했던 것보다 더욱 정교한 수학적 도구를 사용하여 개발하기 시작했습니다. 이러한 공유된 수학적 언어는 높은 수준의 협력과 좋은 평판을 이끌어내어 여러 분야를 성공적으로 이끌고 측정과 증명이 된 결과들의 성취를 가능하게 하였습니다.
현재, AI를 구현하는 데 있어 가장 혁신적인 영향을 미친 것은 하드웨어적인 발전을 들 수 있습니다. 1980년대 IBM의 PC(Personal Computer)의 등장은 AI의 성장 과정을 살펴보면, 컴퓨터의 발달과 연산 능력의 변화와 함께 했습니다.
과거 CPU(직렬 연산)의 한계를 느낀 AI 프로그램은 좀 더 혁신적인 병렬연산이 가능한 칩을 원했고, 현재, 그 역할은 GPU의 몫이 됐습니다.
삼성전자는 종합반도체(IDM) 기업으로 메모리와 파운드리를 넘나드는 다양한 제품과 기술을 통해, 다양한 응용처에서 인공지능의 발전의 기반을 마련하기 위해 노력하고 있습니다.
현재, 전 세계가 열광하고 있는 CHAT GPT와 같은 생성형 AI 수준의 초거대 AI를 구현하기 위해서는 엄청나게 많은 데이터를 빠른 속도로 처리해야 합니다. 따라서 기존 컴퓨팅 구조를 뛰어넘는 좀 더 새로운 패러다임의 연산 처리와 메모리 칩 기술의 필요성이 대두되었습니다.
[메모리(Memory)]
AI 전용 연산처리 칩인 GPU와 함께 HBM(High Bandwith Memory) 메모리 칩이 부각되고 있습니다. 여기서 HBM은 고대역폭 메모리, 초고속 메모리라 불리며 기존의 메모리 다이를 적층 하여 실리콘 관통전극 TSV(Through Si Via) 패키징 기술을 적용하여 주 연산 처리 장치와 통신을 하는 메모리 칩입니다. HBM은 기존 GDDR계열과 SGRAM에 비교하여 전력 소모도 낮을뿐더러 메모리 적층을 통해 다양한 대역폭을 구현할 수 있다는 장점이 있습니다. 또한, PCB와 같은 기판에서 메모리 칩이 차지하는 비중을 줄여 기존의 GDDR과 SGRAM대비 성능밀도가 높다는 장점을 가지고 있습니다. 하지만, 높은 구현 난이도로 인한 수율 문제와 가격문제와 좋지 않은 내구성은 HBM이 극복해야 할 과제입니다. 또한, 칩의 적층에 따른 방열 문제는 낮은 오버 클럭 마진을 기인합니다. 따라서 일반 소비자용 그래픽카드에 적용되는 GDDR과 SGRAM을 완전히 대체하기에는 한계점이 있어 서서히 활용도가 높아질 것으로 예상됩니다.
규격 | 총 채널 구성과 스택당 다이 구성 | 스텍당 최대 용량 | 스택당 버스 폭 | 전압 | 클럭 (비트레이트) |
채널당 I/O 데이터 전송률 |
스택당 대역폭 |
개발 (표준화) |
상용화 | |
HBM | 8 채널 × 128-bit × 4-Hi | 4 GB | 1024-bit | 1.3V | 500 MHz (1 Gbps) |
1 GT/s | 128 GB/s | 2013년 (2013년) |
2015년 | |
HBM2 | 8 채널 × 128-bit × 8-Hi | 8 GB | 1024-bit | 1.2V | 1000 MHz (2 Gbps) |
2 GT/s | 256 GB/s | 2015년 (2016년) |
2016년 | |
HBM2E | 8 채널 × 128-bit × 12-Hi | 24 GB | 1024-bit | 1.2V | 1200 MHz (2.4 Gbps) |
2.5 GT/s | 307 GB/s | 2019년 (2018년) |
2020년 | |
HBM3 | 8 채널 × 128-bit × 16-Hi | 64 GB | 1024-bit | 1.1V | 3200 MHz (6.4 Gbps) |
6.4 GT/s | 819 GB/s | 2021년 (2022년) |
2023년 | |
HBM3E HBM3P |
5세대 HBM을 SK하이닉스는 HBM3E로 삼성전자는 HBM3P로 명명하고 있습니다. 23.08.22 기준, SK 하이닉스가 샘플 성능 검사 중(엔비디아) | 1.15 TB/s 이상(예상치) | 2023년 |
일반적으로 HBM은 GDDR을 대체하는 용도로 활용되고 있습니다. 일반적인 비교 기준은 아래와 같습니다.
HBM VS GDDR5 SGRAM
HBM2 VS GDDR5 X SGRAM
HBM2E VS GDDR6, GDDR6X SGRAM
현재, GPU에서 독보적인 점유율 80% 이상을 차지하고 있는 Nvidia는 RTX40 시리즈에 SK 하이닉스의 HBM3를 탑재하고 있습니다.
이로 인해 현재, HBM 시장 점유율은 SK하이닉스가 점유율 50%로 삼성의 40%보다 근소하게 앞서있습니다. 하지만 캐시플로우(현금 동원능력)에서 앞선 삼성의 투자 확대폭이 SK보다 앞설 것이기에 근시일 내 삼성의 약진을 기대해 봅니다.
더욱이 삼성전자는 설계에서 패키징, 그리고 메모리까지 반도체 전공정이 가능한 종합반도체 IDM 기업으로 HBM-PIM(Process In Meomry)과 CXL-PNM(Process Near Memory) 기술을 활용하여 경쟁자들의 추격의 차이를 더욱 벌릴 것으로 생각됩니다.
[HBM-PIM]
HBM-PIM은 HBM(High Bandwith Memory)이 직접적으로 간단한 연산 기능을 할 수 있도록 설계하여 주 연산 처리 칩(CPU, GPU)과 연산 처리과정을 분권형으로 바꾼 제품입니다. 그동안의 주 연산 처리 칩에 집중되었던 기존 구조(아키텍처)를 바꾸어 메모리에서도 일부 연산을 행함으로 전반적인 데이터 처리의 속도와 양을 비약적으로 향상할 수 있는 차세대 메모리 기술입니다.
더욱이 최근 부각되는 생성형 AI(CHAT GPT)에 활용되는 언어 모델의 경우, 전체 연산 기능의 80% 이상을 PIM을 적용하여 가속할 수 있는 것으로 예측되고 있습니다. 자체 AI 모델 개선효과를 시험한 결과 기존 HBM과 GPU를 활용했을 때 보다 성능이 3.4배 이상 향상됨을 확인하였습니다.
[CXL-PNM]
CXL-PNM(Process Near Memory) 또한 HBM-PIM과 마찬가지로 메모리 반도체에 연산 기능을 탑재한 기술로, 연산 기능을 메모리 근처에 위치시켜 주 연산칩(CPU, GPU)과 메모리 간 데이터 이동을 감소시켜 병목현상을 줄여 주 연삽 칩의 기능을 극대화하는 역할을 합니다.
여기서 CXL(Cpmputer express link)은 인터페이스를 활용하여 메모리와 주 연산칩과의 데이터 전송폭과 지연 시간을 줄여 성능을 향상한 고성능 메모리를 말합니다.
CXL기반의 PNM 설루션은 메모리 용량 추가가 용이한 CXL 인터페이스를 활용하여 기존 GPU 대비 4배 용량을 제공할 수 있습니다. 다양한 고객 니즈에 맞는 AI 모델을 한 번에 처리하는데 적합하며, 초거대 AI모델에도 활용 가능합니다. 또한, PCle(다양한 하드웨어를 연결하는 인터페이스) 인터페이스를 사용했을 때 기존대비 AI 모델의 로딩 속도도 2배 이상 빨라지는 효과가 있습니다.
삼성전자는 위의 HBM-PIM, CXL-PNM 설루션을 지원하는 소프트웨어와 실행 방법, 성능 평가 환경 등을 오픈 소스로 공개하여 AI 메모리 생태계 확장을 위한 노력을 지속해 나가고 있습니다.
[연산처리 기술(AP, NPU)]
삼성전자의 엑시노스 프로세서는 더욱 강력하고 효율적인 온 디바이스 AI를 위해 첨단 신경망처리장치인 NPU를 탑재하고 LPDDR5등의 메모리 설루션은 AI 시스템 구현에 필요한 고성능 프로세싱에 최적화 됐습니다. 여기서 LPDDR은 Low Power DDR의 약자로 극단적인 저전력을 목표로 만든 모바일용 DDR을 의미합니다. 노트북, 스마트 폰등의 휴대용 장비에 활용하기 위해 기존 DDR SDRAM에 여러 변형을 가하여 총 전력 소모량을 낮춘 메모리입니다.
여기서 NPU는 기존 GPU를 보완한 신경처리 장치로 Neural Processig Unit의 약자입니다.
그렇다면, CPU, GPU, NPU와 같은 프로세싱 칩(Processing Chip)들은 무엇일까요? 그리고 AI에는 왜 GPU가 사용될까요?
CPU(Centralized Processing Unit)
유연한 계산능력이 장점인 폰노이만 아키텍처 기반으로 순차적인 직렬 실행으로 계산 결과가 다음 계산 결과에 유기적인 연계가 가능합니다. 여기서 CPU의 문제는 모든 계산결과가 순차적인 직렬 실행을 위해 메모리나 캐시 중 어디엔가는 반드시 저장되어야 한다는 것입니다. 클럭을 높여서 처리 속도를 빠르게 하더라도 높아진 클럭만큼만 더 할 수 있습니다. 이후 CPU의 발전은 코어의 개수를 늘리는 방향으로 이루어졌습니다. 요약하면 CPU는 복잡한 프로그램을 최대한 빠르게 실행할 수 있도록 범용 계산을 효율적으로 실행하는 것에 중점을 둔 프로세서입니다. 어떠한 형태의 복잡한 프로그램도 효과적으로 수행할 수 있는 프로페셜 한 전문가지만 그만큼 개별 연산 비용이 큽니다. 또한 순차적으로 직렬 연산을 하기에 한 번에 병렬로 연산하는 GPU에 비해 연산 속도가 느리다는 단점을 가지고 있습니다.
GPU(Grapic Processing Unit)
초기에는 그래픽 처리와 같은 단순한 대량의 연산을 CPU에서 독립시키기 위해 Co-Processor로 출발하였습니다. CPU 코어의 복잡한 구조를 단순화하여 개별 연산 비용을 극단적으로 낮추고 대신 단순한 코어를 대량으로 집적하여 단순 연산을 병렬로 빠르게 처리합니다. 여기서 처리할 그래픽의 빛과 관찰자의 위치에 따라서 수많은 vector space conversion(이미지를 직접 생산하는 컴퓨터 그래픽의 한 종류)이 발생하게 됩니다. 이에 따라 화면에 출력할 픽셀의 위치와 색상을 계산하는 함수인 쉐이더와 질감과 재질을 표현하기 위한 텍스쳐 연산과 모니터에 뿌려주기 위한 픽셀 렌더링이 엄청나게 발생합니다. 이러한 연산들은 앞의 CPU에 비하여 엄청나게 많은 부동 소수점 곱셈 연산(소수점이 있는 두 개의 숫자 간의 곱셈)을 발생시킵니다.
* 부동 소수점 : 컴퓨터에서 실수를 표시하는 방법으로 하나의 수를 고정 소수점 부분을 나타내는 가수와 고정 소수점 위치를 나타내는 지수로 나누어 표기하는 방식으로 고정 소수점 방식에 비해 넓은 영역의 숫자를 표현할 수 있어 과학적 분야에 많이 응용됨
그렇다면 AI에는 왜 GPU를 사용할까요?
AI 추론이나 학습을 할 때 핵심적으로 필요한 연산은 매트릭스 합성곱(convolution, 중첩 적분) 연산입니다. 이러한 합성곱 연산을 통해 이미지에서 필터가 지정한 방향에 따른 경계선 모양을 대략적으로 알아낼 수 있습니다. 이러한 작업을 딥러닝에서는 feature extraction(패턴 인식 알고리즘을 이용하여 물체를 구별하는 방법)이라고 합니다. 여러 번의 합성곱 연산을 통한 feature map(연산을 통해 나온 결괏값)을 정답과 최대한 비슷하게 각 필터의 가중치를 수정해 나가는 것이 딥러닝 모델의 학습 과정입니다.
이미지 한 장에서 사람과 동물과 사물 등의 객체를 뽑아낼 때, 엄청 많은 횟수의 convolution(중첩 적분)이 발생됩니다. convolution 연산은 그 자체로 매우 많은 횟수의 곱셈으로 이루어집니다. 이러한 단순한 연산에 어떤 연산도 프로페셜하게 해결할 수 있는 전문가지만 값이 비싼 CPU를 사용하는 것은 비효율적일 것입니다. 이것은 마치 인형 공장에서 인형의 눈 10만 개를 붙이는 일을 컴퓨터 공학 박사에게 시키는 것과 같은 것입니다.
NPU(Neural Processing Unit)
인간처럼 생각하는 인공 신경망 구조인 Neural Network 구조를 활용하여 빅데이터에 수집된 방대한 정보를 처리하는 목적에 특화된 프로세서입니다. 구글에서 개발한 NPU를 TPU(Tensor Processing Unit)이라고도 불리며 Nvidia의 Tensor core, 애플의 Neural Engine 등의 브랜드 이름으로 불리기도 합니다. AI 모델에서 GPU는 그래픽 연산에 최적화된 구조로 학습에는 효과적이지만 추론에는 비효율적인 문제를 가지고 있습니다. 그 이유는 학습에는 부동 소수점 연산 방식이 유리하지만 추론에 있어서는 정수 연산이 필요하기 때문입니다. 개인적으론 AI가 발전해 가면서 고성능 NPU의 활용도가 점차 늘어날 것으로 생각됩니다. CPU나 GPU에 비해 저전력이고 연산 처리 속도가 빠르고 작다는 장점을 가지고 있으나 현재, 애플과 테슬라를 제외하면 NPU를 통해 큰 실적을 내는 회사는 없고 자체 NPU보다는 GPU에 의존하고 있는 상황입니다.
뉴로모픽 칩(Neuromorphic Chip)
인간의 사고 과정과 유사한 방식으로 정보를 처리할 수 있도록 인간의 뇌신경 구조를 모방하여 만든 반도체 칩을 가리킵니다. 사전적으로는 '신경의 형태를 가진 칩(neuromorphic chip)'이라는 뜻입니다. 1990년대에 뇌과학의 발전으로 뉴런(neuron; 신경세포)과 시냅스(synapse; 뉴런과 뉴런 사이를 이어주는 연결고리)의 신호전달 방식이 트랜지스터의 동작 특성과 유사 점을 반도체 기술로 구현하려는 움직임이 일어나면서 2000년대 말부터 뉴로모픽 칩 개발이 시작되었습니다.
기존의 컴퓨터 설계 구조인 '폰 노이만 구조'의 반도체는 연산을 담당하는 장치(CPU, GPU, NPU)와 정보를 저장하는 장치(메모리)가 별도로 존재하기 때문에 대량의 정보를 순차적으로 처리하는 과정에서 병목현상이 발생하여 처리 속도가 지연되고 막대한 전력이 소모되는 구조적 한계를 지닙니다. 하지만 수천 억 개의 뉴런과 이들 사이를 모든 방향으로 연결하는 병렬구조의 시냅스 수백 조 개로 이루어진 소자로 구성된 뉴로모픽 칩을 이용하면 방대한 정보를 적은 전력으로 효율적이고 신속하게 처리할 수 있게 됩니다. 하나의 칩으로 연산과 저장은 물론 자율적 학습을 동시에 수행할 수 있게 됩니다.
이러한 이유로 모든 사물이 연결되고 지능화되는 인공지능(AI) 시대에 인지·학습·추론·예측·판단 능력을 갖춘 인공지능의 본격적인 활용을 위하여 필수적인 반도체라 할 수 있습니다. 아직은 하드웨어적으로 상용화 까지는 많은 발전을 거듭해야 할 것이지만, 궁극적으로 뉴로모픽 칩은 4차 산업 전반에 폭넓게 사용되어 4차 산업 혁명을 견인할 핵심 반도체 칩으로 성장할 것으로 생각됩니다.
* 일부에서는 NPU와 뉴로모픽 칩을 혼용해서 사용하는 경우가 있으나 뉴로모픽은 기존의 '폰 노이만 구조'를 탈피한 반도체 칩이라는 근본적인 차이가 있습니다.
앞에서 삼성전자는 자체 프로세서인 엑시노스에 NPU를 탑재했다고 했습니다. 하지만, 2017년 이후 엑시노스 AP(모바일용 프로세서)의 성능 문제와 발열 문제로 삼성전자는 매번 실패의 쓴 맛을 봐야 했습니다. 현재의 AP 시장은 매출기준 1위 퀄컴 44% , 2위 애플 23%, 3위 미디어텍 22%, 4위는 삼성으로 8%의 점유율을 보이고 있습니다. 시장 점유율은 1위 미디어텍 39%, 2위 퀄컴 29%, 3위 애플 14%, 4위 UNISOC 11%이며 삼성은 6%로 5위를 차지하고 있습니다.
여기서 시장 점유율과 매출 점유율이 차이가 나는 것은 퀄컴과 애플의 프리미엄 AP의 비중이 미디에텍을 비롯한 타기업보다 월등히 높기 때문입니다.
개인적인 바람은 내년, 24년에 나올 엑시노스 2400(예상 명칭)이 그동안 부진을 씻고 AP 시장에서의 도약을 통해 한층 더 높은 IDM기업으로 성장하길 바라봅니다.
삼성전자는 파운드리 분야에서의 점유율 확보를 위해 8인치 웨이퍼를 중심으로 한 CMOS(이미지 센서)와 DDI(디스플레이 구동칩)를 대만의 UMC와의 OEM(위탁 생산) 계약을 통해 생산하고 있습니다. 이것은 삼성전자의 '선택과 집중'의 전략으로 삼성은 7 나노 이하의 첨단 미세 공정에 집중하여 TSMC와의 기술적 경쟁을 승리로 이끌고 부족한 점유율 차이도 극복하겠다는 의미로 생각됩니다.
또한, 삼성전자는 종합반도체(IDM) 기업으로써의 타 칩메이커들이 하기 어려운 반도체 칩의 설계, 제조, 패키징을 하나로 묶는 Turn-key 방식으로 공급을 시작했습니다. 얼마 전 미국의 IP 및 전자 설계 자동화(EDA) 기업인 케이던스가 다음 달 5일(23'09.05) 서울에서 개최하는 '케이던스 라이브 코리아' 콘퍼런스에 삼성전자의 최고 등급인 플래티넘 스폰서로 참여할 것이라 합니다. 삼성전자는 현재 4,000여 개의 IP기업들과 협업을 맺고 있습니다. 물론, 경쟁사 TSMC는 3만 개 이상의 IP 기업과 협업 중으로 삼성전자와는 큰 차이를 보이지만 삼성전자는 지속적으로 IP(설계자산) 기업들과의 협력 확대를 통해, 삼성전자 만의 반도체 생태계를 구축하고 다양한 사업 포트폴리오에서 나오는 막각한 캐시플로우(잉여현금흐름)를 통하여 규모의 경제의 반도체 산업에서의 입지는 더욱 강화될 것으로 생각됩니다.
삼성전자의 건승과 여러분의 성투를 기원합니다.
'반도체, 삼성전자' 카테고리의 다른 글
내 손 안의 AI, 엣지 환경에서의 온 디바이스 AI 시장의 최종 승자는? & Metaverse (2) | 2023.10.31 |
---|---|
애플과 엔비디아를 둘러싼 TSMC, 인텔, 삼성전자의 반도체의 패권 전쟁의 맞침표는? (4) | 2023.10.04 |
[기업분석]대한 민국의 미래를 이끌어갈 IP기업, 한국의 ARM "오픈엣지테크놀러지" (0) | 2023.07.08 |
반도체 패키징 공부 이걸로 끝! 국내 후공정 패키징 업체 네패스 & 네패스 라웨, 네패스 아크 (3) | 2023.02.23 |
흔들리는 TSMC의 파운드리 패권 (2) | 2023.02.22 |
댓글