Company

메타가 눈독들인 반도체, 퓨리오사

medman 2025. 3. 3. 17:51

※ 본 포스팅은 의료산업 학습과 기록을 목적으로 작성되었으며, 투자 권유를 의미하지 않습니다 

https://furiosa.ai

 

FuriosaAIㅤ

The most efficient data center accelerator for high-performance LLM and multimodal deployment.

furiosa.ai

 

퓨리오사 AI는 2017년 백준호 대표와 김한준 CTO가 공동창업한 지능형 반도체의 펩리스 회사이다. 엔비디아의 GPU와 성능에 대한 이슈가 전세계의 주목을 끄는 한편, 이를 대체할 차세대 기업들도 하나둘 덩치를 키우고 있다. 그중 퓨리오사는 AI를 효율적이고 고성능으로 처리할 수 있는 지능형 반도체를 다루는 기업이다.


퓨리오사의 하드웨어

2021년, 컴퓨터 비전 연산에 특화된 첫번째 제품인 'Warboy'를 출시하였다. 이미지의 복원이나 압축, 온라인 스트리밍이나 컨텐츠의 배포 같은 분야에서도 활용되고 있다. 당시 MLPerf(기계 학습 모델의 구축 및 활용 성능을 정량 평가하는 기준)에서도 엔비디아의 A2 칩보다 우수한 성능을 기록하였다.

구체적인 성능은 위와 같다. 현재는 Gen 1 Vision NPU라는 이름으로 변경되어 전개되고 있다.

이후에는 2세대 AI 칩인 RNGD를 발표하였다. 세부적으로는 RNGD-S, RNGD, RNGD-MAX의 3개의 제품군이 있지만, 이중에는 아직 RNGD만 출시된 상태이다. 나머지는 2025년 중으로 출시할 예정이다. 이 모델은 차세대 AI 에이전트를 위한 추론형 가속기로 볼 수 있다. 복잡한 추론이나 컴퓨팅에 필요한 성능형이라는 것...

 

위에서 볼 수 있듯이 TSMC의 5nm 공정을 통해 생산하고 있으며, HBM3도 탑재하고 있다. 최신 기술 잔뜩.

최상위 추론용 AI 칩으로 유명한 L40S와 성능은 비슷함에도, TDP(전력 소모량)이 150W로 L40S의 350W보다 훨씬훨씬 효율적이다. 1세대였던 Warboy보다도 300%나 전력 효율이 개선되었다. 지금 세계적으로 데이터센터를 확장중이고, 막대한 투자와 함께 전력 발전소까지 지어지는 상황에서 이러한 성능은 주목해야 할 것이다.


퓨리오사의 소프트웨어

AI 반도체의 경우, 단순히 하드웨어를 잘 설계한다고 성능이 좋은 것이 아니다. 하드웨어와 소프트웨어가 잘 연동되어서 모델의 연산이 제대로 이루어져야 한다. 이때 SW 스택을 최적화하는 것이 필요한데, 대규모 기업들에게도 복잡한 고난도의 기술이라고 한다. 이러한 상황에서 퓨리오사는 NPU에, 직접 개발한 'Furiosa SDK'를 탑재하여 제한다.

퓨리오사 AI는 2025년 2월 27일, Furiosa SDK 2025.1.0 버전을 발표하였다. 2024년 첫 모델을 발표한 이후, LLM의 배포를 위해 사용 환경을 계속해서 개선하고 있다. 메모리의 효율성도 향상할 뿐만 아니라, LLM의 추론 속도를 최적화하여 지연 시간을 개선한다. 이처럼 전체적인 AI의 추론 성능을 극대화하기 위해 하드웨어와 소프트웨어의 최적화가 병행되고 있음을 알 수 있다.


백준호 대표

 

헤어스타일부터 행보까지 굉장히 인상적인 분이다.

 

 

서울대학교 전기전자공학부 중퇴

미국 조지아공대 전기공학부 학사, 석사

 

2010년 2월 ~ 2012년 11월: AMD Software Engineer

2013년 1월 ~ 2016년 5월: 삼성전자 HW Engineer

2017년 1월 ~ 현재: Furiosa AI CEO

 

가장 인상적인 점은 회사의 이름과 제품을 '매드맥스'에서 따왔다는 점이다...

인터뷰에 따르면, "기득권에 저항하여 주인공만의 이상향을 쫓는 모습이, 기존 조직(엔비디아?!)에 위협을 가한다는 점에서 돋보였다." 라고 한다.

그래서 인텔이나 엔비디아에 위협적인 강력한 스타트업으로 성장하겠다는 포부를 보이고 있다.

제품 이름도 Warboy 워보이라는게 강렬하다. 이런 덕후들이 성공한다는 설정은 전세계적으로 만연하다!!


메타와의 인수 협상

메타는 25년, AI에 최대 650억 달러를 투자하고, 100만 개가 넘는 GPU를 배치하겠다고 발표했다. 이러한 상황에서 효율적이고 운용 비용을 절감할 수 있는 기업에 대한 관심도는 자연스레 올라갔을 것이다.

 

지난 2월, 포브스에 따르면 메타에서 퓨리오사 AI의 인수를 논의 중이라고 보도하였다. 엔비디아 칩의 의존도를 낮추면서 자체 LLM에 최적화된 반도체를 개발하기 위함으로 보인다. 메타는 최근 'MTIA'라는 AI 칩을 자체 개발하였지만, 기대한 성능이 나오지 않아 아직 엔비디아에 의존하고 있다고 알려진다. (물론 AI 가속기 시장에서 엔비디아가 80%의 점유율이긴 하다.)

 

이러한 상황에서 퓨리오사의 RNGD는 엔비디아를 대체하고 메타에게 걸맞는 이상적인 선택이 될지도 모른다. 엔비디아의 독주 체제를 막고, 새로운 경쟁사가 되어 AI 반도체 시장을 다시 한 번 흔드는 것이다. 국내 반도체 기술력이 입증되면 추가적으로 여러 기업들이 수혜를 입을 가능성도 있다. 현재 퓨리오사 AI의 기업 가치는 8000~9000억 원 정도로 평가받고 있다. 두 기업 간의 협상은 2월달 내에 마무리될 가능성이 있다는 기사가 나왔으나, 현재까지 진전된 후속 보도는 확인되지 않는다.

 

그런데, 2월 27일, IT 업계에 따르면 TSMC 글로벌에서도 퓨리오사에 대한 투자를 검토하고 있다고 한다. 아직 구체적인 투자 규모나 조건은 확정되지 않았지만, 위에서 언급했듯 TSMC 공정을 사용하고 있는 만큼 기술력은 인정받고 있는 상황이다. 이렇게 메타와 TSMC의 인수, 투자가 성사되면 앞으로 반도체 시장이 변화하는 모습을 관찰할 수도 있겠다.


Medman's view

 

당연히 국내에서는 아쉬워하고 기술 이전을 막아야한다는 이야기도 나왔다. AI를 국가 산업으로 확대하고, 현재 선두적인 기술을 갖고 있는 최고의 기업을 외국에 팔아넘길 수밖에 없는 건 슬픈 일이다. 그럼에도 국내 투자는 원하는 규모만큼 이루어지지 않기에, 어쩔 수 없는 상황이다. 미국이나 중국에서는 이러한 AI 반도체 개발 업체에 크게는 조 단위로 투자 받는데, 우리나라에서는 2,000억원의 투자금도 받지 못했다. 우리나라 정부에서도 AI에 몇 조 단위로 투자하겠다~ 선진 국가가 되겠다~ 하지만 실질적으로 기업들 하나하나에 들어가는 지원 금액은 수십억 원 단위라고 한다. 이런 상황에서 국가 기술이 유출되지 않기를 뻔뻔하게 바라도 될까? 한국에서 AI 유니콘이 등장하기 위해서는 차별화된 경쟁력 있는 기업의 등장도 필요하지만, 이 분야를 훨씬 진지하게 바라보며 지원하기 위한 최선을 다하는 국가적인 변화가 더 필수적일 것 같다.


AI agents 시대

https://furiosa.ai/blog/ai-agents-explained-core-concepts-and-key-capabilities

(Chat GPT와 함께 위의 링크를 공부해보앗다.)

기존의 LLM AI agents
단순히 입력된 질문에 대한 응답을 생성하는 방식 동적으로 환경을 인식하고, 목표를 달성하기 위해 스스로 계획을 세우고 실행하는 능력을 가짐

Inference 시대의 도래

  • 기존에는 LLM을 더 크게 만들고 학습 데이터를 늘리는 방식으로 AI 성능을 개선했음.
  • 하지만 데이터 부족 문제 훈련 비용 증가로 인해 기존 접근 방식이 한계에 봉착.
  • 이제는 학습(training)보다는 추론(inference) 과정에서 성능을 높이는 것이 중요해짐.
  • AI Agents는 여러 모델을 동시에 활용하며, 더 많은 추론 계산이 필요함.

AI Agents의 구조

1) Orchestration Module (오케스트레이션 모듈)

  • AI Agent의 두뇌 역할을 하며, 전체적인 문제 해결 과정을 관리한다.
  • 목표를 분석하고, 작업 계획을 세우고, 실행을 모니터링한다.
  • 여러 개의 AI 모델과 도구를 적절히 조합하여 최적의 해결책을 찾는다.
  • 예를 들어, 길을 찾는 AI Agent라면 지도 API, 날씨 정보, 사용자의 일정 등을 종합하여 최적의 경로를 제시할 수 있다.

2) AI Models (AI 모델)

  • AI Agent의 인지 및 추론 엔진 역할을 한다.
  • 다양한 분야에 특화된 여러 개의 모델이 함께 사용될 수 있다.
  • 예를 들어,
    • 텍스트 이해를 위한 언어 모델
    • 이미지 인식을 위한 컴퓨터 비전 모델
    • 의사 결정을 위한 강화학습 모델 등이 있을 수 있다.
  • 단순한 LLM 하나로 모든 것을 처리하는 것이 아니라, 여러 모델을 조합하여 더 정밀한 분석과 실행이 가능해진다.

3) Tools (도구들)

  • AI Agent가 외부 세계와 상호작용할 수 있도록 도와주는 인터페이스 역할을 한다.
  • 데이터 검색, 계산, API 호출, 파일 시스템 접근 등의 기능을 수행한다.
  • 대표적인 AI Agent 프레임워크인 LangChain AutoGen 등을 활용하여, 실시간 정보 검색 및 분석이 가능하다.
  • 예를 들어,
    • 날씨 정보를 가져오는 API
    • 특정 문서를 검색하는 검색 엔진
    • 금융 데이터를 분석하는 계산 엔진 등이 사용될 수 있다.

AI Agents가 성능을 높이는 방식

(1) Chain-of-Thought (CoT)

  • 인간이 논리를 전개하는 방식처럼, 단계별로 사고 과정을 적용하는 기법.
  • 예를 들어, "345 × 12 = ?" 같은 문제를 해결할 때, 한 번에 답을 내놓는 것이 아니라,
    1. "345 × 10 = 3450"
    2. "345 × 2 = 690"
    3. "3450 + 690 = 4140"
      이렇게 중간 과정을 거쳐 더 정확한 답을 도출하는 방식.
  • 복잡한 문제일수록 이 방법이 유용하며, LLM의 정확도를 크게 높여줌.

(2) Tree-of-Thoughts (ToT)

  • Chain-of-Thought이 단선적인 사고 방식이라면, ToT는 여러 가지 해결 방법을 동시에 탐색하는 방식.
  • 인간이 문제를 해결할 때 한 가지만 시도하지 않고, 여러 방법을 비교하며 최적의 방법을 선택하는 것과 유사.
  • 예를 들어, 미로 찾기 문제를 해결할 때,
    • 한 경로만 따라가는 것이 아니라,
    • 여러 갈림길을 동시에 탐색하며 가장 빠른 경로를 선택하는 방식.
  • AI가 더 창의적이고 효율적인 해결책을 찾을 수 있도록 도와줌.

(3) ReAct (Reasoning + Acting) 프레임워크

  • 사고(Reasoning) → 행동(Acting) → 관찰(Observing) → 반성(Reflecting)을 반복하면서 문제를 해결하는 방법.
  • 인간도 어떤 문제를 해결할 때, 추론하고 행동하며 결과를 보고 수정하는 과정을 거침.
  • 예를 들어, 요리를 처음 해보는 사람이 레시피를 보고 (Reasoning), 조리하고 (Acting), 맛을 보고 (Observing), 부족한 부분을 보완하는 과정 (Reflecting) 을 반복하는 것과 비슷.
  • AI가 한 번의 시도에서 실수하지 않고, 점진적으로 개선할 수 있도록 돕는 기법.

(4) Multi-Agent Systems

  • 여러 개의 AI Agents가 협력하여 문제를 해결하는 방식.
  • 인간 사회에서도 여러 전문가가 협력하여 문제를 해결하는 것처럼,
    • AI도 다양한 역할을 하는 Agents를 조합하여 더 복잡한 문제를 해결할 수 있음.
  • 예를 들어, 자동차를 설계하는 AI 시스템이 있다고 가정하면,
    • 한 Agent는 엔진 설계,
    • 다른 Agent는 디자인,
    • 또 다른 Agent는 충돌 안전성 분석 등을 맡아서 협력하는 방식.

(5) Deep Thinking

  • AI가 단순한 1회 추론이 아니라, 여러 번 사고 과정을 반복하여 더 정확한 답을 찾도록 하는 방식.
  • 예를 들어, AI가 "이 문제를 다시 생각해 봐야 하나?" 라고 스스로 판단하고, 여러 번 검토하여 최종 답을 도출할 수 있도록 설계됨.
  • 기존 AI보다 더 깊이 있는 분석과 판단을 수행할 수 있음.

(6) Chain-of-Verification

  • AI가 자신의 답변을 검증하는 질문을 스스로 만들어 신뢰도를 높이는 방식.
  • 인간도 어떤 답을 내릴 때, "이게 맞을까?"라는 의문을 갖고 스스로 확인하는 과정을 거치는데, 이를 AI에 적용한 것.
  • 예를 들어, AI가 "A가 맞는가?" 라는 질문을 스스로 생성한 후, 그 질문에 대한 답을 따로 검증하는 방식.

퓨리오사의 AI 하드웨어 (RNGD NPU)의 역할 쉽게 이해하기

기존 GPU의 한계

  • GPU는 범용적인 병렬 연산에 강하지만, AI 추론에 최적화된 구조가 아님.
  • 예를 들어, 딥러닝 학습(training) 에는 GPU가 유용하지만, 학습이 끝난 후 추론(inference) 과정에서는 전력 소모가 크고, 속도가 비효율적임.

퓨리오사의 해결책: Tensor Contraction Processor (TCP)

  • 퓨리오사는 AI 추론을 위한 전용 프로세서 NPU인 Tensor Contraction Processor (TCP) 구조를 개발.
  • AI 모델의 연산 패턴을 최적화하여 더 빠르고 저전력으로 추론할 수 있도록 설계.

RNGD NPU의 특징

  • RNGD는 퓨리오사의 데이터센터용 AI 추론 가속기.
  • Inference 시대를 대비해 더 빠르고 전력 효율적인 AI 하드웨어 제공을 목표로 함.
  • 즉, 기존 GPU 대비 AI 추론을 훨씬 빠르게, 적은 전력으로 실행할 수 있는 구조를 만들고 있음.

퓨리오사는 기존 GPU의 비효율을 해결하고, AI 추론(inference) 작업에 최적화된 하드웨어를 개발


의료 분야는 아니었지만, 너무 인상적이어서 가져온 퓨리오사 ㅎㅅㅎ

이번 달도 화이팅 ╰(*°▽°*)╯