Furkejuvvon:
| Váldodahkki: | |
|---|---|
| Materiálatiipa: | Recurso digital |
| Giella: | |
| Almmustuhtton: |
Zenodo
2025
|
| Liŋkkat: | https://doi.org/10.5281/zenodo.18093732 |
| Fáddágilkorat: |
Lasit fáddágilkoriid
Eai fáddágilkorat, Lasit vuosttaš fáddágilkora!
|
Sisdoallologahallan:
- <p>### **1.1 기술적 비효율성: 확률 모델의 한계**<br>현재의 LLM은 언어를 연속적인 고차원 벡터 공간에 투영하는 방식으로 작동합니다. 이는 화학에서 원자론 발견 전, 전자구름과 고분자화합물 사이에서 물질을 이해하려 했던 연금술 시대와 유사합니다:</p> <p>```<br>연금술의 특징:<br>- 무한한 변환 가능성 가정<br>- 체계적 이론 부재<br>- 복잡한 도구와 시행착오 의존</p> <p>현재 LLM의 유사점:<br>- "모든 입력에 모든 출력 가능" 환상<br>- 수조 개 데이터의 통계적 근사<br>- 복잡한 수학과 거대 GPU 의존<br>```</p> <p>### **1.2 언어적 편향: 영어권을 포함한 선진국 중심의 문화적 편향**<br>글로벌 AI 생태계는 심각한 언어적 불평등에 직면해 있습니다:<br>- 영어 데이터가 전체의 90% 이상 차지<br>- 7,000개 이상 언어 중 기술적 지원 대상은 20개 미만<br>- 인간 공통 개념 체계가 선진국 위주의 AI 세계관으로 내재화</p> <p>### **1.3 신뢰성 위기: 할루시네이션의 구조적 문제**<br>현재 LLM의 근본적 설계 결함은 모든 질문에 응답을 강제한다는 점입니다:<br>```<br>수학적 표현: ∀q ∈ Questions, ∃a ∈ Answers s.t. P(a|q) > 0<br>문제점: "모름" 상태 표현 불가능 → 할루시네이션 필연적<br>```</p> <p>---</p> <p>## **2. 핵심 철학: 음절 원자론과 언어의 주기율표**</p> <p>### **2.1 역사적 교훈: 음절문자 한글과 KHANGUL**<br>1446년 한글 창제는 현대 음운학과 계산언어학의 여러 원리를 직관적으로 선구 구현한 사례<br>- **발음 기관 모방 원리**: 조음 위치에 따른 체계적 자모 배열<br>- **음절의 원자성**: 한 글자 = 한 음절의 명확한 경계<br>- **조합의 체계성**: 유한한 자모의 무한한 조합 가능성<br>- 한글은 눈에 보이지 않는 음절을 눈에 보이게 만드는 현존 문자체계 중 드물게 확장 가능한 음절문자입니다.<br>- 한글을 기반으로 전세계 음절기반 확장이 KHANGUL이며 KHANGUL에서 음절은 발음 단위가 아니라, 인간이 구분하는 인식 단위를 고정한 정수 인덱스이다.<br> - KHANGUL에서 발음의 정확도를 요구하지 않습니다. 인간 음절인식단위의 구분을 원할 뿐입니다.</p> <p>### **2.2 음절 원자론: 언어 이해의 패러다임 전환**<br>KHANGUL은 다음과 같은 근본적 전환을 선언합니다:</p> <p>**"언어는 이산적 원자(음절)의 조합이며, 의미는 이들 원자의 유한한 연결에서 발생한다"**</p> <p>이 접근법은 화학에서 원자론 발견이 연금술을 과학으로 바꾼 것과 동일한 역사적 의미를 가집니다:</p> <p>| **구분** | **현재 LLM** | **원자론적 KHANGUL** | **과학적 의미** |<br>|----------|-----------------|------------------|----------------|<br>| **기본 단위** | BPE 토큰 (임의 분할) | 음절 (생물학적 한계) | 전자구운 vs 원자 |<br>| **표현 체계** | ℝ⁴⁰⁹⁶ 실수 벡터 | ℤ²⁵⁰⁰⁰ 정수 인덱스 | 연속 vs 이산 |<br>| **조합 원리** | 확률적 어텐션 | 결정론적 연결 | 통계 vs 법칙 |<br>| **지식 구조** | 암묵적 분포 | 명시적 그래프 | 암시적 vs 명시적 |</p> <p><br>“KHANGUL의 음절 집합은 인간 발성 기관에 의해 정의되는 완전한 이산 기저로서, 모든 언어 표현은 이 기저의 유한한 조합으로 환원 가능하다.”<br> - 음절은 ‘인간이 인지적으로 구분 가능한 음향 단위’를, 특정 언어학적 규칙(IPA/표준어 등)에 따라 이산 정수 인덱스로 고정한 계산 단위로 정의함<br> - 발음의 정확한 재현여부와 상관없음. 인식의 구분단위를 정수인덱스 가능하게 하는것이 목적임<br> - 이 기저는 언어별 음운 체계에 따라 정의되며, 시스템 내에서는 유일한 처리 원자로 사용됨</p> <p>### **2.3 주기율표 개념의 적용**<br>화학의 주기율표가 원소를 체계적으로 배열한 것처럼, KHANGUL은 **확장 한글 음절 사전**을 언어의 주기율표로 선언합니다:<br>- **범위**: 인류 발성 기관기반 대다수 범위의 구별적 음절<br>- **용량**: 25,000 슬롯 (10,000 인류 보편 + 15,000 예비) --> 18개 언어 음절 연구(https://www.ddl.cnrs.fr/fulltext/Yoonmi/Oh_2015_1.pdf)를 고려할 때 중복음절 제거 후 10000~15000이 유효 수치라 가정하며 확장성을 위해 예비슬롯 포함 25,000으로 정의함. <br>- **특징**: 음절 자체는 정수 인덱스(uint16, 50kb이내)로 표현되며, L1 개념 구현 시 그래프 연결을 위한 선택적 압축 키(Int4 기반)를 별도로 사용할 수 있음. 기본 구현은 인덱스만 사용.</p> <p>---</p>