계산 시간·메모리 사용량 최적화

시간 복잡도와 공간 복잡도의 관계

알고리즘의 성능을 평가하기 위해서는 주어진 문제의 규모가 커졌을 때 요구되는 연산 횟수(시간 복잡도)와 할당되어야 하는 메모리 양(공간 복잡도)에 대한 이해가 필수적이다. 특히 수치해석 분야에서는 연산량이 매우 큰 계산들이 빈번하게 등장하므로, 가능한 한 알고리즘을 효율적으로 설계해 계산 시간을 단축시키는 것이 중요하다. 동시에 고차원의 행렬이나 벡터를 다루다 보면 시스템의 메모리가 빠르게 소모될 수 있으므로, 문제 해결 과정에서 요구되는 메모리 사용량에 대해서도 면밀히 고려해야 한다.

계산 시간과 메모리 사용량은 보통 서로 직결된 측면이 있다. 예를 들어, 매 단계마다 중간 결과를 모두 저장해 두는 방식의 알고리즘은 재사용을 통해 연산 횟수를 줄일 수 있으나, 메모리가 한정된 환경에서는 이러한 방법이 오히려 전체적인 성능을 저하시킬 가능성이 있다. 반대로, 중간 산출물을 최소화하여 메모리 사용량을 줄이려는 접근 방식은 매번 동일한 계산을 반복하게 되어, 전체 계산 시간을 늘릴 위험이 있다. 따라서 구체적인 목표에 따라 적절한 절충안을 선택해야 하며, 이 과정에서 문제의 크기와 메모리 예산, 수행 환경의 하드웨어 스펙 등을 종합적으로 고려해야 한다.

시간 복잡도의 경우, 수치해석에서 많이 등장하는 대표적 문제인 선형 시스템 해법, 행렬 분해, 푸리에 변환 등을 예로 들 수 있다. 예를 들어, $n\times n$ 행렬의 LU 분해는 일반적으로 $O(n^3)$ 시간 복잡도를 가진다. 이는 문제의 크기 $n$이 커질수록 큐빅(cubic)하게 연산 횟수가 증가함을 의미한다. 만약 $n$이 매우 큰 경우, 이러한 계산을 직접 수행하기 전에 알고리즘을 최적화하거나, 적절한 전처리 과정을 통해 계산 규모를 줄일 방안을 모색해야 한다. 반면 공간 복잡도의 경우, 필요한 메모리가 $O(n^2)$로 늘어날 수 있다. 큰 스파스(sparse) 행렬에서 비어 있는 항들이 많은데, 단순하게 일반 행렬 구조로 저장하면 필요 이상의 메모리를 할당하게 된다. 따라서 스파스 행렬을 효율적으로 저장하기 위한 별도의 자료구조를 사용하거나, 더 효율적인 압축 표현 방식을 채택하는 것이 메모리 사용량 최적화의 핵심이 된다.

CPU 캐시와 메모리 계층 구조의 중요성

계산 시간을 더 세밀히 살펴보면, 알고리즘의 이론적 연산 횟수(플롭 수)만큼이나 중요한 요소가 하드웨어의 메모리 계층 구조이다. CPU는 내부에 소량의 매우 빠른 레지스터와 캐시 메모리를 가지고 있고, 그 뒤를 이어 조금 더 큰 용량이지만 상대적으로 느린 메인 메모리가 존재한다. 이러한 메모리 계층 구조로 인해, 실제로는 같은 연산이라 하더라도 데이터가 어디에 존재하느냐에 따라 계산 속도가 크게 달라진다.

이른바 캐시 친화적(cache-friendly) 알고리즘이라 불리는 기법들은 데이터가 CPU 캐시에 최대한 많이 적재되어 있을 때, 혹은 적어도 메인 메모리를 오가는 횟수를 줄일 수 있도록 설계된다. 예를 들어, 행렬 곱셈에서 단순한 세 중첩 반복 방식은 $O(n^3)$의 연산 횟수를 가지지만, 캐시 효율을 고려하지 않는 순수 반복문 구성은 실제로는 훨씬 더 느린 수행 속도를 보일 수 있다. 이를 개선하기 위해 블록(block) 단위로 행렬을 나누어 곱셈을 수행하는 블록 행렬 곱셈 알고리즘을 사용하면, 같은 $O(n^3)$의 연산을 수행하더라도 훨씬 더 빠른 실제 실행 시간을 얻을 수 있다.

캐시 최적화를 위한 또 다른 예로는 데이터 접근 패턴을 들 수 있다. 다차원 배열을 순회할 때 열 우선 접근(column-major) 혹은 행 우선 접근(row-major) 방식을 따르는지, 그리고 특정 언어나 라이브러리가 어떤 방식을 사용하는지에 따라 계산 성능이 크게 달라질 수 있다. C/C++ 계열 언어는 보통 row-major를 따르고, Fortran이나 MATLAB은 column-major를 따른다. 이를 혼동해서 사용하거나, 메모리에 연속적으로 적재된 데이터를 불규칙한 방식으로 참조하면 캐시 미스(cache miss)가 잦아져서 성능이 심각하게 저하될 수 있다.

수학 라이브러리와 병렬화 활용

CPU 아키텍처가 복잡해지면서, 더 고성능의 계산을 위해 멀티코어 CPU나 GPU를 사용하는 병렬화가 보편화되었다. 수치해석 코드에서 BLAS, LAPACK과 같은 표준화된 라이브러리를 적극적으로 이용하면, 이러한 병렬 아키텍처를 크게 의식하지 않아도 내부적으로 최적화된 경로를 통해 병렬 계산을 수행할 수 있다. 예를 들어, OpenBLAS 또는 Intel MKL을 사용하면, 일반적인 행렬 연산에 대해서 자동으로 SIMD(Single Instruction, Multiple Data) 명령어나 멀티스레딩을 적용해 CPU 자원을 모두 활용하게 해 준다. 이는 직접 병렬 코드를 작성할 때 발생할 수 있는 구현상의 복잡함을 크게 줄여주면서, 동시에 최적의 캐시 활용 및 데이터 이동 비용 절감을 실현할 수 있는 장점이 있다.

다만 완전히 일반적인 수치연산 문제나 매우 특화된 영역에 대해서는, 여전히 병렬화와 캐시 구조에 특화된 코드를 직접 짜야만 하는 경우가 발생한다. 예를 들어, 대규모 행렬의 특정 부분만 업데이트하는 연산을 반복해서 수행해야 할 때, BLAS/LAPACK의 인터페이스로는 충분히 세밀한 제어가 어려울 수 있다. 이럴 때는 OpenMP를 사용해 반복문을 병렬화하거나 CUDA 같은 GPU 연산 플랫폼을 사용해 원하는 구조로 직접 최적화해야 한다.

예시: 블록 행렬 곱셈 Python 구현

단순한 예시로 $\mathbf{C} = \mathbf{A} \times \mathbf{B}$ 형태의 행렬 곱셈을 블록 단위로 수행하는 방법을 Python으로 구현해 보자. 여기서는 간단히 NumPy 없이 순수 파이썬으로 작성해, 캐시 활용을 위해 블록 크기 매개변수를 둔 사례를 살펴볼 수 있다.

def block_matrix_multiply(A, B, block_size=64):
    n = len(A)
    C = [[0.0]*n for _ in range(n)]
    for i_block in range(0, n, block_size):
        for j_block in range(0, n, block_size):
            for k_block in range(0, n, block_size):
                i_end = min(i_block + block_size, n)
                j_end = min(j_block + block_size, n)
                k_end = min(k_block + block_size, n)
                for i in range(i_block, i_end):
                    for k in range(k_block, k_end):
                        temp = A[i][k]
                        for j in range(j_block, j_end):
                            C[i][j] += temp * B[k][j]
    return C

이 코드는 단순 반복문을 세 번 중첩시켜서 곱셈을 수행하는 기본적인 방식과 유사하지만, $block_size$를 통해 데이터가 CPU 캐시에 머무르는 동안만 처리할 수 있도록 제어한다. 즉, $\mathbf{A}$와 $\mathbf{B}$의 일부분씩만 고려하여 블록 단위로 연산하므로, 동일한 $O(n^3)$ 복잡도에서 실제 수행 시간이 더 빠르게 나온다. 이 방법은 최적의 캐시 미스 감소 효과와 직접적인 병렬화 기법을 도입하기에도 유리하다.

고차원 문제에서의 메모리 이슈와 스파스 행렬

수치해석의 대표적인 예로, 고차원에서 정의된 편미분방정식을 유한차분법이나 유한요소법을 통해 이산화(discretization)하면 매우 큰 규모의 행렬 방정식을 풀어야 하는 상황이 자주 발생한다. 예를 들어, $N$ 차원의 격자(grid)를 사용하면, 행렬의 크기가 $N\times N$ (또는 그 이상)이 될 수 있다. 만약 $N$이 수십만~수백만 단위에 도달한다면, 행렬에 대한 기본 연산 자체가 막대한 계산 시간을 요구할 뿐만 아니라, 행렬 전체를 메모리에 저장하기조차 쉽지 않은 경우가 많다.

이때 중요한 점은, 실무나 연구에서 다루는 대부분의 대규모 행렬은 스파스(sparse)한 형태라는 것이다. 즉, 행렬의 대부분의 원소가 0이며, 비제로(non-zero) 요소는 제한된 위치에서만 나타난다. 이런 스파스 구조를 일반적인 2차원 배열로 저장할 경우, 0인 항들까지 포함하는 거대한 크기의 메모리가 필요해 비효율적이다. 따라서 스파스 행렬을 저장하기 위한 다양한 자료구조, 예를 들어 CSR(Compressed Sparse Row), CSC(Compressed Sparse Column), COO(Coordinate) 포맷 등을 사용함으로써 실제로 필요한 비제로 요소와 그 인덱스만을 저장하게 된다.

스파스 구조의 활용은 메모리 사용량에서 큰 절감을 가져올 뿐 아니라, 계산 시간 최적화에도 이점이 있다. 예를 들어 스파스 선형 시스템 $\mathbf{A}\mathbf{x}=\mathbf{b}$를 푸는 데에 고전적인 $LU$ 분해 대신 적절한 반복적(iterative) 방법과 스파스 행렬-벡터 곱셈을 조합해, 실제로 요구되는 연산 횟수를 크게 감소시킬 수 있다. 이는 대부분의 연산이 0에 대해 수행되는 낭비를 방지하고, 필요한 연산들만 효율적으로 모아서 처리하기 때문이다. 결과적으로, 고차원 문제를 실제로 풀기 위해서는 행렬의 구조적 특성, 즉 스파스성(sparsity)을 적절히 활용하는 것이 필수적이라고 할 수 있다.

예를 들어, 스파스 행렬을 CSR 형식으로 표현했을 때, $\mathbf{A}$와 벡터 $\mathbf{x}$의 곱 $\mathbf{y} = \mathbf{A}\mathbf{x}$를 구하는 과정은 다음과 같이 구현할 수 있다 (Python 예시).

def csr_matvec(csr_values, csr_col_idx, csr_row_ptr, x):
    n = len(csr_row_ptr) - 1
    y = [0.0]*n
    for i in range(n):
        start = csr_row_ptr[i]
        end = csr_row_ptr[i+1]
        temp_sum = 0.0
        for idx in range(start, end):
            col = csr_col_idx[idx]
            temp_sum += csr_values[idx] * x[col]
        y[i] = temp_sum
    return y

여기에서 csr_values 배열에는 행렬의 비제로 요소들이 행(Row) 순서대로 저장되어 있고, csr_col_idx는 해당 비제로 요소가 어느 열(col)에서 왔는지를 기록한다. 그리고 csr_row_ptr 배열은 각 행에서 비제로 요소가 시작되고 끝나는 인덱스를 나타낸다. 이처럼 스파스 포맷을 도입하면, 실제로 연산해야 할 원소만 효율적으로 순회하게 된다.

고급 스파스 연산에서의 성능 고려

스파스 행렬-벡터 곱셈은 반복적 방법(예: CG, GMRES 등)에서 주요 루프를 차지한다. 따라서 이 과정이 전체 연산 시간의 대부분을 차지하기 때문에, 이 부분을 하드웨어에 맞게 최적화하면 큰 성능 이득을 얻을 수 있다. 예를 들어, CSR 방식에서 원소 접근은 주로 불규칙한 메모리 접근 패턴(irregular memory access)을 유발하므로, CPU 캐시 효율이 크게 떨어질 가능성이 있다. 이런 문제를 해결하기 위해,

행렬을 여러 개의 블록으로 나누어, 블록 단위로 압축하는 BLK(블록) 형태의 스파스 포맷을 사용하거나,
GPU에서 대량 병렬화에 유리한 ELLPACK, HYB(Hybrid) 방식 등을 고려하기도 한다.

결국, 스파스 행렬 연산에서도 캐시 계층의 최적화와 병렬 자원을 최대한 활용하기 위한 자료구조 선택이 중요하며, 문제 규모가 커질수록 이러한 고급 기법의 중요성이 커진다.

메모리 아웃오브코어(Out-of-Core) 방식

메모리 예산이 심각하게 제한되어 있거나, 문제의 크기가 물리적인 RAM 용량을 넘어서는 경우에는 디스크나 SSD와 같은 외부 저장 장치를 활용하여 계산을 진행하는 방식이 불가피해지기도 한다. 이를 아웃오브코어(Out-of-Core) 방식이라고 하며, 실제로는 메인 메모리에 올려둘 수 있는 데이터만 필요한 순간에만 로드하고, 나머지는 저장 장치에 두며 계산을 진행한다.

아웃오브코어 방식에서 성능을 확보하기 위해서는 디스크 입출력(I/O) 비용이 매우 커진다는 점을 반드시 고려해야 한다. 따라서 대규모 계산에서 특정 알고리즘을 아웃오브코어로 구현할 때는, 주기적으로 대용량 데이터를 I/O 하는 과정을 최대한 줄이고, 한번 읽어온 데이터를 오랜 기간 재활용할 수 있는 형태로 알고리즘을 재구성하는 노력이 필요하다. 블록 LU 분해, 아웃오브코어 FFT(푸리에 변환) 등이 대표적인 예로, 가능한 한 전체 문제를 작게 나누어 부분 문제를 처리하면서도, 중간 단계에서 디스크 액세스를 최소화하는 전략을 사용한다.

CPU/GPU 하이브리드 환경

최근에는 CPU의 멀티코어와 GPU의 대량 병렬화 역량을 함께 활용하는 하이브리드 환경이 성능 최적화의 핵심으로 떠오르고 있다. 이런 환경에서 최적의 효율을 내기 위해서는,

CPU에서 처리하기 좋은 연산(예: 제어 흐름이 복잡하고, 스레드 간 통신이 많은 경우)과
GPU에서 처리하기 좋은 연산(예: 동일 연산을 대량 데이터에 동시에 적용하는 경우) 을 적절히 분리하고, 병렬 파이프라인을 구성하여 두 프로세서 사이의 데이터 전송 시간을 최소화해야 한다.

예를 들어, 대규모 행렬 곱셈에서 GPU가 실제 곱셈을 수행하고, CPU가 연산 스케줄링이나 중간 결과 확인, 오버헤드가 큰 제어문 로직 등을 담당할 수 있다. 혹은 비선형 방정식을 반복적으로 업데이트하는 알고리즘에서, 각 반복 단계마다 GPU를 사용해 대량의 백엔드(back-end) 벡터 연산과 행렬 연산을 계산한 뒤, CPU에서 수렴 판단이나 추가 조건 처리를 실행하는 형태가 일반적이다.

병렬 분산 환경(MPI 등)의 도입

한편 단일 컴퓨터의 CPU나 GPU로도 해결하기 어려운 초대형 문제를 다룰 때, 대규모 클러스터나 슈퍼컴퓨터 환경에서 병렬 분산 처리를 수행하기도 한다. 이 경우 각 노드는 자체 메모리를 가지고 있으며, 노드 간 메모리 접근 비용이 매우 커진다. 메시지 패싱 인터페이스(MPI)를 사용하면, 여러 대의 노드에 나뉘어 있는 데이터를 서로 교환하면서 연산을 수행할 수 있다.

이러한 분산 환경에서의 최적화 포인트는 다음과 같은 측면에 주목해야 한다.

통신(Communication) 비용 최소화: 노드 간 데이터 전송은 매우 느리므로, 가능한 한 각 노드가 필요한 데이터만 교환하도록 알고리즘을 설계해야 한다.
부하 균형(Load Balancing): 모든 노드가 비슷한 양의 계산 부담을 나눠 가질 수 있게 하여, 일부 노드가 계산을 마치지 못해 전체가 대기 상태에 들어가는 상황을 방지해야 한다.

병렬 분산 환경에서의 수치 계산은 에러 발생 시 디버깅이 어렵고, 복잡한 통신 패턴을 다뤄야 하므로 구현과 설계에 주의가 필요하다. 하지만 문제의 크기가 워낙 방대해지면 사실상 이 방법 외에는 현실적인 대안이 없기 때문에, 대규모 산업·연구 프로젝트에서는 필수적인 접근 방식으로 자리 잡았다.

프로파일링과 성능 튜닝 기초

수치 계산이 포함된 프로그램의 실행 시간을 단축시키고, 메모리 사용량을 줄이기 위해서는 무작정 코드를 최적화하기보다 먼저 실행 특성을 정확하게 파악해야 한다. 이러한 과정을 프로파일링(profiling)이라고 하며, 프로그램의 실행 중에 각 함수나 루틴이 얼마만큼의 시간을 소비하고, 어떤 메모리 접근 패턴이 나타나고 있는지를 계측한다. 프로파일링 결과를 분석하면, 전체 실행 시간의 대다수를 차지하는 병목 구간이 어디인지, 캐시 미스 비율이 높은 루틴이 무엇인지 등을 쉽게 파악할 수 있다.

대표적인 프로파일링 도구로는 CPU 프로파일링을 위한 gprof, perf, VTune 등이 있고, GPU를 사용하는 경우 NVIDIA의 Nsight, ROCm 관련 도구 등이 있다. 시스템 전체의 메모리 접근 상황이나 I/O 패턴 등을 모니터링하려면, 각 운영체제 혹은 클러스터 환경에서 제공하는 모니터링 툴(예: Linux의 perf, dstat, iostat 등)을 활용할 수 있다. 이렇게 수집한 자료를 토대로,

실제로 많은 시간이 소요되는 루틴
잦은 캐시 미스가 발생하는 루틴
I/O 병목이나 통신 병목이 발생하는 구간 등을 우선순위로 개선할 수 있다.

프로그래머 입장에서 프로파일링 결과를 반영하여 성능 튜닝(tuning)을 진행할 때는, 우선 어떤 부분이 전체 시간에서 지배적(또는 메모리 사용의 대부분)을 차지하는지를 먼저 파악해야 한다. 수치해석 알고리즘이나 라이브러리를 작성할 때, 전체 알고리즘 중 극히 일부(대체로 5~~10% 정도의 코드)가 전체 실행 시간의 80~~90%를 차지한다는 “핫 스팟(hot spot)” 현상이 흔하게 관찰된다. 결국 이 소수의 중요한 루틴만 집중적으로 최적화해도 전체 성능을 크게 끌어올릴 수 있다.

정밀도(Precision)와 연산 시간의 관계

수치해석 문제는 주로 부동소수점 연산으로 처리된다. 현대 CPU/GPU는 단정도(single precision, 32비트 부동소수점)와 배정도(double precision, 64비트 부동소수점) 연산을 모두 지원하지만, 하드웨어 및 컴파일러 수준에서의 연산 처리량(throughput)은 단정도가 배정도보다 빠른 경우가 많다. 또한 단정도의 메모리 점유율이 절반이므로, 메모리 병목(memory-bound) 상황에서도 이점을 가져다줄 수 있다.

물론 낮은 정밀도를 사용하면 수치 오차나 안정성 문제가 발생할 가능성이 커진다. 하지만 해결하려는 문제에 따라, 저정밀도 연산이 허용 가능한 해상도를 유지하며 계산 시간을 상당히 줄일 수도 있다. 이를 테면, 거대한 시뮬레이션에서 최종 결과에 크게 영향을 주지 않는 하위 자릿수의 정확도가 굳이 필요 없다면, mixed-precision 기법(예: 내부 연산을 단정도로 수행한 뒤 결과는 배정도로 보정)에 의해 계산 시간을 대폭 단축할 수 있다.

수치해석 알고리즘에 mixed-precision 기법을 적용하는 전형적인 예는 선형 대수 라이브러리이다. 예를 들어, 시스템 $\mathbf{A}\mathbf{x}=\mathbf{b}$를 반복법으로 풀 때, 스텝 내에서는 단정도 연산을 활용해 빠른 매트릭스-벡터 곱셈을 수행하고, 반복 종료 조건을 점검하거나 잔차(residual)를 계산할 때만 배정도 연산으로 보정하는 식이다. 이때 $\mathbf{A}$의 스펙트럼 특성이나 문제의 감쇠율이 어떠한지에 따라, mixed-precision 기법이 충분히 유효할 수도, 혹은 오차 누적으로 인해 불안정해질 수도 있다. 따라서 실제 적용에서는, 문제별로 오차 허용 범위와 계산 속도 이득 사이에서 면밀한 타협이 필요하다.

메모리 배치와 패딩(Padding)

메모리 배치를 어떻게 하느냐에 따라, CPU가 캐시 라인(cache line)을 효율적으로 활용할 수 있는지도 달라진다. 예를 들어, 2차원 배열을 구성할 때, 특정 차원이 캐시 라인의 크기와 맞지 않으면, 행이나 열을 순회하는 도중에 불필요한 캐시 미스가 발생하는 일이 빈번하다. 이런 경우에는 배열의 각 행 혹은 열이 적절히 패딩(padding)된 크기를 갖도록 설계하여, 데이터가 보다 연속적인 블록 형태로 접근되도록 유도할 수 있다.

특히 벡터 연산에서 SIMD(Single Instruction, Multiple Data) 명령어를 사용하려면, 벡터를 일정한 alignment(정렬)에 맞추어 메모리에 배치하는 것이 중요하다. 예컨대 AVX 계열(256비트, 512비트 등)의 명령어는 32~64바이트 단위로 정렬된 벡터 데이터를 가정하는 경우가 많다. 이때 배열의 길이가 미묘하게 정렬 단위와 맞지 않으면, 하드웨어가 복잡한 경로를 통해 데이터를 불러오므로 성능이 저하될 수 있다. 이를 방지하려면, 배열의 길이가 32 혹은 64의 배수가 되도록 패딩을 넣거나, 동적 메모리 할당 시 정렬을 보장해주는 함수를 사용한다(예: C/C++에서 aligned_alloc, posix_memalign, 또는 컴파일러 확장 등).

알고리즘적 관점에서의 최적화

앞서 언급한 하드웨어 친화적 최적화와는 별개로, 어떤 알고리즘을 선택하는지에 따라서도 계산 시간과 메모리 사용량은 크게 달라진다. 예를 들어, 대규모 선형계 $\mathbf{A}\mathbf{x}=\mathbf{b}$를 풀어야 할 때, 직접 분해(direct method)를 사용하기에는 $O(n^3)$의 시간 복잡도와 $O(n^2)$의 메모리 사용량이 지나치게 클 수 있다. 이 경우 반복적 해법(iterative method)으로 전환하면, $O(n^2)$ 또는 그 이하의 공간 복잡도와, 스파스 구조를 적극 활용할 시 $O(n)$ 또는 $O(n\log n)$ 수준의 시간 복잡도로도 문제를 풀 수 있는 경우가 생긴다.

아울러 문제의 특성을 이용해, 연립방정식의 일부 변수를 제거하거나, 적절한 전처리(preconditioning)로써 조건수를 낮춰 반복 횟수를 대폭 줄이는 기법도 널리 쓰인다. 예를 들어, $\mathbf{A}$가 대각 우세(diagonally dominant)하거나, SPD(대칭양의정부호) 구조를 가질 때는, 특정한 사전조건화(preconditioner)를 선택하면 수렴 속도를 월등히 높일 수 있다. 이러한 알고리즘적 개선은 하드웨어 차원의 미세 튜닝보다 더욱 큰 성능 향상을 가져올 수도 있다.

예시: 프로파일링과 알고리즘 선택

단순한 예로, 아래와 같이 Python에서 Conjugate Gradient(CG) 방법과 LU 분해를 각각 사용해 스파스 선형계를 푸는 경우를 비교하고자 한다고 가정하자. 스파스 행렬을 CSR 형태로 저장하고, CG 루틴을 직접 구현한다.

import time

def csr_matvec(csr_values, csr_col_idx, csr_row_ptr, x):
    n = len(csr_row_ptr) - 1
    y = [0.0]*n
    for i in range(n):
        start = csr_row_ptr[i]
        end = csr_row_ptr[i+1]
        temp_sum = 0.0
        for idx in range(start, end):
            col = csr_col_idx[idx]
            temp_sum += csr_values[idx] * x[col]
        y[i] = temp_sum
    return y

def cg_solve(csr_values, csr_col_idx, csr_row_ptr, b, tol=1e-8, maxiter=1000):
    n = len(b)
    x = [0.0]*n
    r = [b[i] for i in range(n)]
    p = [r[i] for i in range(n)]
    rr_old = sum(r[i]*r[i] for i in range(n))

    for _ in range(maxiter):
        Ap = csr_matvec(csr_values, csr_col_idx, csr_row_ptr, p)
        alpha = rr_old / sum(p[i]*Ap[i] for i in range(n))
        for i in range(n):
            x[i] += alpha * p[i]
            r[i] -= alpha * Ap[i]
        rr_new = sum(r[i]*r[i] for i in range(n))
        if rr_new < tol*tol:
            break
        beta = rr_new / rr_old
        for i in range(n):
            p[i] = r[i] + beta * p[i]
        rr_old = rr_new

    return x

# 프로파일링 예시
n = 10000  # 크기가 큰 스파스 시스템이라고 가정
# (csr_values, csr_col_idx, csr_row_ptr), b = ... # 적절히 초기화

start_time = time.time()
x_cg = cg_solve(csr_values, csr_col_idx, csr_row_ptr, b)
cg_time = time.time() - start_time

# LU 분해 방법 사용 (예: SciPy의 splu)
import scipy.sparse as sp
import scipy.sparse.linalg as spla

A_csr = sp.csr_matrix((csr_values, csr_col_idx, csr_row_ptr), shape=(n, n))
start_time = time.time()
lu = spla.splu(A_csr)
x_lu = lu.solve(b)
lu_time = time.time() - start_time

print(f"CG 시간: {cg_time:.4f} 초")
print(f"LU 시간: {lu_time:.4f} 초")

이 같은 코드를 프로파일링해 보면, 예를 들어 $n$이 매우 큰 상황에서 LU 분해가 극단적으로 많은 연산 시간과 메모리를 요구하는 반면, CG가 훨씬 적은 자원만으로도 빠른 시간 안에 근사해를 구할 수 있음을 확인할 수 있다. 물론 CG가 $\mathbf{A}$의 스펙트럼이나 조건수 등에 따라 수렴이 느려질 수도 있으므로, 단순히 “반복법이 무조건 빠르다”라고 단정하기보다, 문제 특성에 맞춰 알고리즘을 선택하는 것이 중요하다.

mermaid 예시: 최적화 프로세스 개략도

아래는 성능 최적화를 진행할 때 거치는 대표적인 단계를 간략히 나타낸 다이어그램이다.

이처럼 프로파일링과 튜닝, 재측정 과정을 반복하며 문제 및 계산 환경에 가장 적합한 접근 방법을 선택하는 것이 실질적인 성능 극대화에 이르는 일반적인 과정이다.

컴파일러 최적화와 파이프라이닝

컴파일러는 하드웨어의 성능을 최대한 활용하기 위해 여러 가지 최적화 기법을 적용한다. 일반적으로 -O2, -O3 같은 최적화 레벨을 사용하면, 루프 전개(loop unrolling), 레지스터 할당(register allocation), 불필요한 메모리 접근 제거(dead store elimination), 공통 부분식 제거(common subexpression elimination) 등 다양한 기법이 자동으로 적용된다. 또한 최근 CPU 아키텍처에서는 파이프라이닝(pipelining)을 통해 여러 명령어를 중첩해서 실행하므로, 컴파일러가 이 과정을 최대한 효율적으로 구성할 수 있도록 도움을 준다.

하지만 특정 루프나 함수가 크게 지배적인 연산 구간인 경우, 일반적인 최적화 옵션만으로는 원하는 성능 향상에 한계가 있을 수 있다. 이럴 때는 다음과 같은 고급 기법을 고려할 수 있다.

인라인(inline): 작은 함수 호출이 빈번히 일어나는 부분을 컴파일 시점에 강제로 인라인하면, 함수 콜 오버헤드를 없애고 최적화 기회를 넓힐 수 있다.
루프 전개: 컴파일러가 자동으로 루프 전개를 수행하지 않거나, 전개 횟수가 최적과 다르게 설정되어 있을 수 있다. 이런 상황에서는 pragma나 컴파일러 전용 지시문을 통해 전개 횟수를 제어할 수 있다.
Vectorization(SIMD): 배열 연산이나 벡터화가 가능한 루프에서, 컴파일러가 명시적으로 AVX/AVX2/AVX-512 등의 SIMD 명령어를 사용하게끔 유도할 수 있다(예: C/C++에서 #pragma omp simd 등).

메모리 구조와 NUMA 최적화

현대의 멀티소켓(multi-socket) 시스템이나 대규모 서버에서는 NUMA(Non-Uniform Memory Access) 구조가 일반적이다. NUMA에서 각 소켓(CPU)이 자기 전용 메모리 뱅크를 갖고 있으며, 다른 소켓의 메모리에 접근할 경우 지연시간(latency)과 대역폭(bandwidth)이 달라진다. 이로 인해, 멀티스레드 코드를 작성할 때 모든 스레드가 동일한 메모리에 접근하려고 하면 병목 현상이 발생하거나 원거리 메모리 접근(remote access) 때문에 성능이 크게 떨어질 수 있다.

따라서 NUMA 환경에서 성능을 최대화하기 위해서는,

각 스레드가 자주 사용하는 데이터가 동일 소켓에 위치하도록 바인딩(binding)
쓰레드 배치를 고려한 메모리 페이지 할당 정책 등을 세밀하게 설정해야 한다. 예컨대 리눅스에서는 numactl 명령을 통해 CPU 코어와 메모리의 물리적 배치를 조정할 수 있고, OpenMP나 다른 스레드 라이브러리에서도 NUMA 관련 설정을 지원한다. 이런 세부 튜닝은 미세하게 보일 수 있지만, 대규모 수치 해석에서는 수십 퍼센트 이상의 성능 차이를 야기하기도 한다.

GPU 메모리 최적화

GPU를 사용할 경우에도 메모리 최적화는 매우 중요한 이슈다. GPU 메모리는 보통 호스트 CPU 메모리와 물리적으로 분리되어 있으므로,

호스트와 GPU 간 데이터 전송 비용을 최소화
GPU 내부 메모리 구조(글로벌, 셰어드, 텍스처 메모리 등) 활용 을 적절히 조합해야 한다. 특히 대량의 작은 커널 호출(kernel launch)이 연달아 일어날 때, 각 단계마다 호스트-디바이스 메모리 전송이 반복되면 전체 계산 시간의 상당 부분이 I/O로 낭비될 수 있다. 이를 줄이려면, 가능하면 데이터를 GPU에 상주시켜 여러 연산을 한 번에 처리하고, 필요한 중간 결과도 GPU 메모리에 보관하여 재활용하는 접근이 요구된다.

CUDA나 HIP 같은 GPU 프로그래밍 환경에서 스레드가 메모리에 접근하는 패턴도 매우 중요하다. 예컨대 NVIDIA GPU 구조에서는 워프(warp) 단위로 동작할 때 연속적인 어드레스로 접근하면(“coalesced access”), 메모리 대역폭을 훨씬 효율적으로 쓸 수 있다. 반면 불규칙하게 흩어진 주소에 접근하면, 제 성능을 내지 못하고 메모리 트랜잭션이 비효율적으로 이루어진다.

동적 스케줄링과 로드 밸런싱

수치해석 코드를 병렬화할 때, 각 스레드나 프로세스가 수행해야 할 작업량이 균등하지 않으면 특정 스레드만 과부하가 걸려서 전체 계산이 지연될 수 있다. 이를 막기 위해 동적 스케줄링(dynamic scheduling) 기법을 활용한다. 예컨대 OpenMP에서 for 루프에 schedule(dynamic, chunk_size) 지시문을 부여하면, 각 스레드가 일정한 크기의 작업 단위를 차례로 할당받으면서 수행하게 된다. 이로써 병렬화 과정에서 부하가 불균형하게 분배되는 문제를 어느 정도 해결할 수 있다.

다만 동적 스케줄링을 쓰면 반복적으로 스레드 간 작업 재분배가 일어나므로, 스레드 간 동기화 오버헤드가 늘어날 수 있다. 작업 단위를 너무 작게 설정하면 스레드 간 분배가 지나치게 자주 일어나서 오히려 성능이 떨어진다. 반대로 너무 크게 설정하면 다시 부하 불균형 문제가 생길 수 있다. 결국 문제의 특성과 데이터 분포, 스레드 환경에 맞춰 적절한 chunk 크기를 선정하는 것이 중요하다.

확장성(Scalability) 분석

특정 최적화 기법을 소규모 문제에서 도입했을 때는 분명히 속도 향상을 가져왔는데, 막상 문제 크기나 노드 수를 크게 확장하면 성능 향상 비율이 예측만큼 높지 않을 수 있다. 이런 현상을 분석하는 것을 확장성 분석(scalability analysis)이라고 한다. 병렬 분산 환경에서의 확장성은 주로 다음 요소에 의해 좌우된다.

강한 확장성(Strong scalability): 동일한 문제 크기에 대해 프로세서(혹은 노드) 수를 늘릴 때, 수행 시간이 얼마나 단축되는지 측정한다.
약한 확장성(Weak scalability): 프로세서(혹은 노드) 수가 증가함에 따라 문제 크기도 비례해서 늘어날 때, 수행 시간이 어느 정도 변동되는지를 측정한다.

수치해석 알고리즘은 일반적으로 통신비용, 동기화 비용, 캐시 불일치, 비균일한 하드웨어 상태 등의 원인으로 인해 이상적인 선형 속도 향상(linear speedup)을 달성하기 어렵다. 이를 파악하고, 적절한 규모에서 최적의 성능을 내도록 시스템 구성과 알고리즘 설계를 조정하는 것이 HPC(High-Performance Computing) 현장에서 중요한 과제이다.

자동 튜닝(Auto-Tuning) 기법

최적화라는 작업은 기존 코드의 구조, 하드웨어 특성, 컴파일러 옵션, 알고리즘 설계 등 무척 다양한 요소를 고려해야 하므로, 경우에 따라서는 사용자가 직접 미세 조정하기가 쉽지 않다. 이를 해결하기 위한 접근이 자동 튜닝(auto-tuning) 기법이다. ATLAS나 FFTW 같은 대표적인 수치 라이브러리는 빌드 시점 혹은 런타임에 하드웨어를 검사하고, 내부적으로 다양한 파라미터(블록 크기, 언롤 횟수 등)를 시도해 본 뒤 가장 빠른 구성을 선택한다.

이런 자동 튜닝 기법은 하드웨어가 매우 복잡해지고, 다양한 CPU/GPU 아키텍처가 공존하는 상황에서 상당한 이점을 제공한다. 사용자 입장에서는 라이브러리를 호출하기만 하면, 내부적으로 해당 라이브러리가 주어진 환경에서 최적의 설정을 탐색하고 적용해 주기 때문이다. 다만 특수 용도의 알고리즘이나 새로운 수치 기법을 개발할 때는, 해당 영역에 특화된 자동 튜닝 엔진이 없을 수 있으므로, 직접 프로파일링과 미세 조정을 수행해야 할 수도 있다.

성능 지표(GFLOPS, 메모리 대역폭 등)

최적화 여부를 평가하기 위해 흔히 사용되는 지표로 GFLOPS(Giga Floating-Point Operations per Second), TFLOPS(TeraFLOPS) 등이 있다. 이는 초당 수행 가능한 부동소수점 연산 횟수를 백만/십억/조 단위로 환산한 것이다. 특정 알고리즘의 이론적 연산량과 실제 실행 시간을 통해, 이 알고리즘이 어느 정도의 FLOPS 성능을 발휘했는지 계산해 볼 수 있다.

하지만 GFLOPS만으로는 메모리 병목(memory-bound) 상황에서의 병렬 최적화 성능을 충분히 평가하기 어렵다. 메모리 대역폭(bandwidth)이나 레이턴시(latency), 그리고 실제로 프로그램이 어떤 비율로 CPU와 메모리 사이를 오가는지도 함께 분석해야 한다. HPC 환경에서는 HBM(High Bandwidth Memory)이나 DDR, GPU 전용 메모리 성능까지 고려하므로, 여러 지표를 종합적으로 해석해야 한다.

정리되지 않은(스파게티) 코드를 최적화할 때 주의점

수치 계산 프로젝트는 오랜 기간에 걸쳐 유지·보수되어 온 코드가 많은 경우가 흔하다. 이럴 때 최적화를 시도하면, 복잡하게 얽힌 함수 호출 관계나 전역 변수 사용, 의존성(Dependency)이 얽혀 있는 영역 때문에 단순한 개선이 불가능할 수 있다. 그런 경우 다음을 유념하는 것이 좋다.

우선 코드 구조를 간단히 리팩토링(refactoring)하여, 병목 지점과 데이터 흐름을 명확히 파악한다.
지나치게 의존적인 전역 상태나 복잡한 매크로 등을 제거하거나 모듈화한다.
병렬화 및 최적화를 적용할 때, 코드 전체가 아니라 핵심 루틴부터 순차적으로 적용하고, 중간중간 테스트를 통해 정확성을 점검한다.

본질적으로, 수치해석 코드가 복잡하게 얽힐수록 잘못된 최적화를 적용했을 때 오차가 커지거나 알고리즘이 의도치 않은 방식으로 동작할 위험이 높아진다. 따라서 최적화 이전에 코드의 유지보수성을 먼저 높이는 것이 바람직하다.

대규모 편미분방정식(PDE) 문제와 도메인 분할 기법

수치해석에서 미분방정식을 풀기 위해 그 해석영역(domain)을 격자로 이산화(discretization)하면, 매우 많은 수의 자유도(degree of freedom)를 갖는 대규모 문제를 얻게 된다. 이때, 한 대의 컴퓨터 메모리에 전부 적재하기 어려울 정도로 데이터가 방대하거나, 계산 시간이 지나치게 길어질 수 있다. 이런 상황에서 주로 사용하는 접근이 도메인 분할(domain decomposition) 기법이다.

도메인 분할은 전체 영역을 여러 하위 영역(subdomain)으로 나눈 뒤, 각 영역에 속한 자유도와 그 경계(경계면을 통해 다른 영역과 소통해야 하는 부분 포함)를 독립적으로 처리하는 방식이다. 병렬 컴퓨팅 환경에서는 이 하위 영역들을 여러 프로세스(또는 스레드) 각각에 할당하여, 병렬로 연산을 진행한다. 이 과정에서 하위 영역 간 경계면 정보만 적절히 교환하면 되므로, 통신량이 전체 데이터 양에 비해 크게 줄어들고, 각 노드의 메모리를 효율적으로 활용할 수 있다.

대표적인 도메인 분할 방법으로는 다음과 같은 전략들이 있다.

격자 자체를 단순히 기하학적으로 등분(parMETIS 같은 라이브러리를 사용)
문제 구조에 맞춰 블록 형태로 분할
적응적(adaptive) 분할을 통해, 해나 계수가 급격히 변하는 부분에 더 세밀한 격자를 배정 이를 기반으로 각 하위 영역을 독립적으로 계산한 뒤, 경계 조건에서 정보를 교환하고, 반복적으로 수렴 조건을 만족할 때까지 진행한다.

분산 메모리 병렬 라이브러리와 프레임워크

도메인 분할 기법을 이용해 대규모 편미분방정식을 병렬로 풀기 위해서는, 메시지 패싱 인터페이스(MPI) 같은 통신 라이브러리가 필수적이다. 각 노드는 서로 다른 메모리 주소 공간을 가지므로, 경계면 정보나 중간 계산 결과를 주고받기 위해서는 노드 간 메시지 교환이 필요하기 때문이다. 이를 직접 구현하려면 상당히 복잡하지만, PETSc, Trilinos, Hypre 등과 같은 고수준 라이브러리·프레임워크를 사용하면, 많은 부분이 추상화되어 편리하게 병렬 PDE 솔버를 구축할 수 있다.

예를 들어 PETSc(Portable, Extensible Toolkit for Scientific Computation)은 대규모 병렬 계산에 특화된 자료구조와 선형 해석 알고리즘을 제공한다. 내부적으로 MPI 통신을 사용해 분산 메모리 환경에서 동작하면서, 유저는 PETSc에서 제공하는 $\mathbf{Vec}$, $\mathbf{Mat}$, KSP(Krylov Subspace Methods) 등의 고수준 자료형과 함수를 호출해 수치 계산을 진행한다. 이를 통해 하위 레벨의 스파스 행렬 분산 저장과 통신 로직, 병렬 반복 해법 등이 자동으로 처리된다.

Trilinos 역시 비슷한 목적을 가진 프레임워크로, Epetra/Tpetra 등으로 분산 벡터·행렬을 관리하고, AztecOO, Belos 같은 반복 솔버, MueLu 등의 다중격자(multigrid)·사전조건화(preconditioning) 라이브러리를 종합적으로 제공한다.

도메인 분할을 좀 더 구체적으로 진행하려면, PDE를 유한요소법(FEM)으로 이산화한 뒤 노드 혹은 요소를 여러 그룹으로 나눠서 MPI 프로세스 간에 분산하는 식으로 구현한다. 이때 각 프로세스가 할당받은 요소들의 국소(Local) 행렬을 생성하고, 프로세스 경계(inter-process boundary)에 해당하는 자유도만 서로 교환하면 된다. 라이브러리가 이를 대체로 자동화해 주지만, 문제 구조나 해 방법에 따라 사용자가 직접 세부 조작을 하는 경우도 많다.

다중격자(Multigrid)와 병렬성

큰 스케일의 수치해석 문제에서는 단순한 CG나 GMRES 같은 반복법이 지나치게 많은 반복 횟수를 소모할 수도 있다. 이때 다중격자(Multigrid) 기법이 큰 성능 향상을 가져올 수 있다. 다중격자는 “얕은 격자(coarse grid)에서의 보정”과 “미세 격자(fine grid)에서의 세밀한 해 개선” 과정을 병행함으로써, 일반적인 반복법의 약점을 보완하고 매우 빠르게 수렴을 이끌어 낸다.

문제는 다중격자가 병렬화되었을 때, 격자가 여러 수준(level)으로 구분되므로 레벨 간 통신, 레벨 내 통신이 복잡해진다는 점이다. 그러나 대규모 문제일수록 다중격자의 장점이 극적으로 발현되므로, 현대 HPC 환경에서는 다중격자 알고리즘의 병렬화 연구가 활발히 이루어져 왔다. PETSc, Trilinos 등에서 제공하는 병렬 다중격자 라이브러리를 사용하면, 사용자는 상대적으로 적은 노력으로 다중격자 기반 솔버를 적용할 수 있다.

ODE, DAE 대규모 계산에서의 전략

PDE뿐 아니라, 미분방정식(ODE), 미분대수방정식(DAE) 시스템이 매우 큰 차원을 가질 때도 병렬화·분산화가 고려된다. 예를 들어, 화학 공정 시뮬레이션이나 네트워크 모델에서 수만~수십만 개의 상호연결 방정식을 풀어야 하는 상황이 생길 수 있다. 이때 시간적 병렬성(parareal, PFASST 등)을 적용하는 방법도 연구되어 왔다. 전통적인 ODE 솔버는 시간축을 순차적으로 진행하므로, 병렬화가 주로 공간적(또는 변수적) 분할을 통해 이루어지지만, 시간 축 또한 병렬화하는 접근을 시도하는 것이다.

다만 시간 병렬화 기법은 알고리즘 구현이 복잡하고, 실제 문제별로 수렴 특성이 달라서 범용적으로 사용되지는 않는다. 따라서 대다수 실제 대규모 ODE/DAE 문제에서는 여전히 공간 혹은 변수에 대한 분할을 통해 병렬화를 진행한다. 또한 stiff ODE에서 자주 쓰이는 선형화, 프리컨디셔너 기법, 뉴턴-케일리(Newton-Krylov) 반복 과정 등에서도 대규모 선형계를 계속해서 푸는 구조이므로, 앞서 소개한 분산 메모리 스파스 솔버가 재활용된다.

HPC 환경에서의 작업 스케줄링과 큐(job queue)

클러스터나 슈퍼컴퓨터에서 대규모 병렬 계산을 수행하려면, 작업 스케줄러(예: SLURM, PBS, LSF 등)에 작업(job)을 제출해야 한다. 이 스케줄러가 노드 할당, 자원(코어 수, GPU 수, 메모리 크기) 할당, 큐(priority) 관리 등을 담당한다. 일반적으로 다음 단계를 거친다.

스케줄러가 사용자가 요구한 자원에 맞춰 노드·코어를 할당
MPI나 OpenMP 설정을 통해 병렬 프로세스를 실행
계산 종료 후 로그, 결과 파일, 오류 로그 등을 스케줄러가 관리

HPC 환경에 처음 진입하는 사용자들은 수치해석 알고리즘 구현뿐 아니라, 이러한 작업 스케줄링 방식과 배치(batch) 작업 개념을 숙지해야 한다. 또한 클러스터별로 인터커넥트(InfiniBand, Omni-Path 등) 특성이 다르고, 노드당 GPU 개수나 CPU 코어 구성이 제각각이므로, 이에 맞춘 성능 최적화 전략이 달라질 수 있다.

오류 누적과 재현성(Reproducibility)

대규모 병렬 환경에서 같은 코드라도 실행할 때마다 내부 스케줄링이나 부동소수점 연산 순서가 달라져서, 연산 결과가 약간씩 바뀌는 현상이 발생할 수 있다. 이는 부동소수점 연산이 교환법칙이나 결합법칙을 완전히 만족하지 않기 때문이다. 작은 순서 변경만으로도 결과가 달라질 수 있으므로, 재현성(Reproducibility)을 보장하기 위해서는 연산 순서를 강제로 고정하거나, 고정 소수점 방식 혹은 임의 정밀도 연산을 사용하는 등의 대책이 필요하다.

특히 신뢰도가 중요한 연구나 산업 환경에서, “동일 입력 → 동일 출력”이 보장되는 코드를 구현하기 위해 연산 순서를 강제하거나 특별한 API를 사용하기도 한다. 반대로, 일관된 재현성을 포기하고라도 더 높은 병렬성을 활용하는 경우도 많다. 이 경우 결과의 정확도를 평가하기 위해, 계산 후에 잔차나 목적함수 값을 다시 확인하는 과정을 필수적으로 둔다.

장애 복구(Fault Tolerance)

클러스터 규모가 매우 커질수록, 계산 도중 일부 노드나 디바이스에서 장애가 발생할 가능성이 높아진다. 대규모 수치 시뮬레이션은 여러 시간(혹은 며칠, 몇 주 이상) 동안 연속 실행해야 하는 경우가 많으므로, 하나의 노드라도 장애가 발생하면 전체 계산이 중단될 위험이 있다. 이를 방지하기 위해,

Checkpoint/Restart 기법으로 일정 간격마다 계산 상태를 저장
복원력(resilience)을 갖춘 알고리즘을 적용 하는 접근이 연구되고 있다.

Checkpoint/Restart는 특정 시점마다 메모리 상태를 디스크에 저장해 두었다가, 장애가 발생하면 저장 시점부터 다시 시작한다. 하지만 크고 잦은 체크포인트는 디스크 I/O 병목을 유발하므로, 적절한 빈도와 방법을 선택해야 한다.

일부 복원력 알고리즘은 노드나 프로세스 일부가 실패해도 전체가 중단되지 않고, 남은 정상 프로세스들이 그 실패한 부분의 역할을 재분산해가며 계산을 이어나간다. 예를 들어, 사전조건자나 반복법을 재구성해, 실패 노드가 담당하던 부분을 다른 노드들이 덜어 가져가는 방법이 제안되기도 했다. 이런 접근은 구현 난이도가 높지만, 초대형 클러스터 환경에서 안정적으로 계산을 지속하기 위한 핵심 기술 중 하나다.

소프트웨어 버전과 라이브러리 호환성

최적화를 수행할 때 간과하기 쉬운 부분 중 하나가 라이브러리나 컴파일러, 드라이버 버전 호환성이다. 예를 들어, Intel MKL, CUDA, OpenBLAS, MPI 라이브러리 등은 버전에 따라 내부 최적화와 기능 지원이 크게 달라질 수 있다. 어떤 버전에서 특정 최적화가 잘 적용되다가, 다른 버전에서 성능이 급격히 떨어지거나 심지어 정상 동작하지 않을 수도 있다.

따라서 HPC 소프트웨어 스택을 구성할 때는,

특정 버전 조합이 충분히 테스트되었는지
원하는 아키텍처에서 최적화가 적용되는지
문제 없이 병렬 라이브러리와 연동되는지 등을 꼼꼼히 확인해야 한다. 클러스터 관리자는 모듈 시스템(environment module 등)을 이용해 여러 버전의 컴파일러와 라이브러리를 병행 운영하면서, 사용자들이 필요한 버전을 명시해 로딩하도록 지원한다. 사용자도 프로젝트마다 버전 조합과 빌드 옵션을 기록해 두고, 재현이 가능하도록 관리해야 한다.

벤치마크와 테스트 세트

최적화 과정은 문제 특성에 따라 결과가 달라질 수 있으므로, 대표적인 테스트 세트나 벤치마크 문제를 마련해 두는 것이 좋다. 예를 들어, 유한요소 해석 소프트웨어라면 2D/3D 열전도, 탄성 문제, 유동 문제 등 다양한 물리현상을 대표할 만한 예시 문제들을 미리 준비하여, 각 최적화 기법 적용 전후의 성능과 정확도를 비교해 보는 식이다.

이런 벤치마크는 단순 성능 수치뿐 아니라 수렴률, 메모리 사용량, 부동소수점 오차, 스레드 스케줄링 특성, I/O 대역폭 등을 종합적으로 평가할 수 있게 해 준다. 또한 최적화 기법이 잘못 적용되었을 때 해가 발산하거나 수렴이 늦어지는지, 결과가 비물리적으로 변하는지 등을 빠르게 확인할 수 있어, 중대한 오류를 사전에 발견하기에도 유용하다.

디버깅과 정확성 검증

수치해석 프로그램에서 최적화가 제대로 이루어지려면, 먼저 코드가 올바른 결과를 내는지(정확성)가 전제되어야 한다. 최적화 과정에서 미세한 알고리즘 변경이나 병렬화, 정밀도 조정 등을 적용하면 의도치 않은 오차가 생길 수 있으며, 대규모 병렬 환경에서는 재현성 문제까지 겹쳐 디버깅이 매우 까다롭다.

따라서 대규모 계산 코드를 디버깅하거나 검증할 때, 다음과 같은 측면에 주목해야 한다(단, 여전히 숫자나 불릿 리스트 표현은 지양한다).

알고리즘의 해석적(또는 이론적) 결과와 비교: 예컨대, 특정 PDE에 대해 해석해(analytic solution)가 알려져 있다면, 계산 결과가 어느 정도 정밀도로 일치하는지 확인한다.
축소된 크기의 문제에 대한 테스트: 문제 크기를 충분히 줄여서(예: 2D 문제, 작거나 단순화된 계수), 계산 결과를 손으로 검증하거나 다른 방법으로 쉽게 비교한다.
서로 다른 방정식 풀기 기법 혹은 라이브러리와 비교: 예컨대, 직접 구현한 CG 해법과 SciPy, PETSc 등의 다른 CG 구현 결과가 비슷해야 한다. 특정 문제에서 잔차(residual) 노름 혹은 상대 오차가 비슷한 수준으로 유지되는지 관찰하면 좋다.

특히 병렬화된 코드에서 시간 순서가 뒤바뀌거나, 특정 부분에서 경쟁 상태(race condition)로 인해 중간 변수가 잘못 갱신될 수 있으므로, 병렬 디버거(예: TotalView, DDT, ARM Forge 등)나 스레드 오류 검출 툴(예: ThreadSanitizer)을 활용해야 한다. 대형 클러스터 환경에서는 이러한 툴을 사용하는 절차가 복잡할 수 있지만, 사전에 미니 버전(mini app)을 작성하여 로컬에서 디버깅해 보는 방법도 흔히 쓰인다.

수치 해석에서의 검증(Verification)과 검증-유효화(Validation)

정확성 보장을 위해서는 코드 구현의 오류를 잡아내는 단계인 검증(Verification)과, 모델 자체가 물리적 현상을 잘 반영하는지 점검하는 유효화(Validation)를 모두 수행해야 한다. 수치적 검증은 프로그램이 제대로 동작해 주어진 수학적 방정식을 정확히 풀어내는지 확인하는 것이고, 유효화는 그 수학적 모델(방정식)이 현실이나 실험 결과와 일치하는지를 확인하는 작업이다.

예를 들어, 열전도 방정식 시뮬레이션 코드를 개발했다고 하자. 검증 단계에서는 PDE 해석해(혹은 1차원 단순 해), 간단한 격자에서의 수치해와 비교해, 알고리즘이 예상대로 수렴하는지 본다. 그 뒤 유효화 단계에서, 실제 실험치(온도 분포 측정값)와 비교해 시뮬레이션 결과가 얼마나 일치하는지를 본다. 만일 최적화 과정에서 정밀도를 단정도로 낮추었는데, 유효화 단계에서 실험치와의 오차가 크게 벌어지면, 이 최적화 방법이 적합하지 않은 것으로 볼 수 있다.

수치 안정성과 조건수

최적화와 관련해 또 하나 중요한 개념이 수치 안정성(numerical stability)과 행렬 또는 연산 문제의 조건수(condition number)다. 수치안정성이 나쁜 문제는, 부동소수점 연산에 의한 미세한 오차가 빠르게 증폭되어 결과를 왜곡시킨다. 이는 정밀도 낮추기가 어렵고, 병렬화에 따른 연산 순서 변경도 오차에 민감하게 반응한다.

이를 수치적으로 개선하기 위한 접근 중 하나가 사전조건화(preconditioning)다. $\mathbf{A}\mathbf{x} = \mathbf{b}$ 문제에서, 적절한 행렬 $\mathbf{M}$을 사용해 $\mathbf{M}^{-1}\mathbf{A}$의 조건수를 낮출 수 있다면, 적은 반복 횟수 안에 안정적으로 수렴할 수 있다. 이때 $\mathbf{M}$을 효율적으로 구축하고 적용하는 과정이 병렬화, 메모리 활용, 최적화의 관건이 된다.

비선형 문제나 고차방정식을 다룰 때도, 뉴턴-케일리(Newton-Krylov) 방법 등으로 내부 선형계를 반복적으로 풀어야 하므로, 적절한 사전조건화와 스파스 행렬 연산 최적화가 필수적이다. 큰 규모에서 병렬화가 필연적이므로, 도메인 분할 사전조건화(domain decomposition preconditioner), 다중격자 사전조건화(multigrid preconditioner) 등이 널리 연구·활용되고 있다.

결합 문제(Coupled Problem)와 모듈성

실제 공학·과학 문제는 단일 물리 방정식만 다루지 않고, 유동-열-응력-화학 반응 등 서로 다른 방정식이 결합되어 상호작용하는 경우가 흔하다. 이를 결합 문제(coupled problem)라고 하며, 각 부분 문제를 어떻게 분할·결합하는지가 계산 시간과 메모리 사용량 최적화에 중요한 영향을 미친다.

결합 문제를 풀 때,

한 방정식의 해를 구한 뒤 이를 다른 방정식에 대입하는 약결합(loose coupling) 방식
동시에 거대한 연립방정식을 구성해 풀어내는 강결합(strong coupling) 방식 등 다양한 방법이 있다. 강결합 방식은 일반적으로 정확성이 높고 안정적이지만, 거대한 시스템을 한 번에 풀어야 하므로 계산 자원이 많이 들고, 병렬화 복잡도가 올라간다. 반면 약결합 방식은 각 부분 문제를 분리해 모듈화하기가 쉬우나, 수렴 특성이나 정확도가 떨어질 수 있다.

이런 결합 문제를 효율적으로 최적화하기 위해서는, 코드 구조가 모듈화되어 있어야 한다. 유동 부분, 열전달 부분, 응력 해석 부분이 각각 별도의 모듈로 설계되어 있으면, 각 모듈에서 사용되는 선형 솔버나 데이터 구조를 독립적으로 최적화할 수 있다. 그리고 병렬 분산 환경에서도 모듈 간 통신 규약을 명확히 정의해, 경계 조건이나 매개변수를 교환하면 된다.

실무 프로젝트에서의 최적화 전략 통합

결국 수치해석 프로젝트를 실무나 대형 연구 과제에서 운영할 때는, 여태까지 언급했던 다양한 최적화 기법을 유기적으로 통합해야 한다. 구체적으로,

스파스 행렬 자료구조와 반복적 해법의 병행 사용
GPU, 멀티코어, 클러스터 환경을 아우르는 하이브리드 병렬화(OpenMP+MPI+CUDA/HIP 등)
사용자 친화적 인터페이스와 자동 튜닝 기법 도입
철저한 프로파일링 및 벤치마크
코드 품질 관리(디버깅, 버전 관리, 지속적 통합 테스트) 등이 종합적으로 이뤄져야 한다.

수치해석은 그 특성상 알고리즘·하드웨어·소프트웨어 모두를 종합적으로 바라봐야 하며, 각각의 레벨에서 최적화 포인트가 존재한다. 문제의 크기가 커지고 복잡해질수록 더 정교한 기법이 요구되며, 높은 수준의 유지보수·디버깅 능력도 필수다. 이러한 과정을 통해 얻어지는 계산 시간 단축과 메모리 절약이, 연구 생산성을 크게 높이고 산업 공정의 시뮬레이션 가능 범위를 넓히는 결과로 이어진다.

Previous오버플로우·언더플로우의 원인과 대처 Next반복 연산 시 정확도 유지 방안

Last updated 1 year ago

hashtag시간 복잡도와 공간 복잡도의 관계

hashtagCPU 캐시와 메모리 계층 구조의 중요성

hashtag수학 라이브러리와 병렬화 활용

hashtag예시: 블록 행렬 곱셈 Python 구현

hashtag고차원 문제에서의 메모리 이슈와 스파스 행렬

hashtag고급 스파스 연산에서의 성능 고려

hashtag메모리 아웃오브코어(Out-of-Core) 방식

hashtagCPU/GPU 하이브리드 환경

hashtag병렬 분산 환경(MPI 등)의 도입

hashtag프로파일링과 성능 튜닝 기초

hashtag정밀도(Precision)와 연산 시간의 관계

hashtag메모리 배치와 패딩(Padding)

hashtag알고리즘적 관점에서의 최적화

hashtag예시: 프로파일링과 알고리즘 선택

hashtagmermaid 예시: 최적화 프로세스 개략도

hashtag컴파일러 최적화와 파이프라이닝

hashtag메모리 구조와 NUMA 최적화

hashtagGPU 메모리 최적화

hashtag동적 스케줄링과 로드 밸런싱

hashtag확장성(Scalability) 분석

hashtag자동 튜닝(Auto-Tuning) 기법

hashtag성능 지표(GFLOPS, 메모리 대역폭 등)

hashtag정리되지 않은(스파게티) 코드를 최적화할 때 주의점

hashtag대규모 편미분방정식(PDE) 문제와 도메인 분할 기법

hashtag분산 메모리 병렬 라이브러리와 프레임워크

hashtag다중격자(Multigrid)와 병렬성

hashtagODE, DAE 대규모 계산에서의 전략

hashtagHPC 환경에서의 작업 스케줄링과 큐(job queue)

hashtag오류 누적과 재현성(Reproducibility)

hashtag장애 복구(Fault Tolerance)

hashtag소프트웨어 버전과 라이브러리 호환성

hashtag벤치마크와 테스트 세트

hashtag디버깅과 정확성 검증

hashtag수치 해석에서의 검증(Verification)과 검증-유효화(Validation)

hashtag수치 안정성과 조건수

hashtag결합 문제(Coupled Problem)와 모듈성

hashtag실무 프로젝트에서의 최적화 전략 통합