🌏 구글 딥마인드, 지구를 '조건 검색'하다
2025. 08. 05 | EP. 24
오늘 레터는 이런 내용이에요 💌:
  • 지구를 10㎡씩 타일처럼 조각을 냈다고?
  • 위성 데이터가 많은데, AlphaEarth가 '굳이' 필요한 이유
  • AlphaEarth로 무얼 할 수 있을까?

전 지구가 이제 10m × 10m 단위로 나뉘었습니다. 조금 더 정확히 말하면, 전 세계의 육지와 연안 해역이 10㎡ 크기의 촘촘한 격자로 쪼개졌는데요. 어떻게 된 일일까요?


구글 딥마인드는 전례 없는 규모의 지구 관측 데이터를 통합해, 10㎡ 단위로 지구의 정보를 정리한 AlphaEarth Foundations (이하 ‘알파어스’)를 개발했습니다. 이제 원하는 위치를 고르면 그 땅의 기후, 토지, 개발 상태와 변화까지 한눈에 파악할 수 있습니다. 조건이 유사한 땅도 빠르게 찾을 수 있다는데요. 지구를 ‘조건 검색’하는 세상이 왔습니다. 🗂

64차원인 AlphaEarth가 하는 일
알파어스는 각 10m × 10m 땅 조각마다 64개의 숫자로 이루어진 특별한 좌표를 만들었습니다. 이 좌표를 임베딩(embedding)이라고 부릅니다. 쉽게 말해, 그 땅의 '상태 지문'이라고 볼 수 있는데요. AI가 위성이나 기후를 포함한 수많은 데이터에서 스스로 패턴을 찾아내고, 그 특징들을 압축해 만든 좌표입니다.

전 지구를 64차원 좌표로 표현한 예시. 출처: 구글

각 땅 조각의 임베딩을 통해 알파어스는 아래와 같은 임무를 수행할 수 있습니다.

  • 유사 지역 검색: 특정 지역의 임베딩을 기준으로, 전 세계에서 비슷한 환경 조건을 가진 다른 지역을 빠르게 찾아낼 수 있습니다.
  • 변화 탐지: 같은 지역의 서로 다른 시점 임베딩을 비교해 도시 확장, 산불 피해, 수위 변화 등을 정밀하게 파악할 수 있습니다.
  • 관측 공백 보완: 구름, 센서 고장 등으로 인해 비어 있는 구간을 다른 시기, 혹은 다른 센서 데이터로 보완합니다.

임베딩을 활용해 알파어스가 분석한 땅 조각 예시를 볼까요?

알파어스 결과물 비교. 출처: 구글. 편집: 먀 AI

각 세트 속 좌측 상단 은 알파어스, 그리고 우측 상단은 비교 모델의 분석 결과입니다. 그 아랫줄은 기준으로 삼고 있는 모델인데요.

1번 세트는 캐나다 농지의 작물 분류 데이터입니다. 아래에 있는 데이터와 비교했을 때, 알파어스가 실제 작물 경계를 더 선명하게 표현했음을 알 수 있습니다. 2번 세트는 2020~2021년 사이 산림이 개발지로 바뀐 지역을 감지한 분석 결과인데요. 알파어스 실제 변화 영역을 더 정확하게 잡아냈습니다.🕵🏻‍♂️
AlphaEarth, 왜 필요할까?

매일 수많은 위성들이 지구를 관측합니다. Sentinel-2와 Landsat 같은 광학 위성, 구름과 밤을 뚫고 지표를 보는 Sentinel-1 레이더, 산림 높이를 측정하는 NASA의 GEDI, 기후를 재분석하는 ERA5 등 종류도 다양한데요. 이렇게 많은 데이터가 있는데 알파어스는 왜 필요할까요?


지구 분석을 위해, 매년 수십~수백 페타바이트(PB) 규모의 데이터가 쌓입니다. 1페타바이트는 1,000테라바이트와 동일한데요. 이는 큰 서류 캐비닛 2,000만 개, 또는 인쇄된 A4용지 5,000억 페이지와 같다는 추산이 있습니다. 어마어마하지요? 😯


기존 방식으로는 이렇게 방대한 양의 데이터를 한 번에 처리하기가 어렵습니다. 게다가 관측에 사용한 각 센서의 해상도, 좌표계, 단위도 모두 달라서 통합이 쉽지 않지요. 게다가 기후로 인해 구름에 가려져 잘 보이지 않는 지역도 많아 데이터의 양도, 질도 균일하지 않습니다. 알파어스는 이런 문제들을 어떻게 해결했을까요?

AlphaEarth, 어떻게 작동할까?

다양한 위성 및 지구 관측 데이터를 통일된 형식과 조건으로 맞추기 위해, 연구진은 사전에 데이터를 변환하는 '전처리 절차'를 거칩니다. 서로 다른 종류의 위성 데이터를 한데 모아도 모델이 혼란 없이 읽을 수 있도록 미리 맞추는 과정입니다.


위성마다 측정 방식이나 단위, 그리고 해상도가 제각각이라고 했지요? 어떤 위성은 10m 해상도, 또 어떤 위성은 30m 해상도로 촬영하기 때문인데요. 알파어스는 모든 데이터를 10m 격자와 공통된 좌표계로 변환해 표준화합니다. 관측 순서도 맞춰, 계절이나 장기적인 변화를 비교할 수 있도록 하지요. 또한 구름이나 그림자, 혹은 센서 고장 등으로 비어버린 데이터는 다른 시기나 센서의 데이터로 보완합니다. 이렇게 데이터 전처리 과정을 거치면, 서로 다른 위성에서 온 자료도 한 가지 표준 형식으로 깔끔하게 맞춰집니다.

알파어스가 다루는 다양한 데이터. 출처: 구글

데이터를 정리했으니, 이제 알파어스가 이를 잘 이해하고 분석할 수 있도록 변환해야 합니다. 전처리를 거친 데이터는 STP(Space‑Time‑Precision) 인코더로 들어가는데요. 여기서 인코더는 여러 형태의 복잡한 데이터를 받아서, 기계가 잘 이해할 수 있는 형태로 바꿔주는 번역기라고 볼 수 있습니다. 알파어스의 STP 인코더는 위성 시계열 데이터를 마치 영화처럼 받아들이면서, 한 장면의 전경뿐 아니라 넓은 공간 패턴, 장면이 이어지며 나타나는 시간 흐름, 그리고 자세히 들여다봐야 보이는 세밀한 구조까지 동시에 읽어 변환합니다.

AlphaEarth가 시간을 다루는 방법

알파어스의 중요한 특징 중 하나는 시간을 연속적으로 다룬다는 점인데요. 연구진은 두 가지 개념을 사용합니다.

  • Support period:
    모델이 참고할 수 있는 전체 기간. 쉽게 말해, ‘학습에 쓸 수 있는 모든 시간 구간’이다.
  • Valid period:
    우리가 실제로 결과를 보고 싶은 목표 기간.

알파어스는 Valid 기간에 실제 데이터가 전혀 없어도 결과를 만들 수 있습니다. 시간 축을 연속적인 함수처럼 학습하기 때문이지요. 덕분에 알파어스는 구름 때문에 몇 달간 가려진 지역의 변화를 복원하거나, 앞으로 몇 년 뒤의 도시 확장 가능성까지도 예측할 수 있습니다.

AlphaEarth의 성능
알파어스는 전 세계의 토지 변화와 이용 현황, 그리고 미국 서부의 물 증발량을 다룬 대표적인 환경 데이터셋 등 다양한 기준을 활용해 평가되었습니다. 성과를 한 번 살펴볼까요?

알파어스가 기존 모델 대비 줄인 오류율. 출처: 구글

위 그래프는 알파어스가 다양한 평가 작업에서 알파어스 다음으로 성능이 좋은 모델과 비교했을 때, 오류를 얼마나 줄였는지 보여줍니다. 검은 점선(1.0)은 두 모델의 성능이 같을 때를 의미하지요. 검은 점선 위로 막대가 높이 올라올수록, 알파어스가 더 정확하다는 뜻입니다. 각 막대 속에 있는 위쪽과 아래쪽의 숫자는 각각 알파어스와 비교 모델의 성능을 나타내는데요. 알파어스는 기존 최고 성능 모델 대비 평균 24% 낮은 오류율을 기록했습니다.

이제 특정 위치 한 점만 골라도 그 땅의 'DNA'를 알 수 있습니다. 어떤 동물이 어느 지역에 서식하며, 서로 환경이 비슷한 지역은 어디인지, 또 세월을 따라 어떻게 달라졌는지 모두 알 수 있지요. 알파어스는 전 지구를 10미터 단위로 인덱싱해 새로운 체계를 만들었습니다. 환경 모니터링, 기후 변화 연구, 재해 예방 등 수많은 분야에서 우리에게 지구를 읽어줄 알파어스를 기대합니다.🌏


📝 참고자료 

- 논문 <AlphaEarth Foundations: An embedding field model for accurate and efficient global mapping from sparse label data

구독자님, 재밌게 읽으셨나요?
주변에도 공유해 주시면 정말 감사하겠습니다. 😌
먀. ai
hello@mmmya.ai
수신거부 Unsubscribe😭