녕하세요, 리스틀리입니다. 🙂

지난 주 뉴스레터 "6개월짜리 부동산 정보 수집 업무, 3일만에 끝낸 전략" 발행 전후로 부동산 플랫폼 데이터 추출 방법에 대해 문의해주신 분들이 많았어요. 오늘의 레터는 그간 많은 공인중개사님들이 문의를 주셨던 대표적인 케이스를 바탕으로 관련 내용을 다뤄보려고 합니다. 


추출할 사이트나 데이터의 위치에 따라 소개드리는 방식 외에도 더 다양한 추출 방식과 접근 방법이 있을 수 있다는 점 미리 말씀드리면서 시작해보겠습니다!

▼이런 페이지는 도대체 어떻게 추출하는거지?

부동산 정보를 추출을 해보신 적이 있다면, 어딘가 익숙한 구성이지 않나요?

위 페이지는 대표적인 부동산 플랫폼의 형식을 따라 만들어본 가상의 웹페이지입니다. 위 화면과 같이 검색 후 나타나는 매물 리스트를 각각 클릭했을 때, 날개처럼 쇽! 펼쳐지는 그 구간(팝오버 창이라고 표현하기도 해요) 안에 있는 정보를 추출하고 싶은 상황을 마주해 보신 적이 있을 거에요. 


결론부터 말씀 드리자면, 이 부분을 한 번에 추출하기 위해서는 “액션스크립트" 라는 부가 설정이 필요합니다.


위의 샘플 페이지를 예로 들어, 추출 방식을 간략하게 알아볼게요.

실제 추출에서는 별도의 액션스크립트(코드)가 필요하므로, 어떤 방식으로 추출이 되는 것인지만 가볍게 읽어봐주세요.😉

1. 데이터를 추출할 페이지에서 리스틀리→전체(Whole)를 클릭하여 페이지를 추출합니다.

2. 그럼 위 화면과 같이 왼쪽에 있던 리스트에 있는 정보들만 1차적으로 추출이 되는데요.   

3. 결과창에서 위 이미지에서 표시된 구간을 클릭해 브라우저 설정으로 진입합니다.   


(위 이미지에 사용된 코드는 예시로, 실제 작동하는 코드가 아닙니다.) 

4. 설정창 중간 부분에 위치한 '액션스크립트' 영역에 원하는 데이터 위치로 접근하기 위한 코드를 입력합니다.


여기서 잠깐!, "액션스크립트"란 무엇일까요?

이 사례에 빗대어 간단하게 표현하자면, “방금 추출한 리스트 정보를 하나씩 클릭하고, 그 후에 나타나는 상세 내용 정보를 수집해줘!” 와 같은 요청을 컴퓨터 언어(=코드)로 작성한 것입니다.


예를들어, 웹페이지의 URL집 주소로 비유해 보겠습니다.

기본적으로 리스틀리와 같은 웹스크래핑 봇들은 이 '집 주소'만 가지고 웹페이지에 방문하여 정보를 수집하는데요. 특정 요소를 클릭했을 때 보이는 상세 데이터와 같은 경우는 집 안에 있는 수 많은 서랍 중, 특정 행동을 했을 때(=클릭) 열리는 서랍 속의 정보를 가져와야 하는 상황인 것입니다.


당연히 집주소(URL)만으로는 정확한 데이터의 위치를 알수가 없기 때문에 "무슨 액션을 하고, 어떤 위치의 정보를 가져와!" 하는 추가적인 코드가 필요한 것이에요.

5. 설정을 저장하고, 재추출 버튼을 클릭해 '액션스크립트'가 적용된 상태로 추출을 다시 진행합니다.

6. 재추출이 완료된 후 결과를 확인해보면, 처음 추출했을 때는 추출되지 않았던 상세 구간의 정보들이 추출된 것을 확인하실 수 있습니다.

위의 예시에서는 간략하게 표현했지만, 방문자가 매우 많은 대형 플랫폼이나, 지도를 기반으로 한 동적사이트의 경우 프록시 설정이나 대기시간 설정 등 액션스크립트 외에도 추가적인 설정값이 필요한 경우가 있어요. 또한 동일한 사례라도, 웹사이트는 매우 유동적이고 우리 눈에는 보이지 않는 곳에서 업데이트가 자주 일어나기 때문에 추출하는 시기별로도 각각 다른 스크립트가 필요할 수 있으니, 이점 참고해주세요.


그렇기 때문에 원하는 데이터 추출에 어려움을 겪고 계신다면, hello@listly.io로 문의를 남겨주세요. 개별 사례에 맞춰 같이 고민해드리겠습니다.


그럼, 액션스크립트란 무엇인지! 한번에 추출되지 않는 데이터를 추출하기 위해서는 어떤 방식으로 접근해야 하는지? 궁금증 해결에 조금이나마 도움이 되었길 바라면서 오늘의 레터를 마무리 하도록 하겠습니다.🙂

💌
오늘의 뉴스레터, 어떻게 보셨나요?
뉴스레터에서 다뤄줬으면 하는 내용이 있으시다면
아래 버튼을 클릭해 소중한 의견을 남겨주세요.
리스틀리 뉴스레터를 처음 받아보셨나요?
본 메일은 리스틀리 마케팅 정보 수신에 동의하신 회원님을 대상으로 발송되었습니다. 

Listly.io / hello@listly.io
수신거부 Unsubscribe