안녕하세요. 리스틀리입니다.😉
오늘의 주제는 그룹추출! 그 중에서도 자칫 놓치기 쉬운 '딱 한단계' 때문에 추출결과에 아쉬움을 느끼셨을 분들을 위해 그룹추출의 대표적인 실수 유형과 해결 방법에 대해 다뤄보려고 해요.
그럼 시작해보겠습니다.
|
|
|
[A님의 사례]
그룹추출을 하고나면 웹사이트에서 조회한 결과보다 추출량이 적어요.
왜 그럴까요?
앗 어떤 이유로 그룹추출에서 누락된 부분이 생겼던 걸까요? A님의 입장에서 해당 상황을 재현해보겠습니다.(아래 예제는 리스틀리 테스트사이트에서 진행하였습니다.)
|
|
|
[A] 저는 위와 같은 구조의 쇼핑몰에서 여러 페이지에 나뉘어진 상품정보가 필요했어요. |
|
|
[A] 검색 결과를 보니 총 30개의 아이템이 존재한다는 것을 확인했고요 |
|
|
[A] 아이템들이 페이지네이션 형태로 진열되어 있다는 것, 그리고 각 숫자 버튼을 클릭했을때, 각 페이지별로 URL이 달라진다는 점도 확인할 수 있었어요. 이 경우 그룹추출이 가능하다고 판단해 다음과 같은 단계로 그룹추출을 실행했어요. |
|
|
[1] 리스틀리 Parts로 추출영역을 선택하여 1페이지를 추출했습니다. |
[2] 결과창에서 그룹추출을 위해 +그룹 버튼을 클릭했어요. |
|
|
[3] 1페이지는 이미 추출했으니, 연속되는 2,3페이지의 URL만 입력했습니다. |
[4] 추출 완료 후 그룹엑셀 버튼을 클릭해 데이터를 다운로드 했어요. |
|
|
[A] 그런데 분명 추출하려던 웹페이지에는 30개의 아이템이 있었는데, 데이터는 18개밖에 추출되지 않았고, 자세히 살펴보니 1페이지에 있던 item 01~12번 까지가 추출되지 않았습니다. |
|
|
이렇게 A님의 사례를 확인해보았는데요,
어떤부분에서 데이터가 누락되었는지 눈치 채셨나요?
[3] 1페이지는 이미 추출했으니, 연속되는 2,3페이지의 URL만 입력했습니다.
바로 ⬆︎이 부분이 문제의 원인입니다.
그룹추출을 진행할 때, 꽤 많은 사용자분들께서 처음 추출한 페이지의 URL을 빠뜨리는 경우가 종종 있는데요. 이미 리스틀리로 추출 했던 페이지이니 다시 입력하지 않아도 되는것 아닌가? 라는 생각을 하실 수 있지만, 그룹추출을 진행하게 되면, 해당 태스크는 ‘그룹소스’가 되어, 그룹창에서 입력할 여러개의 URL의 뼈대 역할을 하게 됩니다. 데이터 추출은 입력한 URL들을 대상으로 실행되고요.
이 문제의 해결방법은 매우 간단해요. |
|
|
최초로 추출했던 소스 페이지 URL도 꼭 놓치지 말고 그룹추출 URL에 추가해주시면 모든 페이지의 데이터를 추출하실 수 있습니다.😊 |
|
|
[B님의 사례]
목록페이지에서 하이퍼링크를 추출하고, 상세 페이지 그룹추출을 하려고 하는데 계속 실패합니다.
이번에도 B님의 입장에서 상황을 재구성 해볼게요! |
|
|
[B] 쇼핑몰에서 상세페이지에 있는 데이터들을 일괄적으로 추출해야하는 상황이었어요. |
|
|
[B] 확인해보니 상세페이지마다 URL이 다르더라고요. 그래서 상세페이지 링크를 목록에서 추출한 후 그룹추출을 해야겠다고 생각했습니다. 다음은 저의 실행단계입니다. |
|
|
[2] 결과창에서 하이퍼링크에 체크하고 엑셀파일을 다운로드 했어요. |
|
|
[3] 파일을 확인해보니 각 상품의 상세페이지 링크가 잘 추출되었더라고요. |
[4] 그래서 방금 데이터를 추출했던 결과창으로 돌아가 +그룹 버튼을 클릭했습니다. |
|
|
[5] 그리고 엑셀파일에서 복사해온 상세페이지들의 URL을 붙여넣고 저장했어요. |
[6] 그런데 몇번을 시도해도 계속 그룹추출에 실패했습니다. 문제가 뭘까요? |
|
|
이렇게 B님의 사례도 살펴보았습니다.
이번에도 어떤 단계에서 문제가 있었는지 눈치채셨나요?
4. 그래서 방금 데이터를 추출했던 페이지 결과창으로 돌아가 +그룹 버튼을 클릭했습니다.
바로 ⬆︎이 부분이 문제의 이유였습니다. |
|
|
위 애니메이션과 같이 그룹추출 시 ‘맨 처음 추출한 페이지'는 위에서도 언급했듯 일종의 ‘틀' 역할을 합니다.
맨 처음 추출한 데이터와 ‘같은 위치에’ 있는 데이터를 추출하는 것이 그룹추출의 메커니즘인데요.
B님께서는 가장 마지막에 추출했던 목록형 페이지의 결과창에서 상세페이지 URL을 입력해 그룹추출을 시도하였으므로, 페이지의 형태와 구조, 데이터의 위치가 모두 다를 수 밖에 없어 실패할 수 밖에 없었던 것이에요.
올바른 방법은 다음과 같습니다. |
|
|
추출한 하이퍼링크들끼리 그룹추출하길 원하신다면
다시 리스트 페이지의 추출 결과창으로 돌아가지 마시고, 추출된 링크들 중 가장 상단의 링크를 클릭해 상세페이지로 접근해주세요. |
|
|
그 후 상세페이지에서 공통적으로 필요한 데이터를 선택하여 리스틀리로 추출해주시고요.
(추출 방식은 전체/부분 모두 상관 없습니다.) |
|
|
해당 상세페이지의 결과 창에서 +그룹 버튼을 클릭하여 나머지 그룹추출 과정을 진행해주시면 됩니다. |
|
|
실수 없는 그룹추출을 위한 기본TIP 핵심정리🌟
1. 그룹을 만들 때, URL은 그룹소스 페이지까지 빠짐없이 입력해주세요.
2. 그룹을 만들 때, 그룹소스(그룹추출을 시작하는 페이지)는 추출할 페이지 중에서 골라주세요 |
|
|
오늘의 레터는 여기까지
이렇게 알고보면 매우 단순하지만, 놓치게 된다면 그룹추출에 답답함을 느끼실 수 있는 대표적인 사례와 해결 방법에 대해 알아보았습니다.
오늘의 레터도 구독자님들의 업무에 소소하게나마 도움이 되셨길 바라며!
이상으로 리스틀리였습니다.😍
|
|
|
💌
오늘의 뉴스레터, 어떻게 보셨나요?
뉴스레터에서 다뤄줬으면 하는 내용이 있으시다면
아래 버튼을 클릭해 소중한 의견을 남겨주세요. |
|
|
💚 소중한 구독자 여러분께 드리는 안내말씀! 💚
항상 리스틀리 뉴스레터에 응원과 의견을 보내주셔서 정말 감사드립니다. 🙂
덕분에 더욱 힘을 내어 좋은 콘텐츠를 발행하기 위해 항상 노력하고 있습니다.
다만, 간혹 특정 웹사이트 한 곳을 지정한 데이터 추출 방법이나 개인적인 문제 해결에 대한 질문을 남겨주시는 분들이 계시는데요. 혹시라도 ‘왜 내 질문엔 코멘트를 남겨주지 않는걸까?’ 하며 서운함을 느끼실 분들이 계실까 염려되어...👉👈 이렇게 안내 말씀을 드립니다.
이 안내문 위에 위치한 [좋았어요],[아쉬워요] 버튼을 통해 남겨주시는 피드백은 익명으로 수집되고 있으며, 뉴스레터 팀에서는 가능한 많은 구독자분들께 유익한 정보가 될 수 있는 내용을 선별하여 발행하고 있습니다. 이와 같은 이유로 개인적인 문의에 대해서는 뉴스레터에서 구체적인 답변을 드리기 어려우며, 연락처나 이메일을 수집하지 않으므로 개별적으로도 연락드릴 방법이 없습니다.😢
이점 양해 부탁드리며, 개인적인 문의사항은 리스틀리 대표메일 hello@listly.io로 보내주시거나, 리스틀리 홈페이지에서 로그인 후 서비스 문의채널을 통해 접수해주시면 성심껏 답변해드리겠습니다.
소중한 의견과 응원에 항상 감사드리며, 앞으로도 많은 관심 부탁드립니다!💚
|
|
|
본 메일은 리스틀리 마케팅 정보 수신에 동의하신 회원님을 대상으로 발송되었습니다.
|
|
|
|
|