안녕하세요. 리스틀리입니다.😊 오늘은 리스틀리를 사용하면서 겪는 가장 보편적인 추출 실패 사례를 다뤄보려고

안녕하세요. 리스틀리입니다.😊

오늘은 리스틀리를 사용하면서 겪는 가장 보편적인 추출 실패 사례를 다뤄보려고 합니다. 방금 한 페이지를 추출하는 것에는 성공했는데, 왜!! 설정을 붙인 후 재추출을 하거나 그룹추출을 걸어두거나, 스케쥴로 걸어두면 실패라는 맘 아픈 글자를 만나게 되는지, 가장 보편적인 이유와 진단&해결 방법을 알아보아요 :)
📌
1. 그 URL로는 접근 할 수 없습니다...😥

방금 추출에 성공했는데 왜 접근을 할 수가 없어? 라고 생각하실 수도 있습니다.

하지만 확장 아이콘을 클릭하여 페이지를 추출할 때, 설정 후 재추출 or 그룹추출을 진행하는 경우에는 데이터를 수집하는 주체가 다릅니다. 오잉? 이게 무슨 말일까요?  

위는 데이터의 재추출(그룹추출 포함) 과정을 간단하게 보여주는 예시입니다. 이러한 케이스는 로그인 기록, 접속국가 등 페이지에 접근하기 위해 특정 권한이 필요한 사이트에서 많이 겪게 됩니다. 


확인해보세요📌 크롬 브라우저의 시크릿 모드를 켜고 방금 추출한 URL을 주소창에 입력하여 접속해보세요. 시크릿모드는 크롬에서 키보드 Ctrl+Shift+N을 누르면 활성화됩니다. 이 방법으로 해당 페이지에 바로 접근할 수 없다면 아래의 방법을 따라주세요.😉


해결방법(링크를 클릭하면 도움말로 연결됩니다)

1. 로그인이 필요한 페이지라면 설정->로그인 정보를 입력해주세요.

2. 프록시 설정을 바꿔보세요.

3. 탭스 추출을 이용해보세요.(열린 페이지를 모두 확장 프로그램 단에서 추출)

📌
2. 들켜버렸어요.. 기계라는 것을…😥

대부분의 웹사이트는 자체적인 방어시스템이 작동하고 있어, 단시간에 비슷한 접근을 여러 번 시도하는(사람의 속도라고는 믿을 수 없는) 서버는 높은 확률로 차단을 당하게 됩니다. 이럴 때에는 어떻게 해야할까요?


해결방법(링크를 클릭하면 도움말로 연결됩니다)

1. 추출 속도를 조절합니다.

그룹태스크의 경우 그룹 설정(톱니바퀴 아이콘) →그룹추출속도 조절을 해주세요!

2. 프록시 설정 변경

📌
3. 있는데, 없는 데이터가 있습니다(무슨 말..?)

이 케이스는 실패가 아니지만, 계속해서 예상보다 적은 데이터만 추출되는 경우입니다.

분명 웹페이지에는 상품이 80개가 있다는데, 왜 15개만 추출되는 걸까?

이 경우는 보통 위의 이미지와 같은 상황입니다. 웹페이지에서 한번에 모든 데이터를 불러온 후 정보를 띄우려면 로딩시간이 오래 걸릴 수 있기 때문에 스크롤을 내릴 때 나머지 데이터들이 불러와지게끔 설정된 것이죠.

이 때에는 두가지 방법이 있습니다.
1. (기본)스크롤을 웹페이지의 하단 끝까지 전부 내려 모든 정보가 로드된 후 추출한다.

그런데, 위의 방법을 따랐는데도 계속 전체 아이템이 아닌 일부만 추출이 된다?

이것은 아래와 같이 화면에 보이는 데이터만 불러온다는 설정이 추가로 붙은 웹사이트입니다. 스크롤을 내려 화면에서 데이터가 안보이게 되면 그 페이지에선 그 데이터도 날라가는 것입니다..😫

오늘의 뉴스레터는 여기까지! 

오늘 다룬 내용은 보편적인 상황에 대한 가이드입니다. 웹사이트의 경우의 수가 무궁무진한 만큼 위의 방법으로도 해결이 되지 않을 수 있습니다. 

그럴 땐 주저없이! hello@listly.io 문제 사례를 알려주세요. 개별 케이스에 맞는 적절한 설정 방법과 추출 팁을 전해드리겠습니다!  리스틀리 알차게 사용하세요😍

💌
혹시 무료 버전을 사용 중이신가요?
그룹추출부터 자동스크롤까지, 뉴스레터에 소개된 해결 방법이 궁금하시다면
14일 비즈니스 플랜 무료체험을 통해
리스틀리의 모든 기능을 사용해 보실 수 있습니다.
아래 링크를 통해 신청해 주세요😉
본 메일은 리스틀리 마케팅 정보 수신에 동의하신 회원님을 대상으로 발송되었습니다. 

Listly.io / hello@listly.io
수신거부 Unsubscribe