크롤링 자동화

크롤링을 위해 crontab을 써야할 일이 생겼는데, 재배포의 효율성을 높이고 서버의 설정을 코드로 관리하기 위해 관련된 내용을 공부해봤다. crontab이란? 소프트웨어 유틸리티 cron은 유닉스 계열 컴퓨터 운영 체제의 시간 기반 잡 스케줄러이다. 소프트웨어 환경을 설정하고 관리하는 사람들은 작업을 고정된 시간, 날짜, 간격에 주기적으로 실행할 수 있도록 스케줄링하기 위해 cron을 사용한다. 출처 위키백과 : https://ko.wikipedia.org/wiki/Cron 이때 crontab은 cron table에 줄임말로 cron의 명세를 해놓은 파일이다. crontab 사용하기 crontab -e# crontab 편집 crontab -l# crontab 내용 보기 crontab -r# cronta..
크롤링을 할 일이 생겼는데, 파이썬 코드로 작성된 파일 여러개를 동시 실행하다보니 t*.micro에서는 원활하게 돌아가지 않고, 버벅거림이 있었다. 최소 small, medium에서 돌려야 깔끔하게 돌아가는걸 확인했다. 이제 금액이 고민이었다. medium 온디멘드로 띄워 놓으면 좋겠지만 한달에 나가는 비용이 만만치 않을 것이다. 그렇다고 크롤링 할 때마다 켰다 끄자니 너무 귀찮은일... 그래서 spot instance를 생성해서 가격적인 측면을 타협하고, 생성/삭제 과정을 terraform으로 관리하고자한다. 기본적인 설치/세팅은 shell script로 관리하고, crontab을 이용해 자동화 시킨다. Terraform 설정 1. aws provider 설정 - IAM 계정 정보는 aws cli로 로..
파이랜스
'크롤링 자동화' 태그의 글 목록