Web Scraping, Data Mining and web crawling developer and BDD management - Regular mission and project monitoring.
We are a startup specialized in B2B database management in France. Speaking French is mandatory
I'm looking for a developer specialized in website scraping and structuring of our main database.
Objective
Long-term mission to consolidate our Pro database
We have:
A main database of 30 million records updated regularly.
We already have more than 10 secondary bases scraped regularly (cron).
Research:
A service provider for regular missions to maintain our database.
Payment by the hour
The service provider must be autonomous and proactive
Mission
- Take over the developments already done in PHP
- Regularly develop scrappers to collect information from websites or CSV, XLS, Json data.
- Maintain scrapper updates
- Enrich our main database by adding or updating new data
- Cleaning and formatting the DB
- Import x files with the same ID to group them into a single file
- Multi-criteria export
- BDD Statistics
...
We already have a dozen PHP scrapers that run
Language to be used :
PHP development preference
Objective:
- Develop a list of new scrapbookers
- Import and update data to the main database
- Develop tools to match, pair, enrich, self-complete, structure, duplicate.
- To have knowledge of phonetics management for similar names or badly written addresses.
- Reconcile a company name and a Siret / Siren from 2, 3, 4 keys
- Logic for managing the creation of emails from the last name, first domain name: Create, check, recreate, if non-compliant
- Management of mail patterns
…
Experience will be required and demonstrated
Payment by the week and after the first job verified by our developers.
NO transfer will be made in advance AND without demonstrating that the work is well done on our servers.
The hourly rate will be an important point.
=====
Développeur scraping et gestion BDD - la Mission régulière et suivie projet - Parler le langage français obligatoire
Bonjour,
Nous sommes une startup spécialisée dans la gestion de bases de données B2B en France. Parler le francais est obligatoire
Je suis à la recherche d’un développeur spécialiste dans le scraping de site internet et de la structuration de notre base principale
Objectif
Mission de long terme pour consolider notre base de données Pro
Nous disposons :
D’une base de données principale de 30 millions de fiches mise à jour régulièrement
Nous disposons déjà de plus de 10 bases secondaires scrapés régulièrement (cron)
Recherche :
Un prestataire pour des missions régulières pour entretenir notre BDD
Payement à l’heure de travail
Le prestataire devra être autonome et force de propositions
Mission
Reprendre les développements déjà faits en PHP
Développer régulièrement des scrappeurs pour collecter les informations de sites Web ou des donnes CSV, XLS, Json
Entretenir la mise à jour des scrappeurs
Enrichir notre base principale par l’ajout ou la mise à jour des nouvelles données
Nettoyer et formater la BDD
Importer x fichiers avec la même ID pour les grouper en un fichier unique
Export multicritères
Statistique de la BDD
Nous disposons déjà d’une dizaine de scrapeurs en PHP qui tournent
Langage à utiliser :
Préférence de développement en PHP
Objectif :
- Développer une liste de nouveaux scrapeurs
- Importer et mettre à jour les datas vers la base de données principale
- Développer des outils pour matcher, appairer, enrichir, auto complémenter, structurer, dédoublonner.
- Disposer des connaissances de la gestion de la phonétique pour des noms approchants ou adresses mal écrites
- Rapprocher un nom d’entreprise et un Siret / Siren à partir de 2, 3, 4 clés
- Logique de gestion de la création des mails à partir du nom, prénom domaine : Créer, vérifier, recréer, si non conforme
- Gestion des patterns mail
…
Une expérience sera exigée et démontrée
Payement à la semaine et après le premier travail vérifié par nos développeurs.
AUCUN virement ne sera fait par avance ET sans démontrer que le travail est bien fait sur nos serveurs
Le prix demandé à l'heure sera un point important