Adatbányászati alapok

Ki akarjuk bányászni egy időjárásjelentő oldalról hogy hány fok van, hány fok lesz, stb.

/**
 * $source szovegbol kibanyassza a 
 * $id id-ju div erteket es 
 * $type tipusra castolva visszaadja
 */
function get_value_by_div_id($source, $id, $type) {
   $matches = array();
   $regexp = "<div.*?id\=\"$id\".*?>(.*?)<\/div>";
   preg_match("/$regexp/s", $source, $matches);
   settype($matches[1], $type);
   return $matches[1];
}

Így pl.

$source = '... <div id="current_temps">26&amp;deg;C</div>... <div id="current_rfval">28&amp;deg;C</div>...'; $t = get_value_by_div_id($source, "current_temps", 'int'); $e = get_value_by_div_id($source, "current_rfval", 'int'); echo "Hőmérséklet $t fok (érzésre $e)";

A kimeneten:

Hőmérséklet: 26 fok (érzésre 28 fok).

25 hozzászólás

Szólj hozzá Te is!

1) marvel (nem regisztrált)

2007. jún 05., kedd 20:07 este

A regexpben a .*? nem .* akar lenni?
Ha bármennyi darab bármiből van 0 vagy 1 darab, akkor az ugyanaz, mint a bármennyi. Nem jól gondolom?

válasz

2) Haszprus

2007. jún 05., kedd 20:38 este

Van köztük különbség, és fontos a különbség. Azt dönti el hogy a kifejezés greedy-e (mohó) avagy sem, azaz hogy a lehető leghosszabban illeszkedik, vagy a legrövidebben.

Rájössz a különbségre ha az alábbi html kódot veszed:

<div id="a">b<br />c</div>
Namost nem mindegy hogy a div teljes belsejét írja-e ki, vagy csak a c-t… (azaz hogy az első >-nél megáll vagy az utolsónál, amivel még teljesül a regexp többi része) itt a különbség a.* és a.*? között.

Starmerj's Perl RegExp Crib Sheet

válasz

3) dankoi

2007. jún 05., kedd 23:41 pizsamaidőben

Látom tényleg tetszik a dolog

Legköezebb, mire megnézem az oldalt, már saját kis időjárás kijelzés is lesz valamelyik sarokban

válasz

4) Haszprus

2007. jún 06., szerda 00:22 amikor alszol

nem lesz

válasz

5) marvel (nem regisztrált)

2007. jún 06., szerda 11:19 reggel

Haszprus: thx az infót.

válasz

6) Haszprus

2007. jún 07., csütörtök 02:46 amikor alszol

Btw ez nem kezeli le a keresett diven belüli további divek esetét, mielőtt valaki komolyabb alkalmazást szánna neki. Gyanítom, ahhoz némileg más jellegű megoldás kellene.

válasz

7) dankoi

2007. jún 07., csütörtök 08:18 kegyetlen korán

Btw:
$source = '…
<div id="current_temps">26&deg;C
<div id="current_rfval">28&deg;C</div></div>…';

$t = get_value_by_div_id($source, current_temps, 'int');
$e = get_value_by_div_id($t, current_rfval, 'int');

Így már igen

válasz

8) Haszprus

2007. jún 07., csütörtök 08:21 kegyetlen korán

Nem, mer az első /div -ig illeszkedik a current_tempsre, így a $e-hez már nem is talál illeszkedést (hiszen abban a stringben már nincs is /div).

válasz

9) dankoi

2007. jún 07., csütörtök 08:25 kegyetlen korán

Van benne valami, ugyanakkor nekem működik

Mindjárt megnézem a forrást, hogy iért is lehet ez.

Up: Meg is van. Igazad van, két divet nem lát, nekem DIVben IMGvel műxik.

válasz

10) Haszprus

2007. jún 07., csütörtök 08:26 kegyetlen korán

Nomeg ha intre castoltatod akkor a $t értéke már kapásból csak annyi hogy 26

válasz

11) dankoi

2007. jún 07., csütörtök 08:29 kegyetlen korán

Természetesen string típus mellett.

Az viszont nagyon érdekelne, hogy mi van, ha a $source így néz ki:
<div id="current_temps">26&deg;C</div>
…
<div id="current_temps">akármi</div>
…;
?
Hogy tudom mindkét divet lekezelni (és főleg megkülönböztetni)?

válasz

12) Haszprus

2007. jún 07., csütörtök 09:08 kora reggel

Ez eleve nem valid, az id egyedi kell(ene) legyen egy html-ben.
De amúgy preg_match_all, és egy többszintű tömbben fogod visszakapni az összes illeszkedést.

válasz

13) dankoi

2007. jún 07., csütörtök 09:16 kora reggel

Kicsit korán van még nekem

Nem id-vel van, hanem class, de a lényegen ez sem változtat. Majd kipróbálom a preg_match_all -t, köszi!

válasz

14) NeoXon

2007. jún 07., csütörtök 11:20 reggel

Haszprus En is azt gyanitom, hogy a regexp nem lesz jo a html jelolonyelvre

Ha visszaemlekszel FoNy-ra, a regexp 3. osztalyu, regularis nyelvtanokra fogalmaz meg szabalyokat.
Ezzel szemben a html kornyezetfuggo, 1. osztalyu nyelvtannal rendelkezik, hiszen nem mindegy, hogy egy adott jeloloelem milyen kornyezetben fordul elo.
Egyszoval: adathalaszathoz nem jonnek rosszul azok a franya veremautomatak, meg az LR(k) es LL(k) elemzok

Egeszen bonyolult nyelvekhez, mint amilyen a magyar is, pedig muszaj leszel Turing gepet programozni

válasz

15) dankoi

2007. jún 07., csütörtök 14:09 délben

A v0.1 -es flash már működik telefonon, netről lekért adatokkal

válasz

16) adamo

2007. jún 07., csütörtök 21:22 este

Help plz.
Van itten egy ilyen:
=?UTF-8?B?U3phYsOzIEdlcmdlbHk=?=
Megfelel kb. emberi nyelven: "=?"+"karakterek vagy számok vagy kötőjel"+"?"+"egy betű"+"?"+"bármilyen karakter"+"?="
Alkottam egy ilyet:
/(.*\=\?([a-z]|[A-Z]|[0-9]|-)+\?([qb]|[QB])\?.+?\?\=\?\=.*)/
De megfekszi a
=?ISO-8859-2?Q?=DAj_e-mal_c=EDmek?= string. Mi a megoldás, ha azt szeretném, hogy a qbQB kérdőjel utáni = jelet ne vegye a string végének.
Tudsz ebben segíteni?

válasz

17) Haszprus

2007. jún 07., csütörtök 21:36 este

Ez egy hosszabb stringnek a része?
Mert pl vhogy meg lehetne állapítani hogy mi az, ami már nem a felismerendő string része. Vagyis az utána jövő akárminek az elejét még told oda a regexp végére…
Ha viszont ennyi az egész string, akkor $ jelzi a string végét

Első körben most ennyi, nincs most időm erről hosszabban gondolkodni

Ja és [a-z]|[A-Z]|[0-9] = [a-zA-Z0-9], hasonlóképp a qb QB is összevonható, áttekinthetőbb úgy szvsz.

válasz

18) Napkelet Csillaga

2007. jún 08., péntek 18:16 délután

Valami olyan lib kéne, ami ötvözni tudja a regexpes játékot az xslt-s transzformációkkal. Ezzel kurva jól lehetne akármilyen bonyolult weblapról információt kivenni.

válasz

19) dankoi

2007. jún 08., péntek 22:38 este

Napkelet Csillaga Hmm, xslt -t nem ismerem, de érdekesnek hangzik

Volt egy érdekes problémám, mikor ki szerettem volna próbálni az elő verziós működő kódot a tárhelyemről futtatva, azt kaptam vissza, hogy a szerver nem támogatja a server-server kapcsolatot és pá.. Ilyet még nemláttam és hirtelen elég bánatos lettem.
Aztán szerencsére sikerlt találnom egyet, ami engedi ezt is. Ennek kapcsán megkérdezném, hogy a haszprus.hu támogat ilyen dolgokat?

válasz

20) Haszprus

2007. jún 08., péntek 23:05 pizsamaidőben

Security risk lenne erre válaszolnom

válasz

21) dankoi

2007. jún 08., péntek 23:33 pizsamaidőben

Haszprus

rendben, értem. Akkor azt kérdezem, hogy a szolgáltatók milyen hányada tiltja ezt?

válasz

22) Haszprus

2007. jún 08., péntek 23:45 pizsamaidőben

Gyök pi
Nemtom

válasz

23) adamo

2007. jún 09., szombat 22:32 este

Haszprus thx. Végül is megoldódott a dolog. Kicsit variáltam még rajta, de most f@sza.

válasz

24) Haszprus

2007. jún 09., szombat 22:47 este

Ne maradjunk megoldás nélkül plz

válasz

25) adamo

2007. jún 10., vasárnap 23:49 pizsamaidőben

Haszprus ok

Levél header dekódolása volt a téma, több lépcsős megoldás született, indulórészlet:


$input =preg_replace('/(=\?[^?]+\?([qbQB])\?[^?]*\?=)(\s)+=\?/i', '\1=?',
$input);

While (preg_match('/(=\?([^?]+)\?(qb)\?([^?]*)\?=)/i',
$input, $matches)){…}

válasz

Hozzászólásod:

A kommentem elég offtopic

Nem vagy bejelentkezve, de...

hozzászólhatsz regisztrálatlanul...

neved:

ha regisztrálva vagy, bejelentkezhetsz...

usernév ::

jelszó ::

Mennyi 5*0? (A kérdés megválaszolása nélkül a kommented a semmibe vész - spamvédelem.)

Moderálási alapelvek