PubMed Search Clinic on ATM, Citation Sensor, Advanced Search: Video available.

21 07 2008

The video from the online Search clinic on recent PubMed changes, announced in a previous post is now available at: nlm.nih.gov (pmupdate08): click here.

Direct link to the video only: https://webmeeting.nih.gov/p91519064/

A good coverage is given by Michelle Kraft (Krafty Librarian) at her site (click here).

The clinic, presented by Katherine Majewski, updated recent changes to PubMed, earlier described at the NLM information bulletins on the new ATM and the Beta Advanced Search page.
Recent changes have also been amply described (and discussed) at several of my previous posts, most notably this one.

Here is an overview, with emphasis on new aspects (at least to me).

Citation Sensor:

In the clinic the citation sensor was defined as: “a new feature designed for users seeking specific citations”. However it is not a separate search box. The citation sensor works automatically when you type words into the general search bar. If combination of words are recognized as representing citations (e.g. volume numbers, author names, journal titles) the matches are displayed in a yellow box above the retrieval.

In my previous post I already discussed that the sensor doesn’t always work perfectly and like Krafty, I think that the Single Citation Matcher (in the blue side bar) performs better. It suggests author and journal titles as you write them. Furthermore, you can just fill in the specific information you know in specific fields, i.e. if the author name is misspelled/wrong, it often suffices to fill in year, page number and title word(s), to name just one possible combination. In response to a question, Majewski said the sensor is not an advantage per se as opposed to the Single Citation Matcher. Probably it is just handy for people used to a Google-like way of searching.

One thing new to me was that there are two “Details” when performing a search.

When you type: choi blood 2008, the citation sensor finds 6 hits, 3 of them shown in the yellow box.
The Details button shows: choi[All Fields] AND (“blood”[Subheading] OR “blood”[All Fields] OR “blood”[MeSH Terms]) AND 2008[All Fields].

However when you click 6 articles to see them all, the Details button shows how the citation sensor has translated the search in: choi[Author] AND (blood[Author] OR “Blood”[Journal]) AND 2008[Publication Date]

Thus in fact the search is translated twice (although the citation sensor-results are always a subset of the full results). If you click on 6 articles, the 2nd translation appears as a 2nd search in the Search History.

ATM – Automatic Term Mapping.

ATM has been changed in conjunction with the citation sensor in order to identify queries that contain citation-type information. The old ATM mapped search terms to subject, journal, and author tables in that order. If a MeSH-match was found, PubMed would search for that MeSH as well the user-input as a textword (title, abstract). Automatic term mapping would then stop because it found a match with MeSH. Thus terms that are not only in the MeSH but also in the author or journal table would have been missed, such as in Burns Laryngoscope 2005. The old ATM would map Burns and Laryngoscope as MeSH (subject-search), but the new ATM also searches these terms in ‘all fields’, thus enabling the retrieval of the paper of Burns in Laryngoscope.
In the Q & A part of the session Majewski advised to use qualifiers as MeSH when Burns is searched just as a topic. I only wonder if/how most of the untrained people would find this out.

Another consequence, not really addressed here, is that multi-term words are split and searched individually. With the new ATM, gene therapy is not only searched as the phrase gene therapy (as MeSH-term and textword) but also as ”gene”[All Fields] AND “therapy”[All Fields], which leads to a far greater retrieval (almost 250%). Few of these extra hits are relevant. (see previous post)

Statistics, however, show that the thousands (‘real’) queries performed returned only 10% extra hits on average (see ATM-FAQ for more information). According to NLM, the enhanced ATM and citation sensor have considerably improved searching PubMed. Probably because most people just come to PubMed to search a specific paper or subject (running one or two search commands). The new features enhance citation searches, while subject searches do not suffer too much as long as multiple terms (concepts) are used, as this will filter much of the noise seen with one term (because the term is searched within the context of the other word).

My remark that most of my patrons do do subject searches was interpreted as “do do broad searches“. Which in effect they do (i.e. searches for systematic reviews), but I do not think the suggested NCBI books might be very helpful to them, although it might indeed serve those people (patients?) that want information about broad subjects like “burns”. Perhaps PubMed/NCBI can offer subject searchers other tools as well.

Notably, based on user input there are now (as of July 2nd) some exceptions to the new ATM-rule:
Substance names (such as ferrous glucanate) and
MeSH with stand alone letters or numbers (like complement factor B) will not be broken apart, but searched as a phrase.

Advanced Search (Beta-version)
Advanced Search is amply discussed in a previous post. However, I didn’t mention that the page consists of 4 collapsible boxes beneath the Search Bar (I missed this: you have to click a small minus sign at the upper left of each box in order to collapse.) In essence you can search by many fields, the default fields displayed being Author, Journal, and Publication Date (box2) and all fields (box 4). There is an index for each selected field available (little buttons right of the search boxes). I see no other difference between box 2 and 4 than the defaulted field and the fact that you can only make multiple choices from the index in box 4. Answering a question in the audience Majewski said they might consider allowing multiple choices in box 2 as well.
Box 3 shows limit-options, much the same as the Limit-tab in the usual frontpage, except that you can unlock your limits to future searches using the lock icon (by defaulted limits are carried to future searches).

Thus again this new ‘enhancement’ mainly facilitates citation searches, not subject searches. Clinical Queries are absent and it is for instance not possible to look up any MeSH other than by index, and even this often goes wrong with multi-word terms. The question why MeSH-trees were unavailable in the beta-version remained unanswered at the clinic.
It was a relief though to hear that there were no intentions to replace the normal PubMed frontpage by this advanced search page in due course.

Katherine Majewski ended the clinic by saying that answers to the questions posed during the clinic would be shown at this NLM-page later. She also encouraged to give positive and negative feecback by writing to the NLM customer service and to be as specific as possible if your search was negatively affected by the recent PubMed changes.

——————————-

NL flag NL vlag

De video van de PubMed Search Clinic, die ik in een eerder bericht aankondigde is nu te zien op: http://www.nlm.nih.gov/bsd/disted/clinics/pmupdate08.html.

Directe link naar de video: klik hier

Michelle Kraft (Krafty Librarian) heeft de clinic al goed op haar blog samengevat.

De webpresentatie, gegeven door Katherine Majewski, behandelde de recente PubMed-veranderingen, zoals aangekondigd in de NLM informatiebulletins (gewijzigde ATM-mapping resp. Beta Advanced Search)
Eerder heb ik deze veranderingen ook al uitgebreid beschreven en becommentarieerd. (zie bijv. hier).

Hier een samenvatting, met nadruk op nieuwe aspecten

Citation Sensor:

In de webpresentatie werd de “citation sensor” omschreven als: “a new feature designed for users seeking specific citations”. Het is echter geen aparte zoekoptie. De citation sensor doet zijn werk automatisch als je woorden in de algemene zoekbalk typt. De als citaties herkende hits worden apart op een gele achtergrond getoond.

Eerder heb ik al opgemerkt dat de sensor niet altijd goed werkt en evenals Krafty denk ik dat de Single Citation Matcher (in the blauwe balk) veel beter werkt. Deze geeft nl. woordsuggesties terwijl je typt en je kunt elke mogelijke informatie specifiek invullen. Weet je een auteur niet dan kun je vaak volstaan met jaar, paginanummer en titelwoorden, om maar één combinatie te noemen. Volgens Majewski is de sensor ook niet perse beter. Waarschijnlijk is het vooral handig voor mensen die gewend zijn aan een Google-zoekwijze en die verder weinig weten van PubMed. Zelf zou ik toch wel graag willen dat je de citation sensor naar believen aan of uit kon zetten.

Ik zag nu pas voor het eerst dat je 2 “Details” hebt, als de citatie-sensor iets mapt.

Typ je: choi blood 2008, dan vindt de sensor 6 hits en toont er 3.
Onder Details is te zien dat Pubmed de search vertaald als: choi[All Fields] AND (“blood”[Subheading] OR “blood”[All Fields] OR “blood”[MeSH Terms]) AND 2008[All Fields].

Als je op 6 articles klikt om ze allemaal te zien, staat onder Details hoe de citatie-sensor de search vertaald heeft: choi[Author] AND (blood[Author] OR “Blood”[Journal]) AND 2008[Publication Date]

Dus, er zijn eigenlijk 2 ‘vertaalslagen’ Als je op 6 articles klikt dan verschijnt de 2e mapping als een zoekset in the zoekgeschiedenis.


ATM – Automatic Term Mapping.

ATM is evenals de citatie-sensor ontwikkeld aangepast om zoekacties gericht op het vinden van artikelen te vergemakkelijken. De oude ATM stopte met het zoeken van termen in de MeSH-, auteurs- en tijdschriftenlijst als een passende MeSH was gevonden. Tevens werd het ingetypte woord als tekstwoord gezocht. Met als gevolg dat termen die zowel in de MeSH- als in de auteurs- of tijdschriftenlijst voorkwamen nooit anders dan als MeSH (en tekstwoord) werden gezocht. Met Burns Laryngoscope 2005 zou dus nooit het artikel van Burns in Laryngoscope zijn gevonden. Met de nieuwe ATM lukt dat wel.
Majewski adviseerde om veldenaanduidingen (qualifiers). zoals MeSH te gebruikenals je op een onder onderwerp zoals ‘Burns’ wilt zoeken. Dan vraag je je wel af in hoeverre de gemiddelde Pubmed -gebruiker dit weet.

Tijdens de sessie werd niet echt aangekaart dat termen die uit meerdere woorden bestaan worden opgesplitst en in alle velden worden gezocht. Eerder heb ik al laten zien dat bij de nieuwe ATM 2,5 x meer hits oplevert met een term als gen therapie en dat de meeste van deze hits weinig relevant zijn.

Volgens de NLM statistieken leiden echte zoekacties gemiddels slechts to 10% extra hits (zie ATM-FAQ voor meer info) en zijn zoekacties door de vernieuwingen aanzienlijk verbeterd . Waarschijnlijk omdat de meeste mensen alleen maar snel even iets opzoeken (1-2 zoekopdrachten) en vooral geinteresseerd zijn in specifieke artikelen. Wat dat levert het intypen van wat termen in de zoekbalk nu eerder wat op, en zolang je veel termen met elkaar combineert heb ik ook niet veel last van veel ruis bij het zoeken op onderwerp. Maar ik ben zeker niet overtuigd dat dit het zoeken op onderwerp verbetert.

Mijn opmerking dat mijn klanten vooral op onderwerp zoeken werd opgevat als dat ze vooral breed zoeken. Nu is dat wel zo, maar ik denk niet dat zij veel aan suggesties hebben als NCBI-books. Dit lijkt me wel geschikt voor mensen die zich globaal willen inlezen in een onderwerp als brandwonden (burns), patienten bijvoorbeeld. Misschien heeft PubMed/NCBI wel nog andere tools voor uitputtende searches in het verschiet….

Op basis van gebruikersfeedback zijn er vanaf 2 Juli wel enkele uitzonderingen op de nieuwe ATM-regel, t.w.:
Substance names (zoals ferrous glucanate) en
MeSH with losstaande letters en cijfers worden niet langer opgesplitst, maar als phrase gezocht.

Advanced Search (Beta-versie)
Advanced Search heb ik ook eerder uitgebreid besproken (zie hier). Wat ik nu pas bemerk, is dat de velden onder de zoekregel in-en uitklapbaar zijn. Er is een miniscuul min tekentje helemaal linksboven elk veld, waar je op moet klikken om het veld te verkleinen.

De essentie van advanced search is dat je veel verschillende velden kunt doorzoeken, maar dat de standaard velden weer citatie-gericht zijn, dus: Author, Journal, and Publication Date (veld 2) en All Fields (veld 4). Je kunt termen voor elk gekozen veld opzoeken in een index (klein knopje rechts). Ik zie eigenlijk geen verschil tussen veld 2 en 4, behalve dan het standaard veld en het feit dat je in het 4e veld verschillende termen tegelijk kunt aanklikken. Mogelijk komt deze optie ook voor veld 2.
In veld 3 kun je limieten aanklikken, eigenlijk erg vergelijkbaar met de Limit-Tab op de PubMed openingspagina. Wel prettig dat je een limiet desgewenst alleen gedurende één zoekactie kunt toepassen (default: blijft alle zoekacties aanstaan).

Dus ook advanced search beta is vooral ten dienste van degene die bepaalde artikelen zoekt. Je kunt bijvoorbeeld alleen maar de MeSH in de index opzoeken en er zijn geen Clinical Queries. De vraag waarom De MeSH-hierarchie niet geraagdpleegd kon worden vanuit bleef onbeantwoord.
Het was wel een pak van mijn hart, dat het volgens Majewski niet de bedoeling was dat de Advanced Search de normale openingspagina op termijn zou vervangen.

Katherine Majewski beeindigde de sessie met de mededeling dat antwoorden op gestelde vragen later op deze pagina zou verschijnen.

Ze verzocht iedereen ook hun eventuele problemen met de veranderingen zo specifiek mogelijk aan de help desk door te geven.

Advertisements




PubMed: Past, Present and Future PART III

27 06 2008

The Future: ????

This is a continuation of Part I and II

Part I (click here) describes that PubMed contains many different tools, some of which are quite difficult in use and/or hidden, i.e. Single Citation Matcher, MeSH database and Clinical Queries.

This counterintuitive character of the PubMed interface leads to Google-like searches, that are often ineffective, driving some people crazy. Anna Kushnir for instance started a little riot on her blog by shouting out loud that she hates PubMed. Her ranting elicited a response of Dr. Lipman of the NCBI who reassured her “that a number of changes are underway that will make PubMed work better for her and many other users”.

Part II (click here) describes the new PubMed features recently introduced to meet the wishes of an apparent majority of people that come to PubMed in search for specific information ‘with one finger snap’:

  • ATM has been modified to enable retrieval of citations: multi-word terms are split and sought individually in all fields, including author, address, journal-title field
  • Introduction of a Citation Sensor, that matches searches with citations
  • Advanced Search Beta that allows to specify fields for searching
  • Disappearance of the blue side bar to play along with new features.

These modifications facilitate retrieval of citations to some extent, though not as effectively as the ‘good old’ Single Citation Matcher and at the cost of effective subject searching. In particular, the renewed ATM leads to an unacceptable low precision (ample examples given).

Part III is about the future, but what the future has in store I do not know. I have some ideas though as to what I would like the (near) future to bring (or NLM/NCBI to change) :

[General]
People come to PubMed with different kinds of backgrounds, information skills, questions and aims. Rather than creating one tool that serves them all, but imperfectly, why not create different tools that serves each group well? Why replace Mercedes-cars by Flintstone-mobiles, because 90% of the people rather use their feet? Make 10% Mercedes or learn the Flintstones how to enjoy driving a real motor-driven car!
Thus make it easy on newbies and people just passing by, give them an idea what they might have missed and why, but still enable exhaustive subject searching for those that wish/need to do so. PubMed should not be just Google-like because people are used to that. Number one priority should be that people find what they are looking for! If this means that they have to do a little training: o.k., what’s wrong with that? I agree fully with David Rothman’s view on the anna-kushnir-when-the-user-actually-is-broken story as expressed in his excellent post. I particularly like the parable he gave:

“I remember asking my father to teach me to program in BASIC. He cheerfully agreed and handed me the big brown manual”

PubMed should not imitate its look-alikes, which do an awful lot better with regard to user-friendliness (see for instance here), but generally are NOT very suitable for (more exhaustive) medical subject searching.

[Specific]
At least disconnect reference and subject searching (please??…)

  • The Single Citation Matcher is a perfect tool that, when found, is easy to use for everyone. Why not give it a more self-evident name, like “reference-seeker” OR “find (the) citation” and put it in a more prominent place?
    If NLM/NCBI decides that the general search bar (or PubMed entrance) should be apt for citation searching, why not create a second one for subject searching? Perhaps give people (optional) tips how to continue:

Want to look up a reference: Go to the Single Citation Matcher.
Have a medical question? Go to the subject search bar (or -page).
Do you want to find the best evidence? Go to clinical queries.

Institutional or personal customization of the interface would be a pro. The OVID-SP interface has many of the above characteristics.

  • For subject searching, the old features suffice. Indeed:
    • Give back the blue side bar to reduce the number of clicks needed to (re)enter the MeSH-database, Clinical Queries, Single Citation Matcher etc.
    • Undo the new ATM feature! The only thing that is ‘enhanced’ is the number needed to read. It’s awful!
    • No Advanced Search Beta in the present form, only some of its features, like locking/unlocking some of the limits and multiple field-selection in the index.
      The idea of boxes is nice though.
      MeSH-fields should be default in any new (advanced) interface, as are Clinical Queries and the MeSH-database.
  • [Dreams]
    • Two different interfaces: for simple and for advanced searches. The first may look like advanced search beta (but with optional boxes), the second with an interface that facilitates comprehensive searching, i.e. staying within the History, powerful tools always one click away, easy navigating and sending terms from MeSH-database to PubMed (no ‘Send to Search Box’).
    • Possibility to save and edit the History and not just one search (like in OVID) and perhaps, perhaps, the adjacency function?
    • All important tools like MyNCBI, RSS, MeSH, more ‘visible and intuitive’ for all.
    • Modernization of MeSH (especially in the non-clinical field) and one MeSH for one concept, i.e. not: (Protein Kinase Inhibitors AND Receptor, Epidermal Growth Factor/antagonists & inhibitors) for EGFR tyrosine kinase inhibitors.

How can (some of) these changes be achieved? “Should I shout out loud: I hate PubMed” in order to be heard? No way. I like PubMed. In essence it is a powerful tool freely available to everyone.

But I hope that PubMed (NCBI/NLM) will not merely watch statistics and listen to the voice of the clamorous crowd, but will also listen to the few expert librarians, who represent a large community. They often know the information needs of our clients and the barrieres in the information-seeking process very well, since they help and train them every day…
—————————-

NL flag NL vlagDe toekomst: ????

Dit is een vervolg van deel I en II

Deel I (klik hier) bespreekt dat Pubmed veel zoekfuncties heeft die vaak nogal complex zijn en moeilijk te vinden, zoals de zoekbalk, de Single Citation Matcher, de MeSH-database en Clinical Queries.

Omdat PubMed zo ingewikkeld overkomt zoeken mensen veelal zoals in Google via de zoekbalk, met als gevolg dat het resultaat te wensen overlaat. Uit onwetendheid schuift men de schuld af op PubMed. Zo ging Anna Kushnir op haar weblog luid te keer dat ze PubMed haatte. Hierop reageerde Dr. Lipman (NCBI) met de mededeling: “a number of changes are underway that will make PubMed work better for her and many other users”.

Deel II ((klik hier) Beschrijft de nieuwe zoekfuncties, die recent zijn geintroduceerd om aan de wensen van die mensen tegemoet komen die kennelijk de meerderheid vormen: diegenen die snel even in PubMed zoeken om iets te vinden:

  • ATM is gewijzigd dat PubMed ook citaties kan vinden: Termen worden nu in alle velden gezocht en opgesplitst, indien ze uit meerdere woorden bestaan.
  • Citation Sensor, die citaties ‘herkent’.
  • Advanced Search Beta, waarin je op specifieke velden kunt zoeken.
  • Verdwijnen van de blauwe balk rechts.

Door deze veranderingen kunnen specifieke referenties soms iets beter gevonden worden, maar lang niet zo effectief als met de ‘oude vertrouwde’ Single Citation Matcher en ten koste van een onacceptabele hoeveelheid ruis, vooral door de nieuwe ATM.

Part III gaat over de toekomst. Wat die brengt weet ik natuurlijk niet. Wel weet ik wat ik graag zou willen dat er verandert.

[Algemeen]
PubMedgebruikers verschillen qua achtergrond, zoekvaardigheid, vragen en doelstelling. Waaorm zou je al deze mensen op dezelfde manier laten zoeken, waarom niet verschillende mogelijkheden voor verschillende gebruikers? Waarom zou je mercedes-auto’s willen vervangen door flinstone-auto’s, omdat 90% van de mensen liever zijn voeten gebruikt? Maak voor die 10% Mercedes-auto’s (of Opel Astra’s) of leer de Flintstones hoe ze moeten rijden in een auto die op benzine rijdt.
Maak het makkelijk voor beginners of mensen die eventjes iets zoeken, attendeer ze op wat ze misschien missen en waarom, maar laat het ook mogelijk blijven om op een makkelijke manier uitgebreide zoekacties te doen. PubMed moet toch niet op Google lijken, omdat mensen aan Google gewend zijn? Het allerbelangrijkste is dat mensen vinden waar ze naar zoeken. Als dat betekent dat ze zich er een beetje in moeten verdiepen, dan is dat toch o.k.?! Ik ben het helemaal met David Rothman’s visie op het Anna Kushnir gebeuren eens. Deze vergelijking is ook wel treffend:

“I remember asking my father to teach me to program in BASIC. He cheerfully agreed and handed me the big brown manual”

PubMed moet ook niet proberen zijn kopieen na te bootsen. Die zijn veel gebruikersvriendelijker (zie bijv hier), maar meestal niet bijzonder geschikt voor het uitgebreid zoeken op onderwerp. En dat is nu juist de meerwaarde van PubMed.

[Specifiek]
Koppel het zoeken van citaties los van het zoeken op onderwerp.

  • De Single Citation Matcher is uitermate geschikt voor het vinden van citaties en makkelijk in het gebruik. Het zou wat makkelijker te vinden moeten zijn en een vanzelfsprekender naam moeten hebben, zoals “reference-seeker” of “find (the) citation”.
    Als NLM/NCBI besluit dat de algemene zoekbalk vooral citaties moet kunnen vinden, waarom zou je dan geen 2e balk/pagina kunnen hebben om wel op onderwerp te zoeken? Misschien met wat (optionele) tips:

Want to look up a reference: Go to the Single Citation Matcher.
Have a medical question? Go to the subject search bar (or -page).
Do you want to find the best evidence? Go to clinical queries.

Het zou fijn zijn als je, net als bij OVID-SP, de default instellingen zou kunnen wijzigen.

  • V.w.b. het zoeken op onderwerp voldoet het oude PubMed eigenlijk grotendeels, dus:
    • Geef ons de blauwe menubalk terug! zodat we niet eindeloos moeten klikken om (weer) in de MeSH-database, Clinical Queries en Single Citation te komen.
    • Geef ons de oude ATM terug! Het enige wat ‘vooruit is gegaan’ is de “number needed to read”. Zoveel meer artikelen en zoveel meer ruis.
    • Niet een Advanced Search Beta, hooguit in een aangepaste vorm. Het vastzetten van bepaalde limieten, het kunnen selecteren van verschillende velden zijn goede aanpassingen.
      Ook de velden (voor zoeken, zoekgeschiedenis, limiteren e.d.) zijn geen slecht idee.
      MeSH-index-velden zouden standaard aanwezig moeten zijn, evenals Clinical Queries en MeSH-database.
  • [Dromen]
    • Twee verschillende interfaces voor beginners en gevorderden. De 1e zou op Advanced Search Beta mogen lijken (maar met MeSH-velden), de 2e zou uitgebreid zoeken mogelijk moeten maken. Je zou graag in de Zoekgeschiedenis willen blijven, alle belangrijke hulpmiddelen binnen bereik willen hebben en makkelijk willen navigeren vanuit PubMed naar de MeSH database en v.v. (niet via de ‘Send to Search box’ bijvoorbeeld).
    • De mogelijkheid om de hele zoekgeschiedenis te bewaren en te bewerken en misschien, misschien …. nabijheidszoeken (net als in OVID)?
    • Alle belangrijke zoekopties zoals MyNCBI, RSS, MeSH duidelijker zichtbaar en makkelijk in het gebruik.
    • Aanpassen van MeSH aan de moderne tijd/prekinische vakken en één MeSH voor één concept, bijv niet: (Protein Kinase Inhibitors AND Receptor, Epidermal Growth Factor/antagonists & inhibitors) om ‘EGFR tyrosine kinase inhibitors’ te vinden.

Hoe (enkele van) deze veranderingen te bereiken? Moet ik ook uitschreeuwen dat ik PubMed haat voor ik gehoord word?
Tuurlijk niet, ik haat PubMed niet. Het is prachtig dat zoiets als PubMed bestaat. In principe is het een geweldig goede database met heel veel mogelijkheden. En wat ook ook heel belangrijk is: het is gratis beschikbaar voor iedereen.

Maar ik hoop alleen dat de mensen achter PubMed (NCBI/NLM) niet alleen maar naar de statistieken kijken en naar de stem van de massa luisteren, maar ook de mening van informatiespecialisten ter harte nemen. Want zij vertegenwoordigen eigenlijk een heel grote groep gebruikers en weten uit ervaring waar hun klanten naar op zoek zijn en tegen welke problemen ze oplopen.





PubMed: Past, Present And Future, PART II

15 06 2008

The Present: PubMed is going for the mass.

This is a continuation of Part I (click here to read)

… Well, it seems that some of these enhancements are in the process of being implemented, considering recent major changes to PubMed’s interface:

1. Automatic Term Mapping (ATM).

ATM is the most recent, most radical and yet most poorly announced change.

Suddenly, when preparing a Master Class, searching via the search bar gave different, sometimes odd results. PubMed looked the same, but the DETAILS-tab showed the automatic search mapping (ATM) to be different. PubMed’s “New and Noteworthy” confirmed that ATM had been drastically modified. See here for the announcement’.

Consider this (given) example. Searching gene therapy would give:

with the Old ATM:
“gene therapy”[MeSH Terms] OR gene therapy[Text Word]

and the NEW ATM:
“gene therapy”[MeSH Terms] OR (“gene”[All Fields] AND “therapy”[All Fields]) OR “gene therapy”[All Fields].

Thus the new ATM expands the search:

1. by searching in All Fields instead of the tw-field (Title, Abstract, MeSH)
2. by splitting multi-word terms. Gene therapy is no longer sought as “gene therapy”, but as “gene” and “therapy”.

According to the NLM this facilitates finding synonyms like “gene silencing therapy…” and finding X in the author field. They should add: whether you WANT TO FIND IT OR NOT. Thus from now on you will search all fields automatically, including author, journal and address field.

Should I be glad to find more? NO, I use the Single Citation Mapper if I want to find a citation by author X, and I rather expand the search by adding terms that matter.
Suppose I would like to search´gene silencing therapy´ as well, then I would add gene silencing therap*[tiab], since searching for these words in a string will broaden the search without increasing noise.

However gene silencing (preventing a gene to work, i.e. by antisense oligo’s OR siRNA) is not really a gene therapy (insertion of a gene). So for most searches on ´gene therapy´ ´gene silencing´ is no valuable addition. And if it would be, MeSH like “Gene Silencing” and its narrow term RNA Interference should be included as well.

With gene therapy ATM will now (June 5th) retrieve 90942 hits instead of 36557, thus a surplus of 54385 hits, that is 2 ½ times as much!!! The expansion does add very little meaningful terms. It mainly retrieves citations with therapy in ANY field and:

  • gene as an author [au] : 53 extra hits
  • gene in the addressfield [ad], like hkj@gene.com or Department of Gene Regulation : 1327 extra hits
  • gene in the journal name, including “Gene” : 1487 extra hits
  • gene and therapy in the abstract/MeSH without direct connection to each other: papers about the impact of gene expression profiling on breast cancer outcomes (following chemotherapy NOT gene therapy), of experimental studies on change in gene-regulation following therapy etcetera: the majority of the extra hits. Estimation > 90%?: does anyone realize how often ‘gene’ and ‘therapy’ (in text, MeSH, subheadings and all other fields?) are used outside the context of gene therapy?

I guess I’m not the only one that is not pleased with this “enhancement”. Most users I know use Pubmed for subject searching and they unanimously experience the high number needed to read (high recall, low precision) as the major obstacle. ATM will only make this worse.

And what about:

  • people unaware of any changes and just relying on the search bar for subject searching, supposing it works the same as before?
  • the effect on alerts (RSS or MyNCBI)?
  • important updates of prior searches, i.e. for systematic reviews. With ATM you may retrieve MUCH more irrelevant papers. How to explain different results over time?
  • Although of minor importance, our courses, tutorials, exercises, the PubMed book my colleagues just wrote, all have to be adapted.

Thus I stop advising students/meds to simply use the search bar and just check the details, because this will surely frustate them. Rather I will advise them to add tags themselves: Look for the appropriate MeSH for Y in the MeSH-database and add Y*[tiab] as well. Even for simple subject searches!

Who wants the search d-dimer diagnosis lung embolism to be translated as:

(“fibrin fragment D”[Substance Name] OR (“fibrin”[All Fields] AND “fragment”[All Fields] AND “D”[All Fields]) OR “fibrin fragment D”[All Fields] OR (“d”[All Fields] AND “dimer”[All Fields]) OR “d dimer”[All Fields]) AND (“diagnosis”[Subheading] OR “diagnosis”[All Fields] OR “diagnosis”[MeSH Terms]) AND (“lung”[MeSH Terms] OR “lung”[All Fields]) AND (“embolism”[MeSH Terms] OR “embolism”[All Fields])

Very impressive, isn’t it, but the correct MeSH for lung embolism, pulmonary embolism is not mapped!!!!

Is it good then for preclinical guys, i.e.molecular biologist? Suppose you’re looking for signal transducer and activator of transcription 3 (that’s one protein), most lab people will use either the whole word or stat 3, stat(3), stat-3 or stat3

1. stat 3 maps to: (“Stat”[Journal] OR “stat”[All Fields]) AND 3[All Fields] = 4031 hits

2. Stat-3 maps to: stat-3[All Fields] = 591 hits

3. stat3 maps to: “stat3 transcription factor”[MeSH Terms] OR (“stat3″[All Fields] AND “transcription”[All Fields] AND “factor”[All Fields]) OR “stat3 transcription factor”[All Fields] OR “stat3″[All Fields] = 4639 hits
(Note that grey terms are superfluous: by searching stat3 you already find stat3 transcription factors)

Not very consistent and only the 3rd variation will be mapped to the proper MeSH, BUT (like 1.) will also give things like:

  • DeltaB=(1.18+/-0.09_{stat}+/-0.07_{syst}+/-0.01_{theor})x10;{-3}
  • EPI STAT, version 3.2.2.
  • Via Santa Marta n. 3 (address) and pH-stat
  • D Stat (author) and vol nr 3.

Thus it would be better to search for either merely

“stat3 transcription factor”[MeSH Terms]

or add synonyms (with OR) like stat-3[tiab], stat3[tiab], “stat 3″[tiab], “signal transducer and activator of transcription 3″[tiab].

This will increase precision and even recall.
However, one has to know how to find the correct terms and tags.

2. Citation Sensor

The renewed ATM was introduced together with the Citation Sensor that recognizes combinations of search terms characteristic of citation searching, e.g. volume nrs, author names, journal titles and publication dates, which it then matches to citations. These are shown separately in a yellow area above the retrieval.

Searching for limpens oncogene indeed suggests one paper of Limpens in Oncogene. This option can be very handy when one wants to retrieve a citation.

However typing: gene therapy 2007 405 gives 59 hits, but the citation sensor does not sense the specific paper in “Gene” year 2007, vol 405 (although retreived).

The Single Citation Mapper would have done better…. giving a single (correct) hit on both occasions.

Donna Berryman came to a very similar conclusion when writing to the MedLibList. She shows some other nice examples (i.e. that the citation sensor shows 4 citations from the journal Cancer by author Lung when searching lung cancer!!).

Donna explains that at the NLM booth at MLA, she was told that Pubmed changes were made to meet the wishes of a “significant” number of people that were going to PubMed, entering an author name and a journal title (with no field qualifiers) and expecting to retrieve a particular citation.

I’ve seen the nih.gov webmeeting presentation Donna referred to (click here)] as well as another (click here) (tips of the MedLib twitters @pfanderson and @eagledawg. Eagledawg (Nikki) also wrote 2 blogposts about this subject, see here (May) and here (June) )

It was quite revealing to see that empasis was given to numbers: number of visitors, numbers of queries versus number of documents and speed:

“if the query takes 2-3 minutes we loose users!”.

Well I can understand that NLM doesn’t want to discourage potential users, but I don’t understand why all functionalities have to be mixed in a way that it only serves the quick and dirty searches and even not very effectively. As Donna puts it: the new ATM is moving PubMed away from being a subject-based search. Again, most of my customers do subject searching.

3. Advanced search beta

Advanced search is a beta (version) and thus may be adapted based on findings and feedback (see here for announcement)

I don’t really know what to think of it. Firstly I wonder whether the Advanced Search is an extra option or meant to replace the present front page in due course. Secondly the Advanced Search looks quite complex, but not particularly advanced. The regular front page has more options (although hidden). This is certainly not an advanced tool for librarians, but is it an adequate tool for other users, clinicians or researchers?

Advanced Search beta consist of 5 separate “boxes”.

  1. The search-bar with a preview or a search option. Surprisingly the search option brings you back to the old front page. When you opt for “preview” you stay in the ‘advanced’ search.
  2. Search History showing the last 5 searches. If you exceed 5 searches a “More History” button appears. When clicked it brings up the full display.
  3. Seach by selected Fields. There are 3 default lines set up for Author, Journal and Publication date searching. Thus again, emphasis is given to reference instead of subject searching. Similar to the Single Citation Mapper, there is an auto-complete feature for authors and journals. On the right of each line is an index-feature.If you want to do a subject search (which in fact most advanced searchers do), you have to open the list of fields using the pull-down menu. However, for MeSH terms this is not ideal. Suppose you want to look up the MeSH for recurrent pregnancy loss (the term mostly used by clinicians). The MeSH is Abortion, Habitual. You won’t find the MeSH by looking at recur….. In effect, you won’t find it by looking up habit…. either. You have to start typing abortion…!?
    When you find an appropriate MeSH, you can choose to search for the MeSH coupled to a particular subheading (i.e. haemonchiasis/blood). You can see immediately how many hits will be retrieved (63).

    Suppose a clinician wants to know whether PGS is indicated in RPL. He pulls open the MeSH-field, types recurrent pregnancy loss, adds another MeSH-field and fills in preimplantation genetic screening, because he thinks PubMed will match it for him.


    He
    clicks a few limits because he thinks that might help to narrow his search, clicks the search button, waits and … ends up the regular front page showing zero results. So all steps he took didn’t lead him anywhere, because the appropriate MeSH (Abortion, Habitual and Preimplantation Diagnosis) weren’t found and he still has no clue as to what terms he should use.

    Even if the correct MeSH is found, the notation may be quite misleading. For example, after typing lung cancer into the box next to ‘Search MeSH terms’ , the History in PubMed will show lung cancer[MeSH Terms], whereas “lung cancer” is NOT the MeSH term. Thus people are going to think that lung cancer is the MeSH, because it looks like this. If they look in the Details box, however, they’ll see the real “lung neoplasms”[MeSH terms]. How are people going to know what’s what? (Thanks to Donna for providing this example).

    At least, in case of lung cancer, the correct MeSH-term is being searched. In contrast, a term like Lung embolism is not searched as Pulmonary embolism[mesh], and gives zero hits. Funny, because searching via the normal search bar would at least translate lung embolism in embolism[mesh] and lung[mesh]. (and there are several tricks whereby you can subsequently find the proper MeSH)


    Thus, in Advanced Search Beta, searching MeSH via ‘search MeSH-terms’ will only work when you know the (exact) MeSH-term in advance.

  4. The 4th box is really the limits-tab from the usual front page, but shown in full. A nice option is that you can lock certain limits while unlocking others (that is you can apply one limit to the next search and other limits to this and subsequent searches).
  5. The 5th box is (again) an Index of Fields. However it allows you to enter multiple terms.

In short, I’m not particularly impressed by this advanced search beta. It is too complex for a quick and dirty search as well as for a reference search. However, it is also not very well suited for an (advanced) subject search. It is not possible to look up any MeSH other than by index, and even this often goes wrong.
Some important functionalities are not included, like the clinical queries. Furthermore by displaying limits so prominently, many people will automatically use them. Personally I’m very reticent in using limits, because you miss non-indexed (i.e. recent) papers.

So I agree with tunaiskewl

“I stumbled across a beta Advanced Search in PubMed today. Has anyone else played with this? It appears that it merges the Preview/Index, History, Limits, and field searching screens all together in one place. Perhaps this will make some of PubMed’s features more obvious to searchers, but I’m not seeing too much benefit to it otherwise…”

4. Other minor recent changes include:

  • Create Collection in MyNCBI by one step via the send to option (this is wonderful!)
  • PubMedID (ID for Pubmed Central, at the bottom right)
  • Collaborators -display (separate from autors)
  • In Abstract Plus – (very popular with users, dynamic display format)
  • Blue side bar gone in certain display formats. Again this is done to make room for new functionalities (bad!, takes me 2 steps to go back to MeSH, Clinical Queries or whatsoever)

—————–

NL flag NL vlag

The Present: PubMed is going for the mass.

Dit is een vervolg op deel 1(zie hier)

Het lijkt erop dat enkele aanpassingen inmiddels doorgevoerd zijn, t.w.

1. Automatic Term Mapping (ATM).

Hoewel ATM een zeer ingrijpende verandering is, is de gebruiker hier nauwelijks van op de hoogte gesteld.

Ik kwam er bij toeval achter toen ik met een collega een keuzevak voor 2e jaars voorbereidde. Zoeken via de zoekbalk gaf heel andere resultaten, terwijl er uiterlijk aan PubMed niets te zien viel. De Details tab toonde een geheel afwijkende automatic term mapping, ook wel ATM of mapping genoemd. In PubMed’s “New and Noteworthy” werd dit wel aangekondigd, maar hoe velen lezen dit?

Men geeft hier het volgende voorbeeld:

Gene therapy wordt als volgt gemapt:

met de oude ATM: “gene therapy”[MeSH Terms] OR gene therapy[Text Word]

met de nieuwe ATM: “gene therapy”[MeSH Terms] OR (“gene”[All Fields] AND “therapy”[All Fields]) OR “gene therapy”[All Fields].

Dus de nieuwe ATM breidt de search uit:

1. door op All Fields te zoeken ipv. het tw-field (Titel, Abstract, MeSH)

2. door termen bestaande uit meerdere woorden op te hakken in de individuele woorden. Gene therapy wordt niet langer gezocht als “gene therapy”, maar als “gene” en “therapy”.

Volgens de NLM zoek je daarmee ook op synoniemen als “gene silencing therapy…” en vind je ook X in het auteursveld als je op X zoekt. Eigenlijk hadden ze moeten zeggen; ongeacht of je het wilt vinden. Dus van nu af aan zoek je automatisch in alle velden als je zelf geen tags toevoegt.

Of ik blij ben dat ik nu meer vind? Nou nee, ik gebruik de Single Citation Mapper wel als ik een citatie Y door auteur X wil vinden en ik breid searches liever uit door er relevante termen aan toe te voegen.
Dus hooguit zou ik gene silencing therap*[tiab] aan de search toevoegen, als ik heel breed wil zoeken. Dit breidt mijn search uit zonder onnodige ruis. Echter, goed beschouwd, is “gene therapy” (gentherapie, invoegen van een gen) toch wezenlijk anders dan gene-silencing (voorkomen dat een gen werkt door antisense oligo’s of siRNA). Daarom lijkt het me dit begrip voor de meeste searches over gentherapie niet echt bruikbaar. (Tussen 2 haakjes: er is een goede MeSH voor “Gene Silencing”, de nauwere term is RNA Interference)

Met gene therapy vindt ATM nu (5 juni) 90942 hits i.p.v. 36557, dus 54385 extra hits, dit is 2 ½ keer zoveel!!! De meeste van deze extra hits zijn niet relevant. Je vind nl ook citaties met therapy in ELK veld en:

  • gene als auteur : 53 extra hits
  • gene in het adresveld: hkj@gene.com of Department of Gene Regulation : 1327 extra hits
  • gene in de tijdschrifttitel, zoals “Gene” : 1487 extra hits
  • gene en therapy in het abstract/de MeSH zonder enig betekenisvolle relatie: artikelen over het effect van gene expression profiling op de prognose van borstkanker (na chemo, niet na gentherapie), studies over veranderingen in genregulatie na therapie X. De meerderheid van de extra hits zal onder deze noemer vallen.

Waarschijnlijk vinden meer mensen ‘deze enhancement’ niet prettig. De meeste gebruikers die ik ken zoeken op onderwerp en het grootste probleem dat ze hierbij ondervinden is dat ze teveel vinden wat niet relevant is (hoog number needed to read). ATM verergert dit alleen maar.

En wat te zeggen van:

  • mensen die zich van niets bewust zijn en de zoekbalk net zo gebruiken als vanouds
  • effect op bestaande alerts (RSS of MyNCBI)?
  • updates van eerdere searches, bijvoorbeeld voor een systematisch review. Ten gevolge van ATM vind je dan opeens na een bepaald tijdstip meer hits met dezelfde search (indien geen tags gebruikt)
  • het aanpassen van cursussen, tutorials, opdrachten, het PubMed boek dat mijn collega’s net hebben gemaakt? En wie zegt dat dit het einde is?

Van nu af aan zal ik (bijna) iedereen adviseren om niet langer maar via de zoekbalk te zoeken en slechts de Details te controleren, maar om de meest geschikte Mesh-term(en) te gebruiken en evt. op een of meer synoniemen in titel en abstract te zoeken.

D-dimer diagnosis lung embolism wordt volgens de huidige ATM vertaald als:

(“fibrin fragment D”[Substance Name] OR (“fibrin”[All Fields] AND “fragment”[All Fields] AND “D”[All Fields]) OR “fibrin fragment D”[All Fields] OR (“d”[All Fields] AND “dimer”[All Fields]) OR “d dimer”[All Fields]) AND (“diagnosis”[Subheading] OR “diagnosis”[All Fields] OR “diagnosis”[MeSH Terms]) AND (“lung”[MeSH Terms] OR “lung”[All Fields]) AND (“embolism”[MeSH Terms] OR “embolism”[All Fields])

Indrukwekkend niet, maar de meest geeigende MeSH, pulmonary embolism wordt niet gevonden!!!!

Is het dan goed voor de moleculair biologen e.a. preclinici? Stel dat je bijv. op zoek bent naar het eiwit signal transducer and activator of transcription 3. De meesten zoeken dan op het hele woord of stat 3, stat(3), stat-3 or stat3

1. stat 3 geeft: (“Stat”[Journal] OR “stat”[All Fields]) AND 3[All Fields] = 4031 hits

2. Stat-3 geeft: stat-3[All Fields] = 591 hits

3. stat3 geeft: “stat3 transcription factor”[MeSH Terms] OR (“stat3″[All Fields] AND “transcription”[All Fields] AND “factor”[All Fields]) OR “stat3 transcription factor”[All Fields] OR “stat3″[All Fields] = 4639 hits
(De grijze termen zijn dus eigenlijk overbodig want door op stat3 te zoeken vind je die al.

Niet erg consistent vertaald; alleen variatie 3 wordt gemapt met een MeSH, MAAR vindt evenals 1 geheel irrelevante hits als:

  • DeltaB=(1.18+/-0.09_{stat}+/-0.07_{syst}+/-0.01_{theor})x10;{-3}
  • EPI STAT, version 3.2.2.
  • Via Santa Marta n. 3 (address) and pH-stat
  • D Stat (author) and vol nr 3.

Daarom is het beter om of alleen op de MeSH te zoeken

“stat3 transcription factor”[MeSH Terms]

of om daar synoniemen aan toe te voegen als stat-3[tiab], stat3[tiab], “stat 3″[tiab], “signal transducer and activator of transcription 3″[tiab].

Hierdoor neemt de precisie en zelfs de recall toe. Maar je moet wel weten hoe de termen en tags te vinden.

2. Citation Sensor

Tegelijk met de nieuwe ATM werd ook de Citation Sensor ingevoerd. Deze herkent termen die karakteristiek zijn voor citaties. Als Citaties gevonden worden, worden ze apart in een geel vlak boven de zoekresultaten getoond.

Wanneer je op limpens oncogene zoekt zijn wordt het artikel van Limpens in Oncogene getoond. Deze optie kan handig zijn als je een citatie wil vinden.

Zoek je echter: gene therapy 2007 405 dan pikt de citation sensor niet het artikel in “Gene” 2007, vol 405 op temidden van de 57 hits.

De Single Citation Mapper zou dit beter gedaan hebben: 1 enkele goede hit in beide voorbeelden.

Donna Berryman kwam tot dezelfde conclusie in haar MedLibList-Mail. Ze geeft nog een paar andere leuke voorbeelden, zoals dat de citation sensor 4 citaties vindt van auteur Lung in het tijdschrift Cancer als je op lung cancer zoekt!!).

Donna vertelt dat ze op een NLM stand op de MLA hoorde dat er PubMed veranderingen doorgevoerd werden ten behoeve van een niet te verwaarlozen groot aantal mensen die alleen naar PubMed kwamen om een auteur of tijdschrifttitel in te voeren, omdat ze zo dachten een bepaald artikel te kunnen vinden

Hier is (waarschijnlijk) de webmeeting waar Donna aan refereert en hier een andere (tip van de MedLib twitters @pfanderson en @eagledawg. Eagledawg (Nikki) schreef, zo las ik later, ook 2 blogberichten over dit onderwerp, zie hier (Mei) en hier (Juni) )

Ik vond het nogal onthutsend dat getallen zo zwaar telden.

“if the query takes 2-3 minutes we loose users!”.

Ik begrijp natuurlijk wel dat de NLM ook degenen wil tegemoetkomen die alleen maar een artikeltje zoeken, maar moet dat ten koste gaan van andere functionaliteiten? Zelfs zoeken op een specifiek artikel verloopt niet altijd vlekkeloos. Het lijkt erop dat, zoals Donna het zegt, met de nieuwe ATM het zoeken op onderwerp minder belangrijk wordt. Nogmaals, de meeste mensen die ik ken zoeken op onderwerp.

3. Advanced search beta

Advanced search is een beta (versie), dus nog in de probeerfase. (zie hier).

Ik weet nog niet helemaal wat ik ervan moet denken. Komt het naast of in plaats van de oude entree? Ik het er nogal erg complex uitzien en toch niet erg geavanceerd. Niet alle opties van de normale openingspagina zijn aanwezig.

Er zijn 5 verschillende vakjes.

  1. De zoekbalk met een preview en een zoekoptie. Gek genoeg kom je als je op search klikt weer op de oude vertrouwde Pubmed pagina terecht. Als je daarentegen voor “preview” kiest blijf je wel in de ‘advanced’ search.
  2. Search History. Bij meer dan 5 searches moet je op “More History” klikken om de volledige zoekgeschiedenis te kunnen zien.
  3. Seach by selected Fields. Standaard kun je op Author, Journal and Publication date zoeken. Dus wederom erg gericht op het vinden van referenties. Handig is de auto-complete-functie voor auteurs en tijdschriften (net als in de Single Citation Mapper). Rechts is een aanklikbare index.Je kunt in andere velden zoeken door op het pull-down menu te klikken. Het is echter niet erg handig om zo op MeSH te zoeken. Stel dat je op recurrent pregnancy loss wil zoeken. De MeSH is Abortion, Habitual. Dat vindt je dus niet door op recur….. te zoeken in de index, en ook niet door op habit…. te zoeken.(in een update van de engelse versie heb ik een aantal voorbeelden toegevoegd die laten zien dat het zoeken van MeSH-termen via Advanced Serach beta niet goed verloopt, t.z.t zal ik die hier vertalen)

    Je kunt als je een MeSH vindt, deze alleen zoeken of met een subheading eraan gekopeld (bijv. haemonchiasis/blood). Het aantal hits (63) is direct te zien.

  4. Het 4e vak is eigenlijk de limit-tab, maar dan volledig getoond. Nieuw is dat je bepaalde limieten aan kan laten staan (locked), terwijl je andere alleen voor de volgende search gebruikt.
  5. Het 5e vak is weer een index van alle velden. je kunt hier wel verschillende termen tegelijk invoeren.

Samenvattend, ik ben niet bijzonder onder de indruk van deze ‘geavanceerde’ seach optie. het is te ingewikkeld en te weinig intuitief voor een snelle search of het opzoekwerk, maar het is ook niet erg geschikt voor een geavanceerde search. Met name omdat je de MeSH alleen via indexen kunt opzoeken. Ook zijn er minder opties. De Clinical Queries ontbreken bijvoorbeeld. Aan de andere kant zijn de Limits zo prominent aanwezig dat gebruikers misschien sneller dan normaal geneigd zijn ze toe te passen. Persoonlijk gebruik ik ze zeer beperkt!

4. Kleinere veranderingen

  • Je kunt een Collection in MyNCBI nu simpel aanmaken via de send to option (perfect!)
  • PubMedID (ID voor Pubmed Central, rechtsonderaan)
  • Collaborators -display (gescheiden van auteurs)
  • In Abstract Plus
  • De linker blauwe balk (met geavanceerde opties) wordt in bepaalde display formats niet meer getoond. Hierdoor zou er meer ruimte komen voor nieuwe functionaliteiten (als de related reviews), maar ik vind het heel vervelend omdat ik meer stappen nodig heb om na elke individuele zoekactie weer naar de MeSH of Clinical Queries terug te gaan.







Google docs as a way to publish spam!!

7 06 2008

I just learned how to use Google docs for sharing and publishing documents. Yesterday I received an email-invitation by someone unfamiliar to share a Google-doc. The doc was called Spoetnik X document, where Spoetnik X is a fellow course member.

I took a look, but the doc was weird, with pictures of X all over the place, pictures of other people as well & funny text (codes, links?) in between. I recognized X’s picture, seen it somewhere on the web. On top of the post it said in RED with huge letters:

The document owner is not allowing collaborators to invite other people.

Meanwhile a commercial site had visited my blog consulting the same page twice. A page with one comment …made by X!
Dotcom entered my page by searching for X’s g-mail and dotcom left by the link to X’s page……

When I revisited the Google Doc some time later, the number of obscure cooperators had increased.
X had become one of them.

This did it. I tried to reach X in vain and deleted the doc.

Now I could be wrong, maybe it was just a joke. So I googled: google docs spam.

The result: almost 5.000.000 hits, most of them warning “Google Docs Being Used for Spam“. Apparently it is an easy way to circumvent spam filters.

Today I contacted the commercial site and they promised to check if their webforum had been misused.

Earlier I wrote that G-mail was vulnerable to spam. But it seems that more Google apps are at risk.

According to Wikipedia a weak point of Google apps is Cross-site_scripting

Want to read more? Here is an excerpt from VNU-net, written by Robert Jacques on June 3th!

Spammers exploit Google Docs
Cyber-crooks turn to mainstream hosted services

[…..] Spammers are instead moving towards the exploitation of free mainstream hosted services such as Google Docs, Google Calendar and Microsoft SkyDrive.

“The savvy and accurate cyber-criminals of today seem to have abandoned the attachments tactic that was so innovative in late 2007 and are exploiting free hosted applications which have become mainstream in 2008,” said Mark Sunner, chief security analyst at MessageLabs.

“The spammers are taking advantage of the fact that these services are free, provide ample bandwidth and are rarely blacklisted.

“This is one more addition to the growing list of ways in which the spammers have succeeded in outsmarting traditional detection devices.”

MessageLabs intercepted spam emails in May which contained links to spam contained in documents hosted on the Google Docs environment.

Traditional spam filters do not block links to the Google Docs domain, and spammers are using this to their advantage and even tracking their success through Google Analytics [….]

Or read this interview at: http://news.cnet.com/8301-10789_3-9951535-57.html

—————

NL flag NL vlag

Gedurende de Spoetnik cursus had ik net kennis gemaakt met Google docs. Heel handig om documenten te delen en te publiceren. Toen ik gisteren een doc kreeg met de naam van een Spoetnikcollega keek ik wel een beetje raar op. Ik kende de afzender niet, maar ja namen van blogs en gmails stroken vaak niet geheel met elkaar. Dus ik dacht, is misschien wel een document om X mee te verassen.

Ik ging maar eens kijken, maar het doc zag er vreemd uit, tig keer de foto van X en ook wat andere foto’s eronder, met onder elke foto een naam en 1 & 2, 3&4 etc en vreemde teksten, mogelijk links. Ik waagde me er maar niet aan. Bovenaan stond in rode koeieletters:

The document owner is not allowing collaborators to invite other people.

Bijna tegelijkertijd had ik in de sitemeter gezien dat een dotcom site mijn blog had bezocht en wel 2x dezelfde pagina met daarop maar 1 commentaar: die van X. Op mijn pagina was te zien dat die persoon had gezocht op gmail X en mijn blog verlaten had via een link naar X’s pagina.

Toen ik later nog eens naar het Google Doc ging kijken was het aantal onbekende samenwerkers toegenomen. X stond er zelf trouwens ook bij.

Dit deed de deur dicht. Nadat ik X vergeefs had proberen te bereiken, verwijderde ik het doc.

Of was ik paranoide? Misschien was het gewoon een grapje. Even checken op Google: google docs spam.

Huuu, bijna 5 miljoen hits, bijna allen waarschuwden ze ervoor dat Google Docs als spam gebruikt kunnen worden. Het is nl een hele mooie manier om spamfilters te omzeilen en om de links (na publicatie) heel effectief te verspreiden.

Ik heb wel met de commerciele site gemaild en kreeg direct antwoord dat ze vreesden dat iemand hun webforum had misbruikt. Ze zouden het proberen uit te zoeken.

Eerder had ik al gemeld dat spammers de beveiliging van G-mail gekraakt hadden. Nu blijkt dat alle Google-apps kwetsbaar zijn.

Volgens Wikipedia is een zwak punt van Google apps het zgn “Cross-site_scripting” (je hoeft niet steeds opnieuw in te loggen in een nieuwe applicatie, je bent dus semi-permanent ingelogd)

meer lezen:

1. VNU-net, Robert Jacques (3 juni 2008)! :Spammers exploit Google Docs. Cyber-crooks turn to mainstream hosted services (zie fragment hierboven)

2. http://news.cnet.com/8301-10789_3-9951535-57.html (interview)

3. En een possibly related (nederlandse) post die wel relevant lijkt (van 23 dingen)

Nou ik ga dus nog voorzichtiger worden.





Technorati back?

28 05 2008

In my previous post I mentioned that Technorati had been down for a week.

But now Technorati seems to be in the air again, according to the new message on the Technorati support block.

And indeed, also in my hands everything seems to be working again.

That is a relief!





What is wrong with Technorati?

27 05 2008

This is the message I got from Technorati: favorites will be right back.

O.k. those things can happen.

But I’m seeing this message for a week now.

Right back? When?

Am I the only one having this problem?

————

May 27th: 16.00: While trying to get to the Technorati support staff, I found a Technorati Support Blog with an official (?) announcement on the (May 20th) saying:

Favorites / Fans currently Down.

Apologies for any inconvenience!! We are working on it and it should be back up soon. A message will be posted here when it is back up. Thanks for your patience.

So it is a general (and long lasting) problem. Hopefully it will be resolved (real) soon.

……………..

May 27th 16:17. ha, ha, ha. have a look at the possibly related posts to this post.

Possibly related posts: (automatically generated)





Possibly an announcement about possibly related posts

16 05 2008

Related to my previous post “new related reviews in Pubmed” (which appeared possibly an anouncement) is this post on “possible announcement of possibly related post” appearing in WordPress. Are you still with me?

Matt wrote a post “Possibly an anouncement” about the introduction of a new feature in WordPress: Related Posts. In English posts to begin with:

“In a feature we’re calling possibly related posts we’ll now try to show posts related to yours a little section at the end. If we find any posts on your blog that are related, we’ll put those at the very top and in bold. Next we’ll show other posts from around WordPress.com, and finally we’ll check if there’s anything in the mainstream media.”

In the ensuing discussion Matt reveals that “related thingy” as someone calls is not done via tags or keywords, but with all the content in the post. According to Matt “Sphere” creates something they call a “document genome” (LS: Wow! they sequence it!) and use it to do the matching, which can work a lot better than tags and categories”.

It is still in an experimental stage and will be tweaked on basis of feedback and data collected. Introducing related posts may increase traffic between blogs as one can easily go from one interesting item via another to an even more interesting item. A kind of “post-hopping” or lateral navigation, as Matt calls it.

Interesting idea, but is it working?

Well, I surveyed some of my blog posts in a similar way as Hugh from the “I’m not actually a geek” blog to see what the possibly related posts to my posts were. They’re shown below, along with a rating of ‘++‘ for related and interesting, ‘— ?‘ for not related, ‘±’ for posts show a certain similarity. ↔ = reciprocal

A. new-related-reviews-in-pubmed/ (Dutch/English)

  1. From Change the Display Format of Single Citations with My NCBI PubMed® User Preferences (link) ±

(it is about PubMed, o.k. but mature and about the display format, not really about related articles and certainly not about related reviews-which are new ; the site itself is interesting -for me, but not updated for a year (Quite the opposit, Anna updates here blog daily. See somments. Sorry!)

B. Opening UBA? (Dutch)

the first two are from the same site and they link to each other but not to me.
Hé: Dutch posts show the relating feature as well 🙂

C. appropriate-bedside-manners (Dutch/English)

  1. Why paternalism isn’t dead « WhiteCoat Underground ± (about doctor -patient communication, but not about bedside manners or doctors crying
  2. The Art Of Medicine, kind of book review ± (same, and a book review)
  3. Building Physician Practices in Florida through Interactive Websites — ?
  4. At Bedside, Stay Stoic or Display Emotions? ++ (but it is a reference in my blog

The last post (4) is a reference in my blog (yeah, easy!), and does not relate to me, nor do the other ones but 1 and 3 do relate again to 4.

D. etiquette-based-medicine (Dutch/English)

  1. Een nieuw begin (uit de oude doos) — ?
  2. Een al te lange roede — ?
  3. Topartiest — ?

No resemblance whatsoever, except perhaps some english words/an English title next to Dutch ones. The second one is again a nice blog (a dutch biologist, brughagedis!)

Well E, I see at a glance, yields nonsense again. I don’t take the trouble to write this down.

This trial was unsuccessful, indeed. The extremely low yield of NEW interesting posts might relate to the usage of both Dutch and English, but I can’t understand why a new subject as Etiquette based medicine (NEJM-paper) does yield only irrelevant Dutch posts. In addition the related posts do not link back. Till now I never received any hopping guest (except via the WordPress dashboard, news, or tags).

Which brings me to a more generally uttered criticism, that is that Related Posts brings your reader(s) away from your blog, so you loose and don’t gain.

Others criticize is that the posts linked to their blog are not remotely related and sometimes even quite contradictory (vegy food gives meat) or even link to racist and offensive material and that there is no control over the links, even a kind of intrusive to put (unrelated) links below a post without any notification. Somebody noted that It would be great if we had an easy-to-use formatting tool to list related posts of our choosing, not random word-search weirdness from the internets. Others object that tags (added yourselves) already serve this purpose of lateral navigation.

My feelings are quite similar to those of Douglas Bell (commenting on the announcement)

“I’m sorry, but I am astonished at how this feature was added. The particular blog that I run on WordPress.com is a professional blog with important content, and now to see something called “Possibly Related Posts” appearing in the exact same place and format as my own content, displaying links to blogs that I have no control over (and many of these links having absolutely nothing to do with my blog and linking to very inappropriate non-PG, non-English content) is quite infuriating. It’s fine that this feature can be turned off, but shouldn’t it have been opt-in, instead of opt-out?”

Of course there are positive reactions as well, mostly very short comments : awesome, I like this, you guys are great….

But I don’t like it, not when it works this way and I will put the feature off. I might give it a second chance later to see if it performs better.

And the missed traffic to my blog? I don’t mind. I rather have a few interested people here, than just traffic passing by. I hate highways anyway. Prefer the quiet countryside and wait there for somebody to visit me and stay for a while. And of course I pay a visit back.

Note added in proof: some related posts have been refreshed in the meantime.


* The 3D WordPress Logo resembling a yoyo is created by Kate from Nineteen Labs